Сочинение на тему Классификация вредоносных программ с использованием машинного обучения

Опубликовано: 17.10.2020
Предмет: Информационная наука
Темы: Искусственный интеллект, Кибер-безопасности

Вредоносное ПО обычно является головной болью почти на всех мобильных телефонах, ноутбуках, картах памяти и т. д. Наиболее распространенным методом, используемым вредоносным ПО для предотвращения обнаружения, является двоичное запутывание либо с помощью шифрования. Одним из методов, используемых вредоносным ПО для избежания обнаружения, является двоичная обфускация либо шифрованием (полиморфизм), либо метаморфическими атаками (другой код для одной и той же функциональности). Для их быстрого и эффективного обнаружения мы должны сгруппировать их в соответствии с их семьей. Это вызывает растущую потребность в автоматизированной, самообучающейся, быстрой и эффективной технике, которая будет устойчива к этим атакам. В этой статье мы только собирались классифицировать вредоносные программы по их соответствующим семействам и не обнаруживать их (определить, являются ли они вредоносными программами или нет). Критерий 500 отсчетов наблюдаемого значения должен быть выбран для нашего набора классов данных, который будет использоваться нашими алгоритмами машинного обучения. В этой статье мы сфокусируемся на новых методах визуализации данных, таких как представление изображений вредоносных программ и классификация на основе искусственных нейронных сетей и K-Nearest Neighbor.

Анализ вредоносных программ обычно выполняется как «Статический анализ», «Динамический анализ», а также «на основе сигнатур». При статическом анализе файлы кода дизассемблирования анализируются на наличие вредоносных системных вызовов. Модель должна быть построена для потоковых графиков управления. Принимая во внимание, что в методике динамического анализа вредоносных программ данные анализируются в контролируемой среде, а также отслеживаются (системные журналы). Этот упомянутый процесс является чрезвычайно медленным, а также ресурсоемким и длительным. Оба упомянутых метода работают хорошо, но статический анализ кода страдает от различий в реализации вредоносных программ, в то время как динамический анализ вредоносных программ ограничен средой и условиями запуска вредоносных программ, и, следовательно, также является масштабируемой опцией. Чтобы проанализировать сигнатуру вредоносного ПО, ее необходимо создать с использованием методов N-Gram. Разборка вредоносного ПО анализируется на большинство повторений операционных кодов, и N-Grams должны быть построены на основе этого.

Для визуализации данных мы используем методы визуализации вредоносных программ. Мы преобразуем каждый байт-код вредоносного ПО в изображение в градациях серого. Вредоносные программы из разных семей имеют сходство во внешнем виде, это основной принцип, которому следует следовать. Эти изображения должны использоваться для классификации на основе изображений. OPCODE рассчитывается по коду разборки.

Цель этой статьи – реализовать алгоритмы машинного обучения, чтобы классифицировать вредоносные программы по соответствующим семействам. Данные должны быть взяты с сайта www.kaggle.com, предоставленного Microsoft, содержащего 10868 образцов вредоносных программ, относящихся к 9 различным классам, а именно: файлы из девяти различных семейств вредоносных программ, а именно: Ramnit, Lollipop, Kelihos ver3, Vundo, Simda, Traceur, Kelihos. ver1, Obfuscator.ACY и Gatak соответственно. Целью здесь является анализ, визуализация вредоносных программ и предварительный анализ данных. Таким образом, цель состоит в том, чтобы разработать новую интегрированную модель, которая использует преимущества всех моделей.

Определение проблемы:

Была проделана большая работа по анализу вредоносных программ. Методы статического, динамического и сигнатурного анализа вредоносных программ были исследованы во многих статьях. Публикация, основанная на визуализации вредоносных программ на основе изображений, была одним из предпочтительных способов [1], в котором объясняется, как формировать изображение из двоичных файлов вредоносных программ, как визуализировать эти изображения. При альтернативном подходе для извлечения данных из кода разборки, который можно было использовать для классификации [2], точность данных была неоптимальной. В этой статье предлагается способ извлечения новых функций, основанных на N-граммах, разделах кода и последовательности кодов операций и вызовах DLL. Но даже прежде, чем мы сможем разработать сигнатуры для вредоносных программ, необходимо выполнить определенные задачи в рамках обнаружения и классификации вредоносных программ.

Связанная работа:

Была проделана большая работа по анализу вредоносных программ. Публикуются многие статьи, которые обозначают статические, динамические и сигнатурные методы анализа вредоносных программ. Публикация, основанная на визуализации вредоносных программ на основе изображений в качестве одного из предпочтительных способов [1]. В этой статье объясняется, как сформировать изображение из двоичных вредоносных файлов, как визуализировать эти изображения. Это машины используются для классификации на основе изображений. Мы также сослались на документ, в котором определяется, как извлечь данные из кода разборки, который можно использовать для классификации. [2] В этой статье предлагается способ извлечения новых функций, основанных на N-граммах, разделах кода и последовательности кодов операций и вызовах DLL. Но даже прежде, чем мы сможем разработать сигнатуры для вредоносных программ, необходимо выполнить определенные задачи в рамках обнаружения и классификации вредоносных программ.

Анализ. Мы изучили несколько статей, в которых используются те же принципы, что и у нас, для классификации вредоносных программ в их семейства. Было замечено, что в случае отсутствия данных модель многоуровневого восприятия и логическая регрессия хороши.

Были использованы методы визуализации изображений, которые в среднем обеспечивали точность прогнозирования 95% при использовании Deep Neural Network. Мы также обнаружили, что методология дает оптимальный результат по сравнению с другими доступными методами. Принимая во внимание, что основанная на машинном обучении классификация вредоносных программ для приложений Android, использующих мультимодальные представления изображений [3], немного медленная, когда дело доходит до обработки данных.

Предлагаемая методология:

Для анализа подписи подпись строится с использованием методов N-Gram. Демонтаж вредоносного ПО анализируется на большинство повторений операционных кодов, и N-Grams построены на этом.

Мы предлагаем использовать методы визуализации вредоносных программ. Мы стремимся преобразовать каждый вредоносный байт-код в изображение в градациях серого. В ходе исследований и анализа было обнаружено, что вредоносные программы из разных семейств имеют сходство во внешнем виде, что дает нам возможность использовать эту слабость. Эти вредоносные изображения будут использоваться для классификации изображений. Из кода дизассемблирования мы вычислим количество OP-CODE, DLL и количество секций из предоставленных кодов сборки. Для классификации вредоносных программ были использованы верхние функции, проанализированные из всех файлов сборки. Критерий 500 отсчетов наблюдаемого значения должен быть выбран для нашего набора классов данных, который будет использоваться нашими алгоритмами машинного обучения.

Эти различные проанализированные наборы данных будут использоваться для классификации, выполненной на инструментальной машине MATLAB. В этой статье мы описали методы визуализации данных, синтаксический анализ, выбор алгоритмов классификации и полученные результаты.

Визуализация данных:

Как предлагается в методике создания и классификации изображений вредоносных программ, каждый байт данных преобразуется в пиксель в градациях серого. Массив или поток байтов был преобразован в изображение [1]. Образное представление вредоносного ПО, создающее очень убедительные изображения вредоносного ПО. Полиморфное вредоносное ПО выглядит похоже с небольшим отклонением сегментов кода. Сегменты / фрагменты из двоичного файла. Из рисунка (3) можно наблюдать части сечений. Сегмент .text содержит весь код и заполнение нулями.

Сегмент .rdata содержит все константы. Сегмент .data содержит все данные, которые инициализируются. Раздел .Rsrc включает в себя значки файлов. Автору [1] также удалось получить различные снимки из этих сегментов по своим тестовым данным. По нашим наблюдениям, мы не получили никаких значков от / для вредоносной программы. Каждый класс данных предоставил уникальную текстуру изображения, что помогло выбрать функции.

Анализ данных:

Двоичные файлы вредоносных программ будут преобразованы в изображения в градациях серого. Поскольку эти изображения являются переменными и очень высокими по размерам. Сначала мы сжимаем изображения в направлении постоянного небольшого размерного изображения. Мы также будем использовать библиотеку NumPy Python для формирования изображения и уменьшения размера. На этих маленьких изображениях мы вычислили суть, чтобы суммировать информацию о градиенте изображений. Gist вычисляет фильтры Габора, которые являются мерами сходства текстур на изображениях и как вредоносные программы, схожие текстуры на изображениях, эти функции могут использоваться в качестве данных. Из разборки извлекаются все строки сегментов кода, все коды операций и вызовы DLL. После извлечения необходимо выполнить суммирование для всех столбцов, чтобы увидеть наиболее ценные признаки. Наиболее ценные 321 частоты, поскольку функции должны быть выбраны. Эта модель является гибридной моделью извлечения данных [4]. Мы получим открытый лицензированный парсер BSD, написанный на коде Python, который делает то же самое.

Предлагаемые результаты и анализ:

Мы попробуем запустить ANN с различными соседними значениями и расстояниями. Для этого мы будем использовать оба файла данных, которые мы получили, то есть один из файла разборки и один из изображений Рис. 3. Настройка ANN на данные разборки [1]. Настройка ANN для данных изображения [1] Мы скомпилировали то же самое на панели инструментов MATLAB в 10 раз, и полученные результаты были следующими: Мы написали код MATLAB для анализа производительности алгоритма KNN для различных значений Neighbor и расстояний от данных настройки Полученный, мы получили наименьшее значение объективной функции для Cityblock, и с расстоянием 1, на данных изображения. Из кода, который мы разработали, мы получили точность 91,26%. Это очень близко к выводу, который мы получили из набора инструментов машинного обучения в Matlab. Из полученных данных настройки мы получили наименьшее значение объективной функции для Шермана и с расстоянием 1 для данных .asm. Из кода, который мы разработали, мы получили точность 98,8%. Это также очень близко к выводу, который мы получили из набора инструментов машинного обучения в MATLAB.

Мы сможем понять функционирование различных алгоритмов машинного обучения, а также определить, какой из них дает оптимальные результаты.

Мы также изучим новые методы извлечения данных для преобразования файлов вредоносных программ в изображения в оттенках серого и классификации их в соответствующие семейства на основе их подписей. Этот проект будет очень полезен для производителей аудио-видео, так как это самообучающийся и автоматизированный процесс классификации.

Среди классификаторов, упомянутых в этом проекте, мы надеемся достичь оптимальных результатов от ANN. Мы будем изучать, анализировать и сравнивать два метода алгоритма машинного обучения, то есть алгоритмы ANN и KNN. Ожидаемый результат, ожидаемый от ANN, составит около 95% с точки зрения точности. Мы планируем достичь лучших результатов, используя ANN, используя новые методы извлечения данных. Это связано с тем, что изображения, полученные из файлов вредоносных программ из одного семейства, настолько похожи, что расстояние между ними одинаково. В случае файлов с большим расстоянием рассматриваются разные семейства. Мы также надеемся получить уровень обнаружения 91% наряду с ложноположительным показателем 0,1%. Помимо этого, наш подход требует скромных вычислений для выполнения, а также для анализа. Также обращается внимание на то, что набор данных может быть обучен автоматической классификации вредоносных программ в соответствующие семейства на основе заданных или определенных пользователем параметров.

Мы планируем реализовать Xgboost и ансамбли, чтобы объединить результаты различных моделей, которые мы попробовали, что дало наилучшие результаты. Также есть возможность обойти код разборки и симулировать вредоносное ПО в контролируемой среде. Мы можем собирать системные вызовы и журналы могут быть использованы в качестве другого набора данных. При всем этом это можно сочетать с другими моделями ансамблей. Кроме того, мы можем попытаться извлечь N-граммы из шестнадцатеричных данных, и это можно объединить с данными, полученными из кода разборки, для построения набора обучающих данных. Согласно публикациям, это должно привести к лучшим результатам.

Зарегистрируйся, чтобы продолжить изучение работы

Поделиться сочинением

Ещё сочинения

Краткая история кибербезопасности

30.10.2020 Комментариев нет

Кибербезопасность или защита информационных технологий – это методы защиты компьютеров, сетей, программ и данных от несанкционированного доступа или атак, направленных на эксплуатацию. Существует четыре типа

Читать полностью »

Несколько советов от команды реагирования на инциденты компьютерной безопасности

30.10.2020 Комментариев нет

Группа реагирования на инциденты в области компьютерной безопасности (CSIRT, пояснено «see-sirt») – это подразделение, которое получает отчеты о взрывах безопасности, проводит проверки отчетов и отвечает

Читать полностью »

Позвоните в полицию. На моем компьютере преступник!

30.10.2020 Комментариев нет

Обычным сюжетом голливудских триллеров является устройство «Не отвечай на телефон». В этом фильме няня знает, что придет маньяк, чтобы убить ее или детей. Важный момент

Читать полностью »