Сочинение на тему Подход глубокого обучения в системе обнаружения сетевых вторжений с использованием набора данных NSL-KDD

Опубликовано: 23.06.2020
Предмет: Информационная наука, преступление
Темы: Безопасность, Сетевая безопасность

Аннотация: сетевая инфраструктура любой организации всегда находится под постоянной угрозой различных атак; а именно взломы, нарушение безопасности или неправильное использование системы. Сетевая система обнаружения вторжений (NIDS), используемая в сети, обнаруживает такие атаки проникновения и вторжения в сеть. Известные классы атак можно легко обнаружить, выполнив сопоставление с образцом, в то время как неизвестные атаки труднее обнаружить. Была предпринята попытка разработать и внедрить метод глубокого обучения для обнаружения вторжений, который не только обучается, но и приспосабливается к шаблонам, не определенным ранее. Разреженный авто-кодировщик был использован для обучения функции без присмотра. Логистический классификатор затем используется для классификации по наборам данных NSL-KDD. Результаты оказались очень многообещающими для будущего использования и модификаций. Ключевые слова – NIDS, глубокое обучение, разреженный авто-кодер, логистический классификатор, NSL-KDD

Введение

Сетевая архитектура всегда уязвима для различных типов нарушений безопасности, попыток взлома, проникновения и других подобных вторжений со стороны неавторизованных и злонамеренных пользователей. Сеть, являющаяся хранилищем, предназначена для совместного использования ресурсов авторизованными пользователями, а также привлекает нежелательных пользователей, которые заинтересованы в их использовании. Кроме того, формулировки глобальных политик защиты редки и трудны для реализации. Нарушение безопасности или вторжение – критическая проблема для любой организации. Таким образом, важно разработать меры предосторожности для защиты интересов организации от различных категорий атак, которым она подвержена. Как определено Heady et al. [1], «вторжение – это набор действий, которые пытаются поставить под угрозу целостность, конфиденциальность или доступность информационных ресурсов». Система, используемая для обнаружения таких вредоносных действий в сети, называется Сетевой системой обнаружения вторжений (NIDS). Он должен быть в состоянии обнаружить широкий спектр атак и нарушений безопасности, совершаемых посторонними лицами. Система также должна иметь возможность проверять любые действия, связанные с злоупотреблениями и злоупотреблениями, совершаемыми инсайдерами. Злоумышленники могут быть в целом классифицированы на три разные категории. Маскарадерами обычно являются аутсайдеры, которые не являются авторизованными пользователями, но проникают в систему с использованием законных учетных записей пользователей. Misfeasor – это инсайдер, законный пользователь, который злоупотребляет предоставленными привилегиями и получает доступ к ресурсам, на которые они не авторизованы. Подпольным может быть как инсайдер, так и аутсайдер, который пытается получить контролирующий доступ к системе [7]. NIDS делятся на две категории, а именно; Система обнаружения вторжений на основе сигнатур (SNIDS) и Система обнаружения вторжений на основе обнаружения аномалий (ADNIDS). SNIDS поднимает тревогу за вторжение, выполняя сопоставление с образцом функций информации, о которой оно знает. ADNIDS, с другой стороны, вызывает тревогу для вторжения, если есть какие-либо существенные отклонения анализируемой пользовательской активности от обычной схемы трафика. Следовательно, SNIDS имеет более высокую частоту обнаружения для известных типов атак, в то время как ADNIDS работает лучше в случае новых / неизвестных моделей атак. Однако из-за различий в поведении злоумышленника, ADNIDS имеет тенденцию генерировать высокие ложные тревоги.

Нарушения безопасности могут быть обнаружены путем мониторинга записи системного аудита на предмет любых ненормальных схем использования системы [2]. Различные виды машинного обучения использовались для разработки сетевой системы обнаружения вторжений для обнаружения аномалий [5]. Разработанная модель NIDS может быть обучена и протестирована на работоспособность с использованием набора данных NSL-KDD [9], который является значительным обновлением набора данных KDD Cup 99 [8]. Различные методы машинного обучения работают по-разному в зависимости от входных характеристик, выбранных наборов обучающих и тестовых данных [3]. Подобные типы подходов, методов обучения и функций ввода не всегда гарантируют одинаковые результаты для множества различных классов возможных неизвестных атак. Методы глубокого обучения популярны, так как они способствуют созданию надежных и эффективных NIDS. Подход глубокого обучения, основанный на Sparse Auto-Encoder [4] или на несимметричном Deep Auto-Encoder (NDAE) [6], полезен для неконтролируемого изучения особенностей немеченых данных для понимания поведенческих моделей злоумышленника. Классификация паттернов может затем выполняться с использованием регрессии soft-max или любых других подходящих классификаторов. В предлагаемой работе для изучения природы шаблонов используется метод глубокого обучения, основанный на разреженных авто кодерах, а классификатор логистической регрессии используется для классификации пользователей на основе шаблонов, изученных сложенными кодерами. Соответствующая работа обсуждается в разделе 2.

Предлагаемая работа приведена в Разделе 3, а ее дизайн приведен в Разделе 4. Экспериментальные результаты приведены в Разделе 5. Результаты и обсуждение приведены в Разделе 6. Заключение и дальнейшая работа приведены в Разделе 7. 2 Связанные работы Большинство работ, выполненных для части прогнозирующего моделирования обнаружения вторжений, выполняются с использованием аналогичных типов наборов данных для обучения и тестирования. С помощью этих наборов данных сложно обобщить события в реальном времени. Мера производительности большинства этих прогностических моделей, таким образом, уменьшается при передаче в реальный сетевой трафик. Было предложено несколько подходов для классификации нормальных соединений с аномалиями для обнаружения вторжений в сеть. Shyu et al. [5] предложили новую схему с использованием анализа основных компонентов (PCA), рассматривая аномалии как выбросы. Схема обнаружения аномалий работала лучше с набором данных KDD’99. Уровень обнаружения вырос до 99%, а уровень ложных срабатываний снизился до 1%. Revathi и соавт. [3] выполнили детальный анализ набора данных NSL-KDD, используя только релевантные признаки как с уменьшением признаков набора данных, так и без него для различных алгоритмов классификации, таких как дерево решений J48, Случайный лес, Машина опорных векторов, Наивный байесовский алгоритм и т. Д. Случайный лес достигли максимальной точности испытаний в обоих случаях. Методы глубокого обучения способствуют развитию гибких и надежных NIDS. Нияз и соавт. [4] предложили метод самообучения (STL), метод глубокого обучения, использующий Sparse Auto-Encoder для обучения без надзора и регрессию soft-max для классификации. Модель была оценена для классификации 2 класса, 5 класса и 23 класса, и полученные результаты были обнадеживающими, и модель показала лучшие результаты. Шон и др. [6] предложили новую модель классификации глубокого обучения, построенную с использованием сложного несимметричного глубокого авто-кодера (NDAE) для неконтролируемого изучения особенностей и алгоритма RF-классификации для классификации.

Модель была реализована в TensorFlow с использованием эталонных наборов данных KDD Cup’99 и NSL-KDD. Модель достигла постоянного уровня точности классификации с сокращением времени обучения и высоким уровнем точности и отзыва. 3. Предлагаемая работа Предлагаемая работа направлена на использование основанного на глубоком обучении подхода для обнаружения вторжения в сеть. Система использует глубокую сеть, чтобы обучать себя шаблонам аномалий и классифицировать сетевой трафик между обычными соединениями и вторжениями. Этот подход также направлен на снижение частоты ложных тревог до минимального значения. Подход обладает гибкостью, чтобы приспособиться к новым моделям вторжений и поведению человека, которые могут измениться в ходе курса. Предлагаемая система реализует глубокую сетевую систему (разреженный авто-кодер с логистической регрессией), обученную набором данных NSL-KDD. Это дает выходное значение 0 или 1, где 1 обозначает нарушителя, а 0 соответствует обычному пользователю. Система использует в общей сложности 115 функций в качестве входа в систему, некоторые из которых; используемый протокол, адрес источника, адрес назначения, отметка времени, услуги, флаг, количество неудачных входов в систему, количество входов в систему. Каждая функция дается в качестве входа для нейронов. Разреженный авто-кодер с ограничением разреженности предназначен для обучения и изучения новых функций из набора данных. Глубокая сеть создается путем наложения автокодировщиков, а классификация по изученным признакам осуществляется с использованием сети логистической регрессии. Логистическая регрессия берется, поскольку выходные данные включают идентификацию двух классов пользователей. Точно настроенная сеть затем используется для классификации входных данных.

Дизайн

Предварительная обработка набора данных выполняется перед применением в сети. Нечисловые параметры заменяются числовыми значениями, и набор данных нормализуется с использованием операции max-min для стандартизации данных. Общий поток предлагаемой системы приведен ниже на рисунке 1. Набор данных KDD-Cup, модификация набора данных NSL-KDD, включает в себя 41 функцию, полученную из соединений TCP / IP, функции трафика, накопленные в интервале окна, и функции контента, извлеченные из данные прикладного уровня соединений. Из 41 функции 34 являются непрерывными, 4 двоичными и 3 символическими (protocol_type, service, flags). Рисунок 1: Блок-схема проекта Авто-кодировщик – это искусственная нейронная сеть, используемая для обучения без учителя. Он изучает новые функции из набора данных из шаблонов ввода. Входной слой представляет собой оригинальные наборы объектов, скрытый слой способствует лучшему пониманию новых функций с помощью уменьшенных размеров. Выходной слой представляет целевой объект, такой же, как у входного источника. Разреженные автокодеры с ограничением разреженности позволяют сети четко исследовать эффекты разреженности для данного набора данных, что помогает находить новое распределение шаблонов входных данных. Авто-кодер использует стохастический сопряженный градиент для минимизации ошибок с сигмоидальной функцией в качестве функции активации. Первый уровень разреженного авто-кодера уменьшает набор функций 115 до 50, как показано на рисунке 2. На диаграмме Xi (1-115) представляет входные узлы, hi (1-50) представляет скрытые узлы слоя, а Xi (1-115) представляет узлы выходного слоя.

Разреженный автокодер уровня 2 дополнительно сокращает 50 изученных функций до 10 новых функций, которые затем передаются в качестве входных данных для логистической регрессии. На схеме, показанной на рисунке 2, h1i (1-50) представляет входные узлы, h2i (1-10) представляет скрытые узлы слоя, а h1i (1-50) представляет узлы выходного слоя. Новые функции, извлеченные из автокодера 2 уровня 2, передаются в логистический классификатор, который определяет, является ли пользователь нормальным (0) или нарушителем (1), как показано на рисунке 4. Логистическая регрессия использует сигмоидную или логистическую функцию в качестве своей функции активации давая меру вероятности выхода в диапазоне [0,1]. Рисунок 4: Логистический классификатор (классифицирует 10 входов на два выхода) Конечный стек реализует полностью подключенную сеть, состоящую из 1 входного уровня, 1 выходного уровня и 2 скрытых блоков. 115 входных данных из исходного набора данных сжимаются и уменьшаются до 50 узлов во втором слое и до 10 узлов в третьем слое. Конечный выходной слой классифицирует, является ли пользователь нормальным или нет. Рисунок 5: Полностью подключенный слой (вход: 115, скрытый 1:50, скрытый 2:10, выход: 2) 5. Экспериментальные результаты В общей сложности 22 545 данных с 41 особенностями было взято из набора данных NSL-KDD для обучения. 3 символические функции (протокол, служба, флаг) были расширены с использованием кодирования 1-N. Кодированные данные содержат 115 функций (3 из протокола, 64 из службы и 11 из флага). Protocol_type имеет 64 варианта, а именно; FTP, HTTP, логин и т. Д., Который указывает используемый протокол.

Тип сервиса описывает сервисы ICMP, TCP и UDP. Флаги REJ, SF, S0, S1 и т. Д. Обозначают приоритет данных. Num_access_files игнорируется, так как он остается 0 во всем наборе данных. Набор данных NSL-KDD нормализуется с помощью операции max-min. 5.1. Авто-кодировщик 1: Параметры, связанные с автоматическим кодировщиком «msesparse» на уровне 1, как показано на рисунке 6: 1. регуляризация = 0 2. L2 WeightRegularization = 0.001 3. sparsityRegularization = 4 4. sparsity = 0.2 Рисунок 6: Разреженный авто-кодер 1 (выходной вид (сеть 1)) и график производительности для разреженного авто-кодера 1 Наилучшая проверка производительности для авто-кодера 1 из 0.021971 оценивается в 382 эпохах. 5.2 Разреженный авто-кодер 2: Параметры, связанные с авто-кодером ‘msesparse’ на уровне 2, как показано на рисунке 7: 1. регуляризация = 0 2. L2WeightRegularization = 0,001 3.sparsityRegularization = 1 4. sparsity = 0,05 Рисунок 7 Разреженный авто-кодер 2 (выходной вид (сеть 2)) и график производительности для разреженного авто-кодера 2 Наилучшая проверка производительности для разреженного авто-кодера на уровне 2 0,0046754 оценивается в 200 эпох. 5.3 Логистический классификатор: Логистический классификатор берет выходные данные кодеров уровня 2 и классифицирует их по 2 классам объектов, как показано на рисунке 9. Рисунок 9: График регрессии для Логистического классификатора. 5.4. Полностью подключенный уровень Полностью подключенная сеть стека всех сетей (авто-кодер 1, авто-кодер 2, логистическая регрессия) построена, как показано на рисунке 10. Набор данных берется как вход и классифицируется на 2 выхода (обычный = 0; нарушитель = 1). Внутренние веса получены из предыдущих авто-кодеров и логистического классификатора. Рисунок 10: Полностью подключенный уровень (представление (deepnet)) 6. РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЯ Сеть была протестирована с 2401 выборочным вводом, и сформированная матрица путаницы показана ниже на рисунке 11. Рисунок 11: Матрица путаницы из набора данных из 1283 аномалий, 1191 были успешно идентифицированы, а остальные 92 были признаны ложными срабатываниями. Из 1118 нормальных паттернов в качестве входных данных 216 были идентифицированы как вторжения, тогда как 902 были классифицированы как нормальные. Общая точность составляет 87,2%. 7.

ЗАКЛЮЧЕНИЕ И БУДУЩАЯ РАБОТА

Подход, основанный на глубоком обучении, для Системы обнаружения вторжений в сеть – это метод, основанный на аномалиях, который используется для обнаружения любого возможного вторжения любого типа в сеть. Deep Learning A на основе аномалий …

Зарегистрируйся, чтобы продолжить изучение работы

Поделиться сочинением

Ещё сочинения

Несколько советов от команды реагирования на инциденты компьютерной безопасности

30.10.2020 Комментариев нет

Группа реагирования на инциденты в области компьютерной безопасности (CSIRT, пояснено «see-sirt») – это подразделение, которое получает отчеты о взрывах безопасности, проводит проверки отчетов и отвечает

Читать полностью »

Управление и разработка программы и политик информационной безопасности

30.10.2020 Комментариев нет

АВТОРЕФЕРАТ Отчет о назначении отдельных лиц и групп связан с программой и политиками управления и развития ИТ-безопасности. Организация, которую я выбрал, воображаемая организация A2Z. Основной

Читать полностью »

Безопасность удаленной системы

29.10.2020 Комментариев нет

Безопасность удаленной системы – это способ наметить, реализовать и обеспечить безопасность на удаленном компьютере. Это подмножество системной безопасности, которое включает гарантию для удаленной сети ПК.

Читать полностью »