Сочинение на тему Параллельные и распределенные вычисления для кибербезопасности

Опубликовано: 20.08.2020
Предмет: Информационная наука
Темы: Кибер-безопасности

Опубликовано IEEE Computer Society Vol. 6, № 10;

октябрь 2005 г.

Параллельные и распределенные вычисления для кибербезопасности

Университет Миннесоты

Параллельный и распределенный анализ данных предлагает большие перспективы для решения проблемы кибербезопасности. Система обнаружения вторжений в Миннесоте может обнаруживать сложные кибератаки в крупных сетях, которые трудно обнаружить с помощью систем на основе сигнатур.

Эта статья основана на выступлении автора (ppt)

(http://www.ieee.org/netstorage/computer_society/dsonline_media/Kumar-

PDCS2004 / Kumar-KeynoteLecture-PDCS2004.ppt) на Международной конференции 2004 года по параллельным и распределенным вычислениям и системам (PDCS 04).

Феноменальный рост вычислительной мощности на протяжении большей части последних пяти десятилетий был обусловлен научными приложениями, требующими огромных объемов вычислений. Но в последнее время основное внимание на параллельных и высокопроизводительных компьютерах уделялось ориентированным на данные приложениям, в которых общая сложность приложения определяется размером и характером данных. Интеллектуальный анализ данных является одним из этих ориентированных на данные приложений, который все в большей степени стимулирует развитие технологии параллельных и распределенных вычислений.

Взрывной рост доступности различных видов данных как в коммерческих, так и в научных областях привел к беспрецедентной возможности для разработки автоматизированных методов обнаружения знаний на основе данных. Интеллектуальный анализ данных, важный шаг в этом процессе обнаружения знаний, состоит из методов, которые обнаруживают интересные, нетривиальные, полезные шаблоны, скрытые в данных. 1,2

Огромный размер и высокая размерность доступных наборов данных делают крупномасштабные приложения для интеллектуального анализа данных настолько требовательными в вычислительном отношении, что высокопроизводительные параллельные вычисления быстро становятся неотъемлемым компонентом решения. Данные, как правило, распространяются, а такие проблемы, как масштабируемость, конфиденциальность и безопасность, не позволяют объединять данные. Такие случаи требуют распределенного анализа данных.

В эту смесь входит Интернет, вместе с его огромными преимуществами и уязвимостями. Необходимость в кибербезопасности и неадекватность традиционных подходов вызвали интерес к применению интеллектуального анализа данных для обнаружения вторжений. Эта статья посвящена перспективам и применению параллельного и распределенного интеллектуального анализа данных для кибербезопасности.

Потребность в кибербезопасности

Частные лица и организации атакуют компьютерные системы и злоупотребляют ими, ежедневно создавая новые интернет-угрозы. За последние несколько лет количество компьютерных атак увеличилось в геометрической прогрессии3, а их серьезность и острота также растут.4 Например, когда в начале 2003 года червь Slammer / Sapphire начал распространяться по Интернету, он удваивался 8,5 секунд и заразили не менее 75 000 хостов. 3 Это вызвало перебои в работе сети и непредвиденные последствия, такие как отмены рейсов авиакомпании, вмешательство в выборы и сбои банкоматов.

Традиционный подход к обеспечению безопасности компьютерных систем заключается в разработке таких механизмов, как брандмауэры, средства аутентификации и виртуальные частные сети, которые создают защитный экран. Однако эти механизмы почти всегда имеют уязвимости. Они не могут отразить атаки, которые постоянно приспосабливаются к уязвимостям системы, которые часто бывают вызваны небрежными ошибками проектирования и реализации. Это создало необходимость в обнаружении вторжений, 5,6 технологии безопасности, которая дополняет традиционные подходы к безопасности с помощью систем мониторинга и выявления компьютерных атак.3

Традиционные методы обнаружения вторжений основаны на обширных знаниях эксперта о знаках атаки (символьные строки в полезной нагрузке сообщения, которые указывают на вредоносный контент). У них есть несколько ограничений. Они не могут обнаружить новые атаки, потому что кто-то должен вручную проверять базу данных сигнатур заранее для каждого нового типа обнаруженного вторжения. И как только кто-то обнаруживает новую атаку и разрабатывает ее подпись, развертывание этой подписи часто задерживается. Эти ограничения привели к росту интереса к методам обнаружения вторжений, основанным на извлечении данных. 5,6

Система обнаружения вторжений в Миннесоте

Система интеллектуального анализа данных MINDS (http://www.cs.umn.edu/research/minds) обнаруживает необычное поведение сети и возникающие киберугрозы. Он развернут в Университете Миннесоты, где ежедневно регистрируется несколько сотен миллионов сетевых потоков из сети из более чем 40 000 компьютеров. MINDS также является частью архитектуры Interrogator7 в Центре мониторинга и защиты от вторжений (ARL-CIMP) Исследовательской лаборатории армии США, где аналитики собирают и анализируют сетевой трафик с десятков объектов Министерства обороны8. MINDS пользуется большим успехом в обеих областях. сайты, регулярно обнаруживающие новые атаки, которые сигнатурные системы не могли обнаружить. Кроме того, он часто обнаруживает мошеннические каналы связи и фильтрацию данных, которые другие широко используемые инструменты, такие как Snort (http://www.snort.org), с трудом идентифицируют. 8,9

На рисунке 1 показан процесс анализа данных реального сетевого трафика с использованием MINDS. Пакет MINDS содержит различные модули для сбора и анализа огромных объемов сетевого трафика. Типичные анализы включают выявление, обобщение и профилирование поведенческих аномалий. Кроме того, в системе предусмотрены модули для извлечения функций и фильтрации атак, для которых существуют хорошие прогностические модели (например, для обнаружения сканирования). Независимо от этого каждый из этих модулей дает представление о сети. При объединении, которое MINDS делает автоматически, эти модули оказывают мультипликативное влияние на анализ.

Рисунок 1. Система обнаружения вторжений в Миннесоте (MINDS).

Обнаружение аномалий

В MINDS ‘ядро – это модуль обнаружения поведенческих аномалий, основанный на новой управляемой данными технике для расчета расстояния между точками в многомерном пространстве. Примечательно, что этот метод позволяет существенно рассчитать сходство между записями, содержащими совокупность категориальных и числовых атрибутов (таких как записи сетевого трафика). В отличие от других широко исследованных методов обнаружения аномалий, эта новая структура не страдает от многочисленных ложных срабатываний. Насколько нам известно, никакая другая существующая методика обнаружения аномалий не может обнаружить сложные аномалии поведения в реальной среде, сохраняя при этом очень низкую частоту ложных тревог. Многопоточная параллельная формулировка этого модуля позволяет анализировать сетевой трафик от многих датчиков в почти реальном времени в ARL-CIMP.

Суммирование

Возможность суммировать большие объемы сетевого трафика может быть очень полезна для аналитиков сетевой безопасности, которые часто имеют дело с большими объемами данных. Например, когда аналитики используют алгоритм обнаружения аномалий MINDS для оценки нескольких миллионов сетевых потоков в типичном окне данных, несколько сотен высокопоставленных потоков могут потребовать внимания. Но из-за ограниченного времени аналитики часто могут просматривать только первые несколько страниц результатов, охватывающих несколько десятков самых аномальных потоков. Поскольку MINDS может суммировать многие из этих потоков в небольшом представлении, аналитик может анализировать гораздо больший набор аномалий, чем это возможно в противном случае. Наша исследовательская группа разработала методологию для суммирования информации в базе данных транзакций с категориальными атрибутами в качестве проблемы оптимизации. 9,10 Эта методология использует анализ шаблонов ассоциаций, первоначально разработанный для обнаружения паттернов поведения потребителей в больших наборах данных транзакций продаж. Эти алгоритмы помогли нам лучше понять природу кибератак, а также создать новые правила подписи для систем обнаружения вторжений. В частности, компонент суммирования MINDS сжимает выходные данные компонента обнаружения аномалий в компактное представление, поэтому аналитики могут исследовать многочисленные аномальные действия на одном скриншоте.

На рисунке 2 показан типичный вывод MINDS после обнаружения и суммирования аномалий. Система сортирует соединения по количеству баллов, которое присваивает им алгоритм обнаружения аномалий. Затем, используя паттерны, которые генерирует модуль анализа ассоциации, MINDS суммирует аномальные соединения с самыми высокими баллами. Каждая строка содержит среднюю оценку аномалий, количество соединений, представленных линией, восемь базовых характеристик соединений и относительный вклад каждой базовой и производной функции обнаружения аномалий. Например, вторая строка на фиг.2 представляет 138 аномальных соединений. Из этого резюме аналитики могут легко сделать вывод, что это обратное рассеяние от атаки типа «отказ в обслуживании» на компьютер, который находится за пределами исследуемой сети. Такой вывод трудно сделать из отдельных соединений, даже если модуль обнаружения аномалий оценивает их высоко. На рисунке 2 показаны интерпретации аналитиками нескольких других резюме, найденных системой.

Рисунок 2. Вывод модуля суммирования MINDS. Каждая строка содержит оценку аномалии, количество соединений, представленных в этой строке, и несколько других элементов информации, которые помогают аналитику получить быструю картину.

Профилирование

Мы можем использовать кластеризацию, метод интеллектуального анализа данных для группировки похожих элементов, чтобы найти связанные сетевые соединения и, таким образом, обнаружить доминирующие способы поведения. MINDS использует алгоритм кластеризации Shared Nearest Neighbor 11, который особенно хорошо работает, когда данные многомерны и шумны (например, данные сети). SNN требует высокой вычислительной мощности порядка O (n2), где n – количество сетевых подключений. Итак, нам нужно использовать параллельные вычисления, чтобы масштабировать этот алгоритм до больших наборов данных. Наша группа разработала параллельную формулировку алгоритма кластеризации SNN для моделирования поведения, что делает возможным анализ огромных объемов сетевых данных.8

Эксперимент, который мы провели в реальной сети, иллюстрирует этот подход, а также вычислительную мощность, необходимую для запуска кластеризации SNN на сетевых данных. Данные состояли из 850 000 соединений, собранных за один час. В кластере из 16 процессоров алгоритм SNN работал 10 часов и требовал 100 Мбайт памяти в каждом узле для вычисления расстояний между точками. На последнем этапе кластеризации потребовалось 500 Мбайт памяти на одном узле. Алгоритм создал 3135 кластеров размером от 10 до 500 записей. Большинство крупных кластеров соответствуют нормальным режимам поведения, таким как трафик виртуальной частной сети. Однако несколько небольших кластеров соответствовали незначительным отклоняющимся режимам поведения, связанным с неправильно настроенными компьютерами, злоупотреблениями со стороны инсайдеров и нарушениями политики, которые невозможно обнаружить другими методами. Такие кластеры дают аналитикам информацию, с которой они могут действовать немедленно, и могут помочь им понять поведение своего сетевого трафика. На рисунке 3 показаны два кластера, полученные из этого эксперимента. Эти кластеры представляют соединения изнутри компьютеров с сайтом GoToMyPC.com, который позволяет пользователям (или злоумышленникам) удаленно управлять рабочими столами. Это нарушение политики в организации, для которой были проанализированы эти данные.

Рисунок 3. Два кластера, полученные из сетевого трафика на базе армии США, представляющие соединения с

GoToMyPC.com.

Обнаружение распределенных атак

Интересно, что атаки часто происходят из разных мест. Фактически, отдельные злоумышленники часто контролируют множество машин, и они могут использовать разные машины для запуска разных этапов атаки. Кроме того, цели атаки могут быть распределены по нескольким сайтам. Система обнаружения вторжений (IDS), работающая на одном сайте, может не иметь достаточно информации для обнаружения атаки. Быстрое обнаружение таких распределенных кибератак требует наличия взаимосвязанной системы IDS, которая может принимать данные сетевого трафика практически в реальном времени, обнаруживать аномальные соединения, передавать свои результаты другим IDS и включать информацию из других систем для повышения показателей аномалий таких угрозы. Такая система состоит из нескольких автономных IDS, которые обмениваются друг с другом своими базами знаний для быстрого обнаружения вредоносных крупномасштабных кибератак.

Рисунок 4 иллюстрирует распределенный аспект этой проблемы. Он показывает двумерное глобальное пространство Internet Pro-tocol, так что каждый IP-адрес, выделенный в мире, представлен в некотором блоке. Черный регион представляет нераспределенное пространство IP.

Рисунок 4. Карта глобального IP-пространства.

На рисунке 5 показана графическая иллюстрация подозрительных подключений, происходящих извне (прямоугольник справа), к машинам внутри IP-пространства Университета Миннесоты (прямоугольник слева) в типичном временном окне в 10 минут. Каждая красная точка в правой части окна обозначает подозрительное соединение, выполненное машиной с внутренней машиной через порт 80. В этом случае это означает, что на внутренней машине, с которой происходит соединение, не работает веб-сервер, что делает внешние машины которые пытаются подключиться к порту 80 подозреваемых злоумышленников. Правое поле указывает, что большинство из этих потенциальных злоумышленников сгруппированы в определенные блоки интернет-адресов. Внимательное изучение показывает, что большая часть плотных участков принадлежит сетевым блокам пользователей кабельной сети и AOL, расположенным в США, или блокам, выделенным для Азии и Латинской Америки. Существует 999 уникальных источников, пытающихся связаться с 1126 получателями внутри IP-сети Университета Миннесоты. Общее количество задействованных потоков составляет 1516, что означает, что большинство внешних источников сделали только одну подозрительную связь с внутренней частью. Трудно пометить источник как вредоносный на основе только одного соединения. Если несколько сайтов, выполняющих один и тот же анализ в пространстве IP, сообщают о том же внешнем источнике как о подозрительном, это сделает классификацию намного более точной.

<...

Зарегистрируйся, чтобы продолжить изучение работы

Поделиться сочинением

Ещё сочинения

Краткая история кибербезопасности

30.10.2020 Комментариев нет

Кибербезопасность или защита информационных технологий – это методы защиты компьютеров, сетей, программ и данных от несанкционированного доступа или атак, направленных на эксплуатацию. Существует четыре типа

Читать полностью »

Несколько советов от команды реагирования на инциденты компьютерной безопасности

30.10.2020 Комментариев нет

Группа реагирования на инциденты в области компьютерной безопасности (CSIRT, пояснено «see-sirt») – это подразделение, которое получает отчеты о взрывах безопасности, проводит проверки отчетов и отвечает

Читать полностью »

Позвоните в полицию. На моем компьютере преступник!

30.10.2020 Комментариев нет

Обычным сюжетом голливудских триллеров является устройство «Не отвечай на телефон». В этом фильме няня знает, что придет маньяк, чтобы убить ее или детей. Важный момент

Читать полностью »