Прогнозирование риска раскрытия в числовой базе данных. сочинение пример

ООО "Сочинения-Про"

Ежедневно 8:00–20:00

Санкт-Петербург

Ленинский проспект, 140Ж

magbo system

Сочинение на тему Прогнозирование риска раскрытия в числовой базе данных.

Внутренние данные в организации могут быстро увеличиваться со временем. Чтобы снизить стоимость организации, они могут выбрать стороннего поставщика услуг хранения для хранения всех данных. Существует кризис утечки, когда поставщику нельзя доверять. В другом сценарии дилер собирает все данные о транзакциях и публикует их в компании по анализу данных в маркетинговых целях. Это может раскрыть конфиденциальность, когда компания является вредоносной. По этой причине сохранение конфиденциальности в базе данных становится очень важной проблемой. Эта статья касается прогнозирования риска раскрытия в числовой базе данных. Мы представляем эффективную генерацию шума, основанную на алгоритме кодирования Хаффмана. Мы также строим матрицу шумов, которая может интуитивно добавлять шум к исходному значению. Кроме того, мы применяем метод кластеризации перед генерацией шума. Результат показывает, что время генерации шума схемы кластеризации быстрее, чем схема некластеризации.

Технология приносит удобство, а техника облачных вычислений в последние годы развивается. Внутренние данные в организации могут быстро увеличиваться. Несмотря на то, что организация может создать пространство для хранения данных самостоятельно, но они могут публиковать эти данные в компании по анализу данных для некоторых маркетинговых целей. Следовательно, методы интеллектуального анализа данных играют важную роль в Обнаружении знаний в базах данных (KDD). Но компания, занимающаяся анализом вредоносных данных, может записывать личные данные, когда организация публикует статистическую базу данных для компании. Если компании не доверяют, возникает кризис утечки. По этим причинам это приводит к тому, что исследования конфиденциальности становятся все более популярными в эти годы. Базы статистических данных (SDB) используются для получения результата статистических агрегатов, таких как сумма, среднее, максимальное и минимальное. Результаты статистических агрегатов не раскрывают содержание какого-либо отдельного кортежа. Тем не менее, пользователь может задать много юридических запросов, чтобы вывести конфиденциальную информацию из получения ответов базы данных.

В последние годы усилению безопасности статистической базы данных уделяется много внимания. Проблема безопасности в классической статистической базе данных включает три разные роли [17]: статистик, который заинтересован в получении сводных данных; владелец данных, который желает, чтобы отдельные записи были в безопасности; администратор базы данных, которому необходимо выполнить обе вышеуказанные роли. Проблемы конфиденциальности в статистической базе данных подразделяются на два аспекта [15]: для владельца данных он должен избегать кражи данных хакером, избегать злоупотребления данными поставщиком услуг и ограничивать права доступа пользователей; для пользователя он должен скрывать содержимое запроса, а база данных не раскрывает детали запроса. Есть много подходов было предложено. Наварро-Аррибас и Торра организовывают четыре категории подходов следующим образом [16]:

1) Методы возмущения, которые изменяют исходные данные для достижения определенной степени конфиденциальности. Их обычно называют шумом;

2) Непертурбативные методы, которые маскируют данные без внесения ошибок. В отличие от пертурбативных методов, данные не являются искажением;

3) Криптографические методы, в которых используется классическая криптографическая система;

4) Генерация синтетических данных, которая генерирует случайные данные, сохраняя связь с исходными данными.

В целях защиты конфиденциальной информации в базе данных, Статистический контроль раскрытия информации (SDC) чаще всего используется для сохранения конфиденциальности в статистической базе данных. Методы микроагрегации (МАТ) относятся к семейству SDC и относятся к пертурбативным методам. Метод микроагрегирования имеет много привлекательных особенностей, включая надежную производительность, последовательные отклики и простоту реализации [6]. Пользователь может получить полезную информацию, так как этот метод не уменьшит информацию в контенте. Другими словами, благодаря этому методу потери информации минимальны.

Кроме того, мы рассмотрим некоторые подходы к сохранению конфиденциальности [1-5,8.12-14,17]. В частности, схема микроагрегирования привлекается для использования в статистических базах данных в эти годы, потому что она заменяет первоначальное значение, меньшее искажение, чтобы предотвратить раскрытие личности и предсказания. И замененные данные не привели к проблеме для приложений анализа данных или интеллектуального анализа данных. Все записи в базе данных могут быть представлены в точке данных в системах координат.

В этом документе рассматривается комбинация двух или более неконфиденциальных атрибутов, таких как возраст и вес, которые могут использоваться для связи отдельных лиц. Такой набор атрибутов в совокупности называется квазиидентификатором. Популярный подход к замене исходных данных заключается в использовании метода кластеризации для предотвращения раскрытия личности. Следовательно, противник может быть сбит с толку, когда исходные данные заменяются мерой группировки. Несмотря на то, что данные в наборе данных являются однородными по методике кластеризации, существует проблема раскрытия прогноза.

2. Предложенная схема.

В статье рассматривается проблема раскрытия прогноза о том, что квазиидентификатор обобщается методом однородной микроагрегации. Квазиидентификатор имеет один или несколько атрибутов, которые могут ссылаться на отдельного человека. Вкратце, мы рассмотрим только квазиидентификатор с двумя атрибутами. Сначала все значения квазиидентификатора преобразуются в точку данных в системе координат. Для раскрытия информации о предсказании однородные значения после процесса первоначального метода микроагрегации сначала кластеризуются. Затем мы генерируем шум на основе центроида этих групп. Чтобы повысить скорость ввода шума, все значения шума формируются в набор, который называется матрицей шума в этой статье. Каждое исходное значение соответствует значению шума. В этом разделе мы представляем концепцию микроагрегации, а затем иллюстрируем метод кластеризации, основанный на MST Prim. В статье в основном идея генерации шума и процедура введения шума. Эти два будут описаны в оставшейся части этого раздела.

<Р> 2.1Preliminary.

Метод микроагрегации представляет собой семейство статистического контроля раскрытия информации и применяется к числовым данным, категориальным данным, последовательностям и разнородным данным [16]. Он вычисляет значение для представления группы и заменяет исходное значение, чтобы запутать противника. Все записи формируются группой с ближайшими записями. постоянное значение, порог, предустановленный защитником данных. Чем выше, тем выше степень конфиденциальности, но качество данных ниже. Напротив, чем ниже, тем ниже степень конфиденциальности, но качество данных выше. Это компромисс между риском раскрытия данных и меньшей потерей информации. Хотя этот метод может повредить исходные данные и может привести к искажению данных. Но это просто гарантирует, что низкие уровни искажения данных. Это не повлияло на работу базы данных. Поэтому минимизация потери информации является основной проблемой этого метода. Существует две основные операции для микроагрегации, которые являются разделением и агрегацией, которые мы подробно опишем следующим образом:

Раздел: записи – это разделение на несколько непересекающихся групп, и каждая группа включает как минимум записи.

Агрегирование: каждая запись в группе заменяется центроидом группы, который представляет собой вычисленное значение для представления группы.

2.2MST Clustering.

Мы применяем метод кластеризации связующего дерева с минимальными затратами Prim, который был предложен Лазло и Мукерджи в 2005 году [11].

Первый шаг, предлагаемый метод кластеризации, основан на покрывающем дереве минимальной стоимости Prim, которое создается на основе всех записей в наборе данных. Алгоритм Прима – это жадный алгоритм, который находит остовное дерево с минимальными затратами для неориентированного графа связного ребра. Он находит подмножество ребер, чтобы сформировать остовное дерево с минимальными затратами, которое соединяется со всеми узлами, где общий вес всех ребер сведен к минимуму. Некоторые обозначения определены для облегчения обсуждения. Каждая запись с большим количеством атрибутов в наборе данных D может быть преобразована в точку данных в системах координат и считается узлом u в остовном дереве с минимальными затратами. Узел u может быть соединен с другим узлом v в наборе данных D и образует ребро e (u, v), u, vD. Все ребра могут быть вычислены до значения случайными двумя узлами в наборе данных. Это вычисленное значение можно использовать как вес w для каждого ребра. Согласно алгоритму Прима, он сначала выбирает один узел uD и строит остовное дерево с минимальными затратами F = {u}, без ребер. Следующий шаг алгоритма Прима выбирает другой узел v F-D, где v ближе всего к множеству F и ближе всего к узлу u. Существует новое ребро e (u, v), образованное двумя узлами u, vD, и узел v указывает на родительский узел u и добавляет v к множеству F, F = {u, v}. Каждый узел указывает на свой родительский узел в дереве, но начальный узел указывает на ноль. В этом случае узел u указывает на ноль. Это итеративный процесс, пока F = D. Алгоритм Prim выбирает один узел, который рассматривается как корень дерева, в графе для роста до связующего дерева с минимальными затратами. Общий вес всех выбранных ребер сведен к минимуму. Результат алгоритма MST Prim показан на рис. 1, где узлы дерева соединены красными линиями, а вес – рядом с каждым ребром.

Второй шаг, чтобы разделить все узлы, чтобы сформировать кластер в MST, мы должны рассмотреть, сколько ребер в MST являются съемными. Идея состоит в том, чтобы посещать все ребра в MST от самого длинного до самого короткого и определять обрезку ребер, сохраняя при этом оставшиеся ребра. После обрезки кромок MST разделяется на несколько поддеревьев, и они могут образовывать кластер. Все ребра назначаются приоритетной очереди в порядке убывания. Затем мы получаем ребро в последовательности из очереди приоритетов и рассматриваем каждое ребро, является ли съемным, где находится посещающий узел и является родительским узлом. Мы рассматриваем размер двух поддеревьев от посещающего узла и родительского узла соответственно, и определяем, что каждый размер больше, чем тот, который предварительно установлен протектором. Край является съемным, когда оба из двух размеров поддеревьев больше, чем соответственно. В отличие от края не является съемным. Сначала мы получаем размер поддерева от посещающего узла, где используется для получения размера поддерева от узла. Во-вторых, мы рассматриваем корневой узел от посещающего узла до его родительского узла.

Затем мы получаем другой размер поддерева с помощью. Для краткой иллюстрации, мы предполагаем, что размер этих двух поддеревьев больше, чем этот край является съемным. Мы удаляем ребро из очереди приоритетов и заменяем родительский указатель, чтобы он представлял собой корневой узел поддерева.

Последний шаг – простая обработка для всех узлов разбиения на непересекающийся кластер. Каждый корень поддерева может быть сформирован в кластер путем обхода его потомков. Мы выясняем всем узлом, какой родительский указатель является, и присваиваем множеству корня. Родительский указатель, с помощью которого представлен корень поддерева и каждого поддерева может быть сформирован кластером, где находится набор кластеров, где. Мы получаем корневой узел в начале корневого набора и пересекаем все узлы-потомки, следуя корневому узлу поддерева. После обхода поддерева корневой узел и все его дочерние узлы могут образовывать новый кластер. А затем удалите корневой узел из. Мы можем найти следующий кластер, следуя приведенной выше процедуре. Это итерационный процесс до. Наконец, все узлы разбиты на непересекающиеся кластеры.

2.3Получение шума.

После кластеризации всех точек данных следующим шагом является создание шума на основе центроида этих групп. Наша схема основана на кодировании Хаффмана, которое было предложено Хаффманом в 1952 году [9]. Алгоритм кодирования Хаффмана популярен в технике сжатия данных [7] [10]. Мы можем идентифицировать отдельную точку данных, построив дерево кодирования Хаффмана. Поскольку кодирование Хаффмана имеет некоторые особенности, такие как 1) каждый символ имеет соответствующий код Хаффмана; 2) персонаж с большей вероятностью имеет более короткий код Хаффмана. Напротив, персонаж с меньшей вероятностью имеет более длинный код Хаффмана. Эти функции могут использоваться при генерации шума для сохранения конфиденциальности в базе данных. В исходные данные добавляется больше шума с меньшей вероятностью, что позволяет легко раскрыть конфиденциальность, чтобы сбить с толку противника. Другими словами, данные с высокой вероятностью означают непростое раскрытие личной информации.

2.4. Процедура инъекции шума.

Как упоминалось выше, шум строится деревом кодирования Хаффмана на основе вероятности исходного значения, затем он преобразуется в набор, который мы назвали матрицей шума в этой статье. Каждая точка данных исходного значения v может соответствовать оценщику шума в матрице шума. Этот метод может упростить процесс первоначального значения возмущения, а процесс введения шума проще и более интуитивно понятен. После построения матрицы шума мы опишем процесс ввода шума. Мы помещаем шум в очередь и последовательно добавляем «1» к исходным данным с помощью функции младшего значащего бита (LSB) до тех пор, пока очередь не станет пустой. Из-за использования функции LSB нарушается исходное значение, искажение данных может быть значительно уменьшено.

<Р> 3.Results.

Рассмотрим время генерации шума, которое рассчитывается за единицу времени в миллисекундах. Чтобы оценить точное время, мы получаем среднее значение времени генерации шума в 61 раз. Наши эксперименты проводились для изучения временных изменений между некластеризацией и кластеризацией. Который схема некластеризации не включает в себя метод кластеризации MST. Кроме того, схема кластеризации имеет различные k, которые представляют собой размер группы, заданный средством защиты данных. Мы также обсуждаем изменения времени экземпляров с 10 до 1000.

Результаты эксперимента показывают, что при увеличении записей время генерации шума будет меньше. Время генерации шума схемы кластеризации быстрее, чем схема некластеризации. В экспериментах мы также обнаруживаем шум во время работы в схеме кластеризации, но в целом рост времени очень плавный. Помимо проверки во время работы, мы также изучаем качество данных после шума …

Зарегистрируйся, чтобы продолжить изучение работы

    Поделиться сочинением
    Ещё сочинения
    Нет времени делать работу? Закажите!

    Отправляя форму, вы соглашаетесь с политикой конфиденциальности и обработкой ваших персональных данных.