Сочинение на тему Генерация частых наборов предметов с помощью алгоритма «сверху вниз» с использованием карты

Опубликовано: 27.08.2020
Предмет: Бизнес
Темы: Косметология, Промышленность

В интеллектуальном анализе данных задачи правила объединения описательной техники, которые можно определить как обнаружение значимых шаблонов из большого набора данных. Майнинг частых предметов является очень фундаментальной частью майнинга правил ассоциации. За последние десятилетия было предложено много алгоритмов, в том числе методы, основанные на горизонтальной компоновке, методы, основанные на проектировании, и методы, основанные на проектной компоновке. Но большинство методов страдают от повторного сканирования базы данных, генерации кандидатов (алгоритмы Apriori), проблемы с использованием памяти и многих других для анализа частых паттернов. Как и в индустрии розничной торговли, многие транзакционные базы данных содержат один и тот же набор транзакций много раз. Чтобы применить эту мысль, в диссертации представлен улучшенный алгоритм Apriori, который гарантирует лучшую производительность, чем классический алгоритм Apriori.

Интеллектуальный анализ данных является основной частью KDD. Интеллектуальный анализ данных обычно включает в себя четыре класса задачи; классификация, кластеризация, регрессия и обучение правилам ассоциации. Интеллектуальный анализ данных означает обнаружение знаний в огромных объемах данных. Это точная дисциплина, которая связана с анализом наборов данных наблюдений с целью выявления непредвиденных взаимосвязей и дает обзор данных новыми способами, которые владелец может понять и использовать.

Интеллектуальный анализ данных как область изучения включает в себя интеграцию идей из многих областей, а не чистую дисциплину. Четыре основные дисциплины, которые способствуют интеллектуальному анализу данных, включают:

Статистика: она может использоваться для измерения данных, оценки вероятностей и многих других задач (например, линейная регрессия).

Машинное обучение: предоставляет алгоритмы для получения знаний из заданных данных (например, SVM).

Управление данными и базами данных: ввиду того, что интеллектуальный анализ данных связан с огромным объемом данных, необходим эффективный способ доступа к данным и их обслуживания.

Искусственный интеллект: он помогает выполнять задачи, связанные с кодированием знаний или методами поиска (например, нейронные сети).

Принципиально важно заявить, что основным ключом к пониманию и реализации технологии интеллектуального анализа данных является способность различать интеллектуальный анализ данных, операции, приложения и методы, как показано на рисунке 2

Одним из наиболее известных и популярных методов интеллектуального анализа данных является алгоритм ассоциации или алгоритм частого анализа наборов элементов. Из-за его важного применения, с тех пор было введено много пересмотренных алгоритмов, и поиск правил ассоциации все еще остается широко исследованной областью. В этой статье обсуждались многие варианты алгоритма частого извлечения паттернов из Apriori.

Алгоритм AIS, в котором генерируется набор элементов-кандидатов на лету во время каждого прохода сканирования базы данных. Большие наборы элементов из предыдущего прохода проверяются, если они были представлены в текущей транзакции. Поэтому расширение существующих наборов элементов создало новые наборы элементов. Этот алгоритм оказывается неэффективным, потому что он генерирует слишком много наборов кандидатов. Он требует больше места, и в то же время этот алгоритм требует слишком много проходов по всей базе данных, а также генерирует правила с одним последующим элементом.

Методы обнаружения правил ассоциации на основе данных традиционно фокусировались на выявлении взаимосвязей между предметами, указывающими на особенности человеческого поведения, обычно на поведение торговли для определения предметов, которые покупатели покупают вместе. Все правила этого типа описывают определенный локальный шаблон. Группа правил ассоциации может быть просто интерпретирована и передана. Правило связывания xy поддерживается в D, если вероятность транзакции в D содержит и X, и Y – s.

Задача правил сопоставления интеллектуального анализа данных состоит в том, чтобы найти все правила сопоставления, поддержка которых превышает минимальный порог поддержки, а достоверность которых превышает минимальный порог достоверности. Эти правила называются правилами строгой ассоциации.

Apriori использует итеративный подход, известный как поэтапный поиск, где k-наборы элементов используются для изучения (k + 1) -элементов.

Во-первых, найден набор частых 1-элементных наборов. Этот набор обозначается L1.L1 используется для поиска L2, набора частых наборов из 2 элементов, который используется для поиска L3 и т. Д., До тех пор, пока не будут найдены более частые наборы k-элементов. Для нахождения каждого Lkrequire требуется одно полное сканирование базы данных. Чтобы найти все частые наборы элементов, алгоритм принял рекурсивный метод. Основная идея заключается в следующем:

Априорный алгоритм (Itemset []).

{L1 = {большие наборы из 1 элементов};

для (k = 2; Lk-1F; k ++) do

{Ck = Apriori-gen (Lk-1);

{Ct = подмножество (Ck, t);

// получаем подмножества t, которые являются кандидатами для каждого кандидата c Ct do

<Р> c.count ++;}

Lk = {cCk | c.count = minsup}} Return = kLk;}

Этот новый предложенный метод использует большой набор элементов и уменьшает количество проверок базы данных. Этот подход занимает меньше времени, чем алгоритм apriori. Алгоритм MAP-REDUCE (HADOOP), который уменьшает ненужное сканирование базы данных.

Псевдокод предлагаемого метода.

Алгоритм Apriori_MapReduce_Partitioning (D [] [], supp)

{// D [] [] – входной набор данных

// supp – Минимальная поддержка

no_transaction = Calculate_transaction (D)

no_item = Calculate_item (D);

для i = 1 до no_of_transaction do

{для j = 1 до no_of_items сделать

{если D [i] [j] == 1, то

<Р> {countj ++; }}}

для j = 1 до no_of_item do

{if (countj> sup) {add_item (j); }}

<Р> frequent_items = Map_Reduce (D);

// вызов алгоритма Map Reduce return часто_items;}

Алгоритм Map_Reduce (count [], D [] [])

<Р> {I = 1;

while (i <Нет транзакций) {MAPER (i, no_of_transactions / 2)

<Р> MAPER (no_of_transaction / 2 + 1, no_of_transaction)

<Р> РЕДУКТОР (я, no_of_transactions / 2)

REDUCER (no_of_transaction / 2 + 1, no_of_transaction)} вернуть правило ассоциации}

В этой статье мы измерили следующие факторы для создания нашей новой идеи, а именно время и количество итераций, на эти факторы влияет подход для поиска часто встречающихся наборов элементов. Была проделана работа по разработке алгоритма, который является улучшением по сравнению с Apriori с использованием подхода улучшенного алгоритма Apriori для транзакционной базы данных. Согласно нашему разъяснению, производительность алгоритмов сильно зависит от уровней поддержки и особенностей наборов данных (характер и размер наборов данных). Поэтому мы использовали его в нашей схеме, чтобы гарантировать экономию времени и уменьшить количество итераций. Таким образом, этот алгоритм полностью генерирует частые наборы элементов. Таким образом, это экономит много времени и считается эффективным методом, что подтверждается результатами.

Зарегистрируйся, чтобы продолжить изучение работы

Поделиться сочинением

Ещё сочинения

Цифровая торговая площадка для торговли и рекламы

30.10.2020 Комментариев нет

ЦИФРОВОЙ РЫНОК ДЛЯ ТОРГОВЛИ И РЕКЛАМЫ Ценность электронной коммерции через создание онлайн-рынков огромна для развивающихся стран, таких как Зимбабве, поскольку она может поддержать развитие местной

Читать полностью »

История джинсовой ткани

30.10.2020 Комментариев нет

Джинсовая ткань – это прочная прочная хлопчатобумажная ткань из твила, сплетенная из цветной основы и нитей с белым наполнителем. С технической точки зрения, джинсовая ткань

Читать полностью »

ВЫЗОВЫ, СВЯЗАННЫЕ С ОФФШОРНЫМИ СТРУКТУРАМИ

29.10.2020 Комментариев нет

Оффшорная инженерия – это та отрасль машиностроения, которая занимается проектированием и строительством конструкций среди океанов. Эти конструкции должны находиться в стационарном положении и должны быть

Читать полностью »