Сочинение на тему Методы добычи данных

Опубликовано: 12.09.2020
Предмет: Информационная наука
Темы: Сбор данных

Методы добычи данных

С развитием информационных технологий было создано большое количество баз данных и огромное количество данных в различных областях. Исследования в различных базах данных и информационных технологиях всегда порождали подход к хранению и обработке этих ценных данных для дальнейшего принятия решений. Интеллектуальный анализ данных представляет собой процесс извлечения полезной информации и шаблонов из большого объема данных и называется процессом обнаружения знаний, интеллектуальным анализом данных, извлечением знаний или анализом данных или анализом шаблонов.

Интеллектуальный анализ данных – это логический процесс, который ищет полезные данные из большого количества необработанных данных. Основная цель этой техники – найти ранее неизвестные паттерны. Как только эти шаблоны найдены, их можно использовать для принятия определенных решений для машинного обучения и прогнозирования анализа.

Интеллектуальный анализ данных состоит из трех этапов:

<Р> а. Исследование: сначала данные очищаются и преобразуются в важные переменные, а затем определяется характер данных, основанных на проблеме.

<Р> В. Идентификация шаблона: после исследования, уточнения и определения данных для конкретных переменных вторым шагом является формирование идентификации шаблона. Определите и выберите модели, которые делают лучший прогноз.

<Р> С. Развертывание: наконец, шаблоны используются для достижения желаемого результата. [2]

Алгоритмы и методы интеллектуального анализа данных

Знания обнаруживаются из доступных баз данных с использованием различных видов алгоритмов и методов, таких как классификация, кластеризация, регрессия, искусственный интеллект, нейронные сети, правила ассоциаций, деревья решений, генетический алгоритм, метод ближайших соседей и т. д.

<Р> <сильный> а. Классификация

Классификация – это метод анализа данных, который назначает категории для сбора данных, чтобы помочь в более точных прогнозах и анализе. Одним из нескольких его методов является дерево решений. Цель состоит в том, чтобы установить правила классификации, которые будут отвечать на вопрос, принимать решения или прогнозировать поведение. Для начала разрабатывается набор обучающих данных, который содержит определенный набор атрибутов, а также вероятный результат. Задача алгоритма классификации – выяснить, как набор атрибутов достигает своего заключения. Различные типы моделей классификации – это классификация по дереву решений, нейронные сети, машина опорных векторов.

<Р> <сильный> В. Кластеризация

Кластеризация может быть названа идентификацией похожих классов объектов. Используя методы кластеризации, мы можем дополнительно идентифицировать плотные и разреженные области в пространстве объектов и можем обнаружить общую картину распределения и корреляции между атрибутами данных. Кластерный подход также может использоваться для эффективных средств различения групп или классов объектов. Но это становится дорогостоящим, поэтому кластеризация может использоваться в качестве подхода предварительной обработки для выбора и классификации подмножеств атрибута. Например, сформировать группу клиентов на основе моделей покупок, чтобы категории гены с аналогичными функциями. Методы разбиения, иерархические агломерационные (дивизионные) методы Методы на основе плотности, методы на основе сетки Методы на основе модели – это различные типы методов кластеризации

<Р> <сильный> С. Регрессия

Техника регрессии может быть адаптирована для прогнозирования. Регрессионный анализ можно использовать для моделирования взаимосвязи между одной или несколькими независимыми переменными и зависимыми переменными. В уже известных атрибутах интеллектуального анализа данных есть независимые переменные, а мы хотим предсказать переменные ответа. К сожалению, многие реальные проблемы не просто предсказания. Например, очень сложно предсказать объемы продаж, цены на акции и процент отказов продуктов, поскольку они могут зависеть от сложных взаимодействий нескольких переменных предикторов. Следовательно, для прогнозирования будущих значений могут потребоваться более сложные методы (например, логистическая регрессия, деревья решений или нейронные сети). Одни и те же типы моделей часто могут использоваться как для регрессии, так и для классификации. Например, алгоритм дерева решений CART (Деревья классификации и регрессии) можно использовать для построения как деревьев классификации (для классификации переменных категориальных ответов), так и деревьев регрессии (для прогнозирования переменных непрерывных ответов). Нейронные сети также могут создавать как классификационные, так и регрессионные модели.

Различные типы методов регрессии: линейная регрессия, многомерная линейная регрессия, нелинейная регрессия и многомерная нелинейная регрессия

<Р> <сильный> Д. Правило ассоциации

Ассоциация и корреляция, как правило, позволяют находить частые выводы набора элементов среди больших наборов данных. Этот тип выводов помогает принимать определенные решения, такие как дизайн каталога, перекрестный маркетинг и анализ поведения покупателей. Алгоритмы правил ассоциации должны быть в состоянии генерировать правила с доверительными значениями меньше единицы. Однако число возможных правил ассоциации для данного набора данных, как правило, очень велико, и большая часть правил обычно не имеет большого значения.

Различные типы правил ассоциации: правило многоуровневой ассоциации, правило многомерной ассоциации и правило количественной ассоциации

<сильный> E. Нейронные сети

Нейронная сеть – это набор подключенных модулей ввода / вывода, и каждое соединение имеет свой вес. На этапе обучения сеть обучается путем корректировки весов, чтобы иметь возможность предсказывать правильные метки классов входных кортежей. Нейронные сети обладают замечательной способностью извлекать смысл из сложных или неточных данных и могут использоваться для извлечения закономерностей и выявления тенденций, которые сложно заметить людям или другим компьютерным методам. Они хорошо подходят для непрерывных ценных входов и выходов. Нейронные сети лучше всего подходят для выявления закономерностей или тенденций в данных и хорошо подходят для прогнозирования или прогнозирования потребностей.

Заключение

Интеллектуальный анализ данных – важный процесс, в котором применяются интеллектуальные методы для извлечения шаблонов данных. Это имеет важное значение для поиска моделей, прогнозирования, обнаружения полных знаний и т. Д. В различных областях информационных технологий. Методы и алгоритмы интеллектуального анализа данных, такие как классификация, кластеризация и т. Д., Помогают находить шаблоны в соответствии с некоторыми сходными характеристиками данных. Интеллектуальный анализ данных имеет широкую прикладную область практически во всех отраслях, где создаются данные, поэтому интеллектуальный анализ данных считается одним из важнейших рубежей в базах данных и информационных системах, а также наиболее многообещающим междисциплинарным развитием информационных технологий.

Ссылки

[1] Jiawei Han и Micheline Kamber, Концепции и методы интеллектуального анализа данных, опубликованные Morgan Kauffman, 3-е издание.

[2] г-жа Бхарати М. Рамагери, «Методы и приложения интеллектуального анализа данных», Индийский журнал компьютерных наук и инженерии, том. 1 № 4, ISSN: 0976-5166 pg: 301-305.

[3] Ке Цзе, Донг Хунбинь, Тан Ченю и Лян Йивен, «PBWA: основанный на проверке подход к анализу процессов« что-если »для анализа данных», Китайский журнал электроники, том 26, № 5, сентябрь 2017 года

[4] LiHua Wang BeiHang Zijun Zhou, «Прогнозирование перегрузок городских территорий с помощью пространственно-временного сбора данных», Международная конференция по кибер-распределенным распределенным вычислениям и обнаружению знаний 978-1-5386-2209-4 / 17 2017 IEEE

[5] Сагардип Рой Анчал Гарг, «Анализ успеваемости учащихся с использованием методов интеллектуального анализа данных и литературное исследование» 4-я секция IEEE в Уттар-Прадеше Международная конференция по электрике, компьютерам и электронике (UPCON) Университет GLA, Матхура, 26-28 октября , 2017, 978-1-5386-3004-4 / 17

Зарегистрируйся, чтобы продолжить изучение работы

Поделиться сочинением

Ещё сочинения

Геоинформационная система (ГИС)

30.10.2020 Комментариев нет

Ахмад Альдхафири CEGR 4802/1/2018 ГИС Геоинформационная система (ГИС) – это система, предназначенная для сбора, хранения, обработки, анализа, управления и представления всех типов географических данных. Ключевым

Читать полностью »

Как вы можете зарабатывать деньги в Интернете с помощью биткойнов

29.10.2020 Комментариев нет

Биткойн становится все более популярным и победоносным в мире криптовалют. С момента его создания в 2009 году стоимость биткойна в 2018 году выросла втрое. В

Читать полностью »

Примеры реальных баз данных

29.10.2020 Комментариев нет

Типичная база данных для компании, которая продает строительные материалы, может быть организована следующим образом: у компании должен быть хотя бы один клиент. Каждому клиенту в

Читать полностью »