Сочинение на тему Описание и оценка интеллектуального анализа данных

Опубликовано: 08.09.2020
Предмет: Информационная наука
Темы: Сбор данных

В статье сначала будет определено и описано, что такое интеллектуальный анализ данных. Он также попытается определить, почему анализ данных полезен, и показать, что анализ данных связан с анализом данных и использованием методов для нахождения закономерностей и закономерностей в наборах данных. История интеллектуального анализа данных будет исследована, чтобы подтвердить требования интеллектуального анализа данных. В этой области будут изучены области индуктивного обучения, статистики и другие области, чтобы сравнить поля, извлеченные из данных. Будут исследованы модели интеллектуального анализа данных, описывающие модель верификации, модель обнаружения и другие. Будет описано хранилище данных и будет показано влияние четко определенного хранилища данных на качество извлеченных данных. Будут исследованы процессы в хранилище данных, а также будет исследована модель хранилища данных, включая различия между онлайновой системой обработки транзакций (OLTP) и хранилищем данных. Проблемы с хранилищами данных будут рассмотрены в контексте интеллектуального анализа данных и перечислены критерии хранилища данных. Проблемы и проблемы интеллектуального анализа данных будут исследоваться на основе того, что системы интеллектуального анализа данных полагаются на базы данных для предоставления необработанных данных для ввода.

Функции интеллектуального анализа данных будут исследованы. Методы интеллектуального анализа данных будут классифицироваться по функциям, которые они выполняют, или по классу приложения, в котором они могут использоваться. Методы интеллектуального анализа данных будут исследованы. Это будет кластерный анализ, индукция и нейронные сети и многие другие. Приложения для интеллектуального анализа данных будут исследованы и, наконец, описать обработку онлайн-приложений.

Что такое интеллектуальный анализ данных?

Произошло резкое увеличение объема информации или данных, хранящихся в электронном формате. Расширение использования электронных устройств сбора данных, таких как торговые точки, веб-страницы или устройства дистанционного зондирования, способствовало такому взрыву доступных данных.

Хранение данных стало проще, поскольку доступность больших объемов вычислительной мощности при низких затратах, т. е. снижается стоимость вычислительной мощности и хранилища, делает данные дешевыми. Кроме того, были введены новые методы машинного обучения для представления знаний на основе логического программирования в дополнение к традиционному статистическому анализу данных. Новые методы, как правило, требуют значительных вычислительных ресурсов и, следовательно, требуют большей вычислительной мощности.

Общепризнанно, что информация лежит в основе деловых операций, и лица, принимающие решения, могут использовать данные, хранящиеся для получения ценной информации о бизнесе. Системы управления базами данных предоставляют доступ к хранимым данным, но это лишь малая часть того, что можно получить из данных. Традиционные онлайновые системы обработки транзакций, OLTP, хороши для быстрого, безопасного и эффективного размещения данных в базах данных, но не способны обеспечить значимый анализ в ответ. Анализ данных может предоставить дополнительные знания о бизнесе, выходя за рамки данных, которые явно хранятся, для получения знаний о бизнесе. Именно здесь интеллектуальный анализ данных или обнаружение знаний в базах данных (KDD) имеет очевидные преимущества для любого предприятия.

Термин «интеллектуальный анализ данных» вышел за его пределы для применения к любой форме анализа данных.

В основном, интеллектуальный анализ данных связан с анализом данных и использованием программных методов для поиска закономерностей и закономерностей в наборах данных. Именно компьютер отвечает за поиск шаблонов путем определения основных правил и функций в данных. Интеллектуальный анализ данных запрашивает механизм процессов, чтобы показать ответы на вопросы, которые мы не знаем, как их задавать (Bichoff & Alexander, June 1997, p310).

Идея состоит в том, что можно ударить по Gold в неожиданных местах, поскольку программное обеспечение для интеллектуального анализа данных извлекает шаблоны, ранее не различимые или настолько очевидные, что никто раньше их не замечал.

Анализ интеллектуального анализа данных имеет тенденцию работать с момента получения данных, и лучшие методы – это методы, разработанные с ориентацией на большие объемы данных, использующие как можно большую часть собранных данных для получения надежных выводов и решений. Процесс анализа начинается с набора данных, использует методологию для разработки оптимального представления структуры данных, в течение которых приобретаются знания. Как только знания приобретены, они могут быть расширены до больших наборов данных, работающих в предположении, что больший набор данных имеет структуру, подобную образцу данных. Это аналогично добыче полезных ископаемых, когда большое количество низкосортных материалов просеивается, чтобы найти что-то ценное.

Функции интеллектуального анализа данных

Методы интеллектуального анализа данных могут быть классифицированы по функции, которую они выполняют, или по классу приложения, в котором они могут использоваться. Некоторые из основных методов, используемых в интеллектуальном анализе данных, описаны ниже.

Классификация

Научиться сопоставлять пример с одним из нескольких классов (Lain, July 1999, p254), поскольку книга описывает классификацию. Инструменты интеллектуального анализа данных должны выводить модель из базы данных, и в случае контролируемого обучения для этого требуется, чтобы пользователь определил один или несколько классов. База данных содержит один или несколько атрибутов, которые обозначают класс кортежа, и они известны как прогнозируемые атрибуты, тогда как остальные атрибуты называются прогнозирующими атрибутами. Комбинация значений для прогнозируемых атрибутов определяет класс.

При изучении правил классификации система должна найти правила, которые предсказывают класс по атрибутам прогнозирования. Сначала пользователь должен определить условия для каждого класса, затем система интеллектуального анализа данных создает описания для классов. По сути, система должна, учитывая случай или кортеж с определенными известными значениями атрибута, иметь возможность предсказать, к какому классу относится этот случай.

Как только классы определены, система должна вывести правила, управляющие классификацией, поэтому система должна быть в состоянии найти описание каждого класса. Описания должны относиться только к прогнозирующим атрибутам обучающего набора, чтобы положительные примеры соответствовали описанию, а не отрицательным. Правило считается правильным, если его описание охватывает все положительные примеры и ни один из отрицательных примеров класса.

Правило обычно представляется следующим образом: если левая сторона (LHS), то правая сторона (RHS), так что во всех случаях, когда LHS истинно, тогда RHS также истинно, очень вероятно. Категории правил:

точное правило – не допускает никаких исключений, поэтому каждый объект LHS должен быть элементом RHS

Строгое правило – допускает некоторые исключения, но исключения имеют определенный предел

вероятностное правило – связывает условную вероятность P (RHS | LHS) с вероятностью P (RHS)

Другие типы правил – это правила классификации, где LHS является достаточным условием для классификации объектов как принадлежащих концепции, указанной в RHS.

Ассоциации

Учитывая набор элементов и набор записей, каждая из которых содержит определенное количество элементов из данной коллекции, функция ассоциации – это операция с этим набором записей, которая возвращает сходства или шаблоны, которые существуют среди коллекции элементов. , Эти шаблоны могут быть выражены такими правилами, как «56% всех записей, которые содержат элементы A, B и C, также содержат элементы D и E.» Конкретный процент случаев (в данном случае 56) называется фактором достоверности правила. Кроме того, в этом правиле говорят, что A, B и C находятся на противоположной стороне правила по сравнению с D и E. Ассоциации могут включать любое количество элементов с любой стороны правила.

Последовательные / временные шаблоны

Функции последовательных / временных шаблонов анализируют набор записей за определенный период времени, например, для выявления тенденций. Если личность покупателя, совершившего покупку, известна как анализ, может быть сделан сбор связанных записей одной и той же структуры (т. Е. Состоящих из ряда предметов, взятых из данной совокупности предметов). Записи связаны с личностью клиента, который сделал повторные покупки. Такая ситуация типична для приложения прямой почтовой рассылки, где, например, продавец каталога имеет информацию для каждого клиента о наборах продуктов, которые клиент покупает в каждом заказе на покупку. Функция последовательного паттерна будет анализировать такие коллекции связанных записей и обнаруживать часто встречающиеся паттерны продуктов, купленных с течением времени. Оператор последовательного шаблона также может быть использован для обнаружения, например, набора покупок, который часто предшествует покупке микроволновой печи.

Функции последовательного анализа паттернов довольно мощны и могут использоваться для обнаружения множества клиентов, связанных с некоторыми частыми паттернами покупок. Использование этих функций, например, в отношении ряда страховых требований может привести к выявлению часто встречающихся последовательностей медицинских процедур, применяемых к пациентам, которые могут помочь в выявлении надлежащей медицинской практики, а также в потенциальном выявлении некоторых случаев медицинского страхования.

Кластеризация / Сегментация

Кластеризация и сегментация – это процессы создания раздела, так что все члены каждого набора разделов похожи по некоторой метрике. Кластер – это набор объектов, сгруппированных из-за их сходства или близости. Объекты часто разлагаются на исчерпывающий и / или взаимоисключающий набор кластеров.

Кластеризация по сходству является очень мощной техникой, ключ к которой заключается в том, чтобы перевести некоторую интуитивную меру сходства в количественную меру. Когда обучение не контролируется, тогда система должна обнаруживать свои собственные классы, то есть система кластеризует данные в базе данных. Система должна обнаружить подмножества связанных объектов в обучающем наборе, а затем она должна найти описания, которые описывают каждое из этих подмножеств.

Существует несколько подходов для формирования кластеров. Один из подходов состоит в том, чтобы сформировать правила, которые диктуют членство в одной группе на основе уровня сходства между членами. Другой подход заключается в создании функций множества, которые измеряют некоторое свойство разделов как функции некоторого параметра раздела.

Кластерный анализ

В неконтролируемой среде обучения система должна обнаруживать свои собственные классы, и один из способов сделать это – кластеризовать данные в базе данных.

< Кластеризация и сегментация в основном разделяют базу данных, так что каждый раздел или группа похожи по некоторым критериям или метрике. Кластеризация по сходству - это понятие, которое встречается во многих дисциплинах. Если мера сходства доступна, существует ряд методов для формирования кластеров. Членство в группах может быть основано на уровне сходства между членами, и из этого могут быть определены правила членства. Другой подход заключается в построении функций множеств, которые измеряют некоторое свойство разделов, то есть групп или подмножеств, как функции некоторого параметра раздела. Этот последний подход достигает того, что известно как оптимальное разбиение.

Многие приложения для интеллектуального анализа данных используют кластеризацию по сходству, например, для сегментирования клиент-клиентской базы. При анализе данных используется кластеризация в соответствии с оптимизацией заданных функций.

Кластеризация / сегментация в базах данных – это процессы разделения набора данных на компоненты, которые отражают согласованную модель поведения. После того, как шаблоны были созданы, их можно использовать для разделения данных на более понятные подмножества, а также они предоставляют подгруппы населения для дальнейшего анализа или действий, что важно при работе с очень большими базами данных.

Индукционная

База данных – это хранилище информации, но более важной является информация, которая может быть выведена из нее. Существует два основных метода вывода: дедукция и индукция.

Удержание – это метод вывода информации, которая является логическим следствием информации в базе данных, например, Оператор соединения применяется к двум реляционным таблицам, где первая касается сотрудников и отделов, а вторые отделы и менеджеры определяют отношения между сотрудником и руководителями.

Индукция – это метод вывода информации, обобщенной из базы данных. Это информация или знания более высокого уровня в том смысле, что это общее утверждение об объектах в базе данных. В базе данных ищутся закономерности или закономерности.

Деревья решений

Деревья решений представляют собой простое представление знаний, и они классифицируют примеры для конечного числа классов, узлы помечены именами атрибутов, ребра помечены возможными значениями для этого атрибута, а листья помечены разными классами. Объекты классифицируются, следуя по пути вниз по дереву, беря края, соответствующие значениям атрибутов в объекте.

Введение в правило

Система интеллектуального анализа данных должна вывести модель из базы данных, то есть она может определять классы, так что база данных содержит один или несколько атрибутов, которые обозначают класс кортежа, то есть прогнозируемые атрибуты, тогда как остальные атрибуты являются прогнозирующими атрибутами. Класс может быть определен условием на атрибуты. Когда классы определены, система должна быть в состоянии вывести правила, которые управляют классификацией, другими словами, система должна найти описание каждого класса.

Правила производства широко используются для представления знаний в экспертных системах, и их преимущество заключается в том, что они легко интерпретируются специалистами-людьми из-за их модульности, т. е. отдельное правило может быть понято отдельно и не требует ссылки на другие правила. Пропозициональная структура подобного может быть обобщена как если-то правила.

Нейронные сети

Нейронные сети являются подходящим …

Зарегистрируйся, чтобы продолжить изучение работы

Поделиться сочинением

Ещё сочинения

Геоинформационная система (ГИС)

30.10.2020 Комментариев нет

Ахмад Альдхафири CEGR 4802/1/2018 ГИС Геоинформационная система (ГИС) – это система, предназначенная для сбора, хранения, обработки, анализа, управления и представления всех типов географических данных. Ключевым

Читать полностью »

Как вы можете зарабатывать деньги в Интернете с помощью биткойнов

29.10.2020 Комментариев нет

Биткойн становится все более популярным и победоносным в мире криптовалют. С момента его создания в 2009 году стоимость биткойна в 2018 году выросла втрое. В

Читать полностью »

Примеры реальных баз данных

29.10.2020 Комментариев нет

Типичная база данных для компании, которая продает строительные материалы, может быть организована следующим образом: у компании должен быть хотя бы один клиент. Каждому клиенту в

Читать полностью »