Обработка пропущенных значений - одна из самых важных проблем при предварительной обработке данных сочинение пример

ООО "Сочинения-Про"

Ежедневно 8:00–20:00

Санкт-Петербург

Ленинский проспект, 140Ж

Сочинение на тему Обработка пропущенных значений – одна из самых важных проблем при предварительной обработке данных

Обработка пропущенных значений (MV) является важной проблемой при предварительной обработке данных в интеллектуальном анализе данных. Одна из причин заключается в том, что атрибуты данных могут быть агрегированы из разных источников. Случаи могут существовать не во всех источниках данных. Другая причина – из-за упущения в сообщениях. Самый простой способ справиться с MV – отбросить случаи, в которых есть хотя бы один MV. Однако это практично только тогда, когда данные содержат небольшое количество случаев с MV, и когда анализ полных случаев не приведет к серьезным ошибочным результатам для вывода. Например, в нашем исследовании от 10% до 30% учащихся не набирают баллы по средним и средним уровням. Невозможно просто отказаться от этих студентов, так как большинство из них – иностранные студенты или переводчики, которые составляют важную группу населения. Также непрактично отбрасывать эти переменные, поскольку они оказались важными предикторами для прогнозирования успеваемости учащихся. Таким образом, важно применить соответствующую стратегию вменения данных.

Существует также множество методов интеллектуального анализа данных. В отличие от традиционных объяснительных моделей, где цель состоит в том, чтобы исследовать взаимосвязь между конечной переменной и пояснительными переменными, цель модели интеллектуального анализа данных состоит в том, чтобы делать прогнозы для нового набора данных. Существует целевая переменная, которая может быть как непрерывной, так и категориальной. Существуют также предикторы, называемые функциями, которые измеряют набор характеристик элементов выборки. Применяя различные модели интеллектуального анализа данных, модель прогнозирования может быть построена на основе текущих данных. Модель может применяться к новым данным, где для прогнозирования используется новый набор значений характеристик. Различные методы извлечения данных имеют разные алгоритмы и, следовательно, приводят к разной производительности прогнозирования. Основанные на Luengo, методы вменения могут улучшить методы интеллектуального анализа данных для различных категорий, поскольку может существовать взаимодействие между стратегиями вменения и методами интеллектуального анализа данных. Мы хотели бы изучить, как это работает на наших данных. В этой главе мы сначала представим стратегии вменения, примененные в этой диссертации. Затем мы представим методы интеллектуального анализа данных, применяемые к нашим данным.

В-третьих, для решения проблемы несбалансированных данных будет представлен широко используемый метод передискретизации SMOTE. Несбалансированные данные обычно относятся к проблеме с проблемами классификации, когда классы не представлены одинаково. Например, в нашем наборе данных всего около 3000 студентов, причем 90% из них помечены как проходные, а оставшиеся 10% – как учащиеся, не прошедшие обучение. Большинство методов машинного обучения плохо работают с несбалансированными данными. Таким образом, необходимо использовать методы для решения проблемы несбалансированных данных. SMOTE является одним из них.

Поделиться сочинением
Ещё сочинения
Нет времени делать работу? Закажите!

Отправляя форму, вы соглашаетесь с политикой конфиденциальности и обработкой ваших персональных данных.