Прогнозирующее моделирование и машинное обучение сочинение пример

ООО "Сочинения-Про"

Ежедневно 8:00–20:00

Санкт-Петербург

Ленинский проспект, 140Ж

magbo system

Сочинение на тему Прогнозирующее моделирование и машинное обучение

Машинное обучение – это процесс автоматического извлечения шаблонов из исторических данных для прогнозирования будущих событий и может использоваться для построения прогнозных моделей (Kelleher et al., 2015). В Perry (2013) машинное обучение определяется как алгоритмы, которые автоматизированы для извлечения структуры из исторических данных, обобщения результатов и прогнозирования будущих данных. Как Shouval et al. (2013) далее объясняют, что машинное обучение начинается без предопределенной модели, вместо этого модель создается с помощью шаблонов обучения в используемых данных. Kelleher et al. (2015), Perry (2013) и Shouval et al. (2013) классифицируют машинное обучение на два основных типа, известных как контролируемое и неконтролируемое обучение, с третьим типом, называемым усиленным обучением, объясненным в Sutton and Barto (2015). Можно комбинировать более одного алгоритма машинного обучения, а их результаты использовать в качестве комплимента в так называемом ансамблевом обучении (Polikar, 2010; Brown, 2010). Эти различные типы обучения были оценены с целью выбора метода обучения, который будет использоваться в этом исследовании, и описаны ниже.

контролируемое обучение

Алгоритмы обучения под наблюдением строят модели путем изучения взаимосвязей между описательными признаками (входными данными) и целевыми функциями (выходными данными) на основе исторических наборов данных (Kelleher et al., 2015). Алгоритм обучается путем предоставления ему известных входных данных и их соответствующих откликов, и на основе изученного отношения он может предсказать ответы для неизвестных входных данных (Shouval et al., 2013). В Shouval et al. (2013), контролируемое обучение может быть далее сгруппировано в регрессию и классификацию.

Алгоритмы регрессии – линейная регрессия – это предсказания непрерывного характера, такие как измерения времени, и предсказания логической регрессии имеют дискретный характер, как мужчина / женщина (Shouval et al., 2013). Поэтому регрессионные типы алгоритмов машинного обучения не подходят для модели создания индекса.

Алгоритмы классификации – деревья решений – это алгоритмы классификации, которые собирают дерево решений из помеченного набора данных, причем корень вверху разветвляется вниз, образуя ветви и оканчиваясь на листьях (Suknovic et al., 2011). Корень и каждая из ветвей являются дискретными функциями с парами атрибут-значение, которые требуют принятия решения для перехода к следующей глубине или уровню следующего дерева (Barros, et al., 2015). Как Barros et al. (2015) объясняют, что каждая ветвь имеет только один входящий вход и может иметь две или более выходных ветвей, в то время как корень имеет только выходные ветви и не имеет входных данных. Листья, также известные как терминалы, находятся в конце дерева, и каждый из них представляет выходной класс. Сукнович и соавт. (2011) объясняют, что из помеченного набора данных известного атрибута и соответствующих значений алгоритм может узнать классификацию и иметь возможность прогнозировать класс с учетом будущего неизвестного атрибута. Преимущества деревьев решений – простота использования и интерпретации, как заявлено Shalev-Shwartz и Ben-David (2014). Алгоритмы деревьев решений предлагаются для использования в этом исследовании.

     

  • CART
  •  

  • Байесский неф
  •  <Литий> K-НН

Обучение без учителя

В отличие от контролируемого обучения, неконтролируемые алгоритмы снабжаются только описательными признаками без соответствующих целевых признаков. Алгоритм обучается путем выявления взаимосвязей во входных данных и группирует их по кластерам, связывает или обнаруживает аномальное поведение.

Алгоритмы ассоциации – в алгоритмах машинного обучения ассоциации основаны на правилах, которые обучаются путем обнаружения интересных связей между точками данных в наборе данных (Rudin et al., 2013). Согласно Al-Maolegi и Arkok (2014), извлечение правил ассоциации в базах данных широко используется в транзакциях продаж для построения шаблонов между товарами. Основными концепциями ассоциации являются обнаружение частых элементов в наборе данных и генерация правил ассоциации на основе того, как элементы встречаются вместе (Al-Maolegi & Arkok, 2014). Apriori – это основной алгоритм ассоциации в машинном обучении без присмотра (A-Maolegi & Arkok, 2014), также используются Eclat и FP-Growth (Heaton, 2017). Сила ассоциативного обучения и алгоритмов заключается в интересе ассоциации между предметами и частотой встречаемости. Это не поможет при первоначальном моделировании ИРЦП.

Алгоритмы обнаружения аномалий – Blomquist и Möller (2015) определили аномалии как шаблоны данных, которые не соответствуют тому, что было указано как нормальное поведение. Алгоритмы обнаружения аномалий используются для обнаружения аномалий или точек данных, которые не соответствуют норме в наборе данных. Эти алгоритмы были разработаны статистическими методами сокращения и очистки наборов данных выбросов (Goldstein & Uchida, 2016). Авторы подробно описывают, как эти алгоритмы используются сегодня для обнаружения мошенничества в финансовой индустрии и как инструменты обнаружения вторжений в информационной безопасности. Эти алгоритмы не соответствуют модели RPPI и не рассматриваются в данном исследовании.

Алгоритмы кластеризации – кластеризация – это разбиение данных, состоящих из похожих объектов, на группы, называемые кластерами. Объекты в группе или кластере имеют общие черты и отличаются по сравнению с объектами в других кластерах (Al-Haddad & Aldabbagh, 2015). В Al-Haddad и Aldabbagh (2015) объясняют, что кластеризация создает структуры из немеченых данных отдельными данными в соответствии с их свойствами. Три типа кластеризации показаны в Al-Haddad и Aldabbagh (2015), а именно: эксклюзивная, перекрывающаяся и иерархическая кластеризация. В исключительной кластеризации объект может принадлежать только одной группе, а не другой группе. При наложении кластеров объект может принадлежать более чем одной группе. При иерархической кластеризации объекты кластеризуются иерархическим образом и могут принадлежать более чем одному кластеру. Рассмотренные для исследования алгоритмы кластеризации являются k-средними.

o Алгоритм K-средних – это алгоритм кластеризации, который разбивает данные на заданное пользователем количество кластеров, выполняя итерацию по набору данных, чтобы найти общие черты (Госвами, 2015). Алгоритм K-means легко понять и использовать (Госвами, 2015), и его можно использовать в любой области исследований (Morissette & Chartier, 2013). Аль-Хаддад и Алдаббах (2015) и Госвами (2015) объясняют этот процесс следующим образом: первоначально выбираются случайные центры кластеров, называемые центроидами, и все объекты в наборе данных назначаются центру, ближайшему к ним, для формирования кластера. Когда все объекты сгруппированы, новые центроиды рассчитываются на основе предыдущих кластеров, и процесс повторяется до тех пор, пока новые кластеры не могут быть созданы. Согласно Goswami (2015), ограничения k-средних заключаются в том, что число кластеров должно быть заранее определено, объекты должны принадлежать кластеру, и должны быть выбраны случайные семена центроидов. Если количество кластеров не известно, качество кластеров может быть несущественным. Выбросы K-средних могут негативно влиять на выбросы из-за требования, что объекты должны принадлежать кластеру. Чтобы смягчить слабость случайности начальных центроидов, могут использоваться другие статистические методы для случайности. Алгоритм k-средних будет одним из алгоритмов, используемых при построении модели RPPI.

Усиленное обучение

Усиленное обучение – это тип обучения, который позволяет учащемуся или обучающемуся определять свое поведение на основе условий окружающей среды; учащемуся не говорят, что делать, а какие действия приносят наибольшее вознаграждение (Ayodele, 2010). Саттон и Барто (2014, 2015) объясняют, чем оно отличается от обучения без учителя, в том, что нет структур или моделей для определения действия; из контролируемого обучения в том, что нет помеченных наборов данных; агент должен принимать решения и продолжать учиться на собственном опыте и полученных наградах. Согласно Саттону и Барто (2014, 2015, 2016, 2017), две особенности, которые в основном отличают усиленное обучение, это «поиск методом проб и ошибок и задержка вознаграждения». Практическое применение обучения подкреплению – игра в шахматы между машиной и человеком. Машина не может выучить все ходы, учитывая все возможности ходов противника, поэтому она должна рассчитать, какой ход приносит лучшую награду, чтобы выиграть. Алгоритмы обучения подкреплению используются в онлайн-системах, основанных на состоянии, и решения должны приниматься от одного состояния к другому (Sutton and Barto, 2014, 2015, 2016, 2017), такие как теория игр, модели на основе имитации и т. Д. и, следовательно, не будет использоваться для этого исследования.

Обучение ансамблю

Это машинное обучение, в котором результаты нескольких алгоритмов объединяются для достижения наилучшего результата (Brown, 2010). Браун (2010) может объединять учащихся, известных как комитет, из разных категорий обучения, таких как классификация, регрессия, кластеризация и т. Д., А решения могут приниматься путем голосования, вероятности, ранжирования или любого другого статистического метода. Polikar (2010) свидетельствует об использовании ансамблевых алгоритмов в широком спектре областей для решения многих проблем, присущих машинному обучению, таких как исправление ошибок, оценка, дисбалансы и т. Д.

Следующие методы ансамбля описаны van Hasselt и Wiering (2015)

     

  • Метод мажоритарного голосования (MV) объединяет лучшее действие каждого алгоритма и основывает свое окончательное решение на количестве предпочтений действия каждым алгоритмом
  •  

  • Метод рангового голосования (RV) позволяет каждому алгоритму ранжировать различные действия и объединяет эти ранги для выбора конечного действия.
  •  

  • Метод умножения Больцмана (BM) основан на использовании исследования Больцмана для каждого алгоритма и умножает вероятности Больцмана каждого действия, рассчитанного каждым алгоритмом, и
  •  

  • Метод сложения Больцмана (BA) аналогичен методу BM, но добавляет вероятности действия Больцмана.

Алгоритмы Adaboost, описанные в Polikar (2010), являются наиболее популярными в ансамблевом обучении, охватывающем как классификацию, так и регрессию. Браун (2010) указывает, что слабые алгоритмы могут быть значительно усилены за счет использования методов ансамбля Adaboost, однако более сильный алгоритм, используемый с ним, работает не намного лучше. На данном этапе исследования трудно точно определить результат выбранных алгоритмов и неизвестно, потребуются ли ансамблевые алгоритмы.

Зарегистрируйся, чтобы продолжить изучение работы

    Поделиться сочинением
    Ещё сочинения
    Нет времени делать работу? Закажите!

    Отправляя форму, вы соглашаетесь с политикой конфиденциальности и обработкой ваших персональных данных.