Сочинение на тему Проблема обратного обучения

Опубликовано: 29.09.2020
Предмет: Информационная наука, образование, Психология
Темы: армирование, Обучение, Сбор данных

Обратное обучение с подкреплением – это проблема заставить агента изучать функцию вознаграждения, наблюдая за экспертом-агентом с определенной политикой или поведением. Проблемы RL дают мощное решение для последовательных проблем, используя агентов с заданной функцией вознаграждения, чтобы найти политику, взаимодействуя со средой. Тем не менее, одним из основных недостатков проблем с RL является предположение, что дана хорошая функция вознаграждения, которая является кратким представлением замысла дизайнера. Но определение хорошей функции вознаграждения может быть сложной задачей, особенно для сложных задач, имеющих большое количество состояний и действий. В то время как обычное обучение с подкреплением предполагает использование наград и наказаний для изучения поведения, в IRL направление меняется на противоположное, и робот наблюдает за поведением эксперта, чтобы выяснить, какую цель, по-видимому, пытается достичь это поведение.

Усиленное обучение – это вычислительный подход к пониманию и автоматизации целенаправленного обучения и принятия решений. Методы RL решают проблемы с помощью агента, который приобретает опыт посредством взаимодействий (методом проб и ошибок) с динамической средой. Результатом является политика, которая может решать сложные задачи без конкретных инструкций о том, как эти задачи должны быть выполнены. Другими словами, можно сказать, что обучение с подкреплением является вычислительным подходом к обучению через взаимодействия (поведенческая психология), который применяется людьми в природе, где мы учимся на допущенных ошибках и пытаемся больше не совершать ту же ошибку, когда возникает подобная ситуация. , Усиленное обучение имеет лучшие обобщающие свойства и отличается от контролируемого обучения, в котором используются помеченные примеры, потому что ярлыки могут быть недостаточно репрезентативными, чтобы охватить все ситуации. Обучение без учителя, как правило, связано с обнаружением структуры, скрытой в коллекциях немаркированных данных, и поэтому отличается от обучения с подкреплением.

Задачи RL предполагают, что задана оптимальная функция вознаграждения, и основываются на ней для формирования политики для агента. Функция вознаграждения является наиболее кратким представлением намерения пользователя, поскольку она определяет внутреннюю желательность события для системы 1. Но обеспечение функции вознаграждения является нетривиальной проблемой и может привести к серьезным трудностям при проектировании. Обучение обратному подкреплению (IRL) более полезно в тех случаях, когда функция вознаграждения изучается с помощью демонстраций экспертов. В последние годы IRL привлекла нескольких исследователей из сообществ искусственного интеллекта, психологии, теории управления и машинного обучения. IRL привлекателен из-за его способности использовать данные, записанные в повседневных задачах (например, управление данными), для создания автономных агентов, способных моделировать и социально взаимодействовать с другими людьми в нашем обществе – форма трансферного обучения. IRL также является важным подходом к обучению путем демонстрации в различных условиях, включая робототехнику и автоматическое вождение. Некоторые приложения, где IRL был успешно использован, – это квадрупед локомоция, высший пилотаж вертолетов, навигация по парковкам, городская навигация.

IRL можно рассматривать как тип обучения на основе демонстрации или имитации, когда политика изучается на примерах, а целью агента является воспроизведение продемонстрированного поведения. Имитационное обучение также учится на демонстрациях экспертов, но оно больше похоже на контролируемое обучение и требует функции вознаграждения, тогда как IRL может вывести функцию вознаграждения.

Зарегистрируйся, чтобы продолжить изучение работы

Поделиться сочинением

Ещё сочинения

Сегрегация в США: ее влияние на образовательный сектор

30.10.2020 Комментариев нет

Если взглянуть на школы в Ричмонде, штат Калифорния, и сравнить их со школами в Конкорде, штат Калифорния, можно увидеть огромную разницу. Мало того, что жилой

Читать полностью »

Важность использования различных методических приемов для формирования и улучшения навыков общения студентов на английском языке

30.10.2020 Комментариев нет

Преподавание существительных в важной области интересов в преподавании английского языка, которая всегда привлекала мое внимание и внимание моих учеников. Это обширная область, которая может связать

Читать полностью »

Изображение Брюса Бешдела в «Веселом доме»

30.10.2020 Комментариев нет

В графическом романе Элисон Бешдель «Веселый дом» она рассказывает о своей семье, но больше о своих отношениях с отцом. Она изображает своего отца эмоционально разъединенным

Читать полностью »