Сочинение на тему Исследование качества краудсорсинговой этикетки

Опубликовано: 18.10.2020
Предмет: Информационная наука
Темы: Краудсорсинг

Краудсорсинг – это практика привлечения толпы или группы людей для выполнения общей задачи. Это простой и эффективный способ быстрее выполнять задачи с хорошей точностью и может использоваться в таких приложениях, как сбор данных, системы рекомендаций, социальные исследования и т. Д. Он также играет важную роль в машинном обучении, где требуется большой объем маркированных данных. тренировать модели. В процессе маркировки наборов данных следует выбирать более качественные этикетировщики, чтобы снизить шумность этикеток. Существует ряд офлайн и онлайн подходов для решения этой проблемы выбора, и некоторые из них обсуждаются здесь.

Краудсорсинг – это процесс, посредством которого работа, выполняемая группой людей, и люди получают вознаграждение за свою работу. Основная идея краудсорсинга заключается в том, чтобы распределить задачу (немаркированные данные) среди большого числа людей и объединить полученные результаты. Задача может быть чем угодно, например, надписью изображения, оценкой фильма и т. Д.

Основными компонентами системы краудсорсинга являются мастер и некоторые работники (этикетировщики). Мастер задач публикует задачу, и заинтересованные работники подходят к ней. Работники, в свою очередь, будут получать оплату от мастера работ. Один известный пример системы краудсорсинга – Amazon Mechanical Turk (AMT). Это краудсорсинговый интернет-рынок для работы, требующей человеческого интеллекта.

Краудсорсинг работает по принципу большего количества руководителей, чем один. Из-за привлечения большего количества людей с различными навыками и талантами, можно получить хорошие качественные результаты для задач. Краудсорсинг также играет важную роль в приложениях машинного обучения. В машинном обучении огромное количество маркированных данных необходимо для обучения модели. Такое огромное количество помеченных данных может быть собрано с помощью краудсорсинга.

Основная проблема, связанная с краудсорсингом, заключается в качестве помеченных данных, полученных от этикетировщиков. Это связано с тем, что некоторые ярлыки, назначенные для выполнения задания, могут демонстрировать безответственное поведение, а некоторые из них могут иметь низкую степень экспертизы. В результате полученные ярлыки становятся шумными и содержат ошибочные ответы. Следовательно, выбор этикетировщиков должен быть сделан тщательно, чтобы можно было улучшить качество этикеток.

Проблема поиска лучших и надежных этикетировщиков называется «проблемой выбора этикетировщиков». Для решения проблемы выбора метки было предложено несколько методов. Целью данной работы является обзор ряда наиболее перспективных из этих методов.

Кто модерирует модераторов? Краудсорсинг

Обнаружение злоупотреблений в пользовательском контенте [1] Пользовательский контент (UGC) может быть любой формой постов, комментариев, блогов, размещаемых пользователями на веб-сайтах. Это содержимое может иногда содержать спам и злоупотребления. Такое оскорбительное содержание должно быть распознано и исключено с веб-страниц.

Этот процесс называется модерацией. Чтобы справиться с большим количеством модерируемого содержимого, авторы предлагают использовать краудсорсинговые рейтинги для модерации UGC. То есть зрителям веб-сайтов будет разрешено помечать контент как хороший или плохой. Агрегируя их рейтинг, можно обнаружить оскорбительное содержимое и удалить его с веб-сайтов. Но не обязательно, чтобы все оценщики были честными и давали точные оценки. Таким образом, заслуживающие доверия оценщики должны быть отобраны, чтобы получить правильные оценки.

Алгоритм, предложенный в этой статье, работает на основе предположения о том, что личность одного хорошего или доверенного оценщика известна. Это означает, что этот доверенный оценщик будет оценивать контент почти постоянно. Следовательно, сравнивая ярлыки, полученные от других оценщиков, с ярлыками доверенного лица, можно определить честных и хороших оценщиков.

Ограничением этого подхода является то, что он является автономным алгоритмом. Процесс поиска лучших оценщиков выполняется в первую очередь, и вновь поступающий контент передается этому лучшему набору оценщиков. Но это не обновляет точность оценок, основанных на каждой проверяемой информации. Следовательно, этот подход не адаптивный. Кроме того, устранение плохих оценщиков выполняется в виде постобработки, то есть после того, как оценка проводится всеми оценщиками. Если большинство из этих ярлыков шумят, то время и ресурсы были потрачены впустую.

Подход к онлайн-обучению для повышения качества краудсорсинга [4]

В этой статье авторы вводят интерактивную среду обучения для решения проблемы выбора этикетировщика, в соответствии с которой качество этикетировщика обновляется по мере того, как задачи назначаются и выполняются. Таким образом, он адаптируется к вновь поступившим задачам, потому что точность ярлыка обновляется при каждом поступлении задачи. Этот подход не требует какого-либо набора контрольных меток или основополагающей правды для проверки правильности метки. Вместо того чтобы использовать основную информацию, они используют правило взвешенного большинства для вывода истинного ярлыка.

Он состоит из двух этапов, а именно разведки и эксплуатации. Будет проверено условие, чтобы определить, следует ли проводить разведку или эксплуатацию. Набор заданий назначается в качестве тестеров, и они назначаются повторно каждому этикетировщику для оценки его качества маркировки. Фаза исследования начинается, если не хватает количества тестеров или если все тестеры не были протестированы достаточное количество раз. На этапе исследования, либо задание старого тестера, либо новое поступившее задание передается этикетировщикам. Правило взвешенного большинства применяется к собранным меткам, чтобы вывести истинную метку. Точность каждого ярлыка – это отношение количества совпадений его ярлыка с истинным ярлыком к общему количеству назначенных ему заданий. Он обновляется снова и снова при каждом поступлении новой задачи, и алгоритм со временем изучает лучший набор меток.

Ярлыки, которые всегда конфликтуют с другими в своих ярлыках, исключаются. Кроме того, одно и то же задание ставится одному и тому же человеку для проверки согласованности его ярлыков, и устраняются противоречивые ярлыки.

На этапе эксплуатации алгоритм выбирает лучший набор ярлыков на основе текущих оценок качества для обозначения прибывающего задания.

Ограничение этого подхода заключается в том, что он не учитывает контекст поступающей задачи и качество этикетировщиков в разных контекстах. Каждый человек будет иметь знания в разных областях. Человек, получающий задание в определенном контексте, в котором у него меньше знаний, не может дать правильную метку, даже если у него высокая точность оценки. По этой причине есть шансы получить этикетки низкого качества.

Краудсорсинг используется в различных приложениях для быстрого получения качественных результатов. Выбор метки должен быть сделан тщательно, чтобы получить точный результат краудсорсинга. Существуют различные офлайн и онлайн подходы, которые используются для выбора наилучшего набора этикетировщиков и тем самым улучшения качества этикеток. Некоторые из этих подходов были подробно описаны в литературе.

Зарегистрируйся, чтобы продолжить изучение работы

Поделиться сочинением

Ещё сочинения

Успех команды в краудсорсинге: виртуальные команды

15.10.2020 Комментариев нет

В сегодняшних условиях организационная культура действительно важна для каждого человека, который работает в среде, где будет много сердечно работающих. Координация, единство работы должны поддерживаться хорошо

Читать полностью »