Сочинение на тему Основа для кластеризации слов в предложениях Bangla с использованием языковой модели высшего порядка N-Gram

Опубликовано: 22.09.2020
Предмет: Здоровье, Наука
Темы: Анализ данных, Качественное исследование, Лекарство, лингвистика, Научный метод, Язык и лингвистика

Кластеризация слов – это метод, который используется для разбиения наборов слов на подмножества семантически похожих слов. Кластеризация слов имеет решающее значение во многих приложениях обработки естественного языка, таких как теги POS, проверка орфографии, проверка грамматики, устранение неоднозначности смысла слов и многое другое. В этой статье мы предлагаем модель с использованием языковой модели высшего порядка N-граммы, которая помогает эффективно кластеризовать бангла-слово, основанное на сходстве значений в языке и контексте.

Правила N-граммы, используемые для генерации разных вероятностей для разной структуры предложений. Для реализации мы также предлагаем систему, которая генерирует различные слова кластера и проверяется пороговыми значениями, чтобы оправдать данный результат. Экспериментируя с большим корпусом длины слова в бангла-предложениях, наша предложенная модель показывает точность примерно 89% для N-грамма более высокого порядка, что вполне удовлетворительно. Ключевые слова – обработка на языке бангла, кластер слов, корпус, n-грамм высших порядков, пороговые значения.

Введение

Идея предсказания слов с помощью вероятностных моделей называется моделью n-граммы, которая предсказывает следующее слово из предыдущих n-1 слов [1]. Эта н-грамма является наиболее важным инструментом в обработке речи и языка. И эти типы статистических моделей последовательности слов также называют языковой моделью. Он контролирует длину, решает подходящие слова и необходимые для статистического машинного перевода. Для реализации использовались разные типы методов, такие как биграмма, триграммная модель и так далее. Таким образом, это новое научное измерение кластеризации слов в Bangla Language Processing растет день ото дня. Из истории исследований кластеризации слов ясно, что его применение в области языковой обработки великолепно. Итак, мы должны представить его глобально с помощью эффективного метода кластеризации слов бангла с использованием моделей N-грамматического языка. В предыдущей истории использовалось очень мало слов, но здесь мы используем около 2 лакхов кластера слов для получения эффективности. Также этим методом мы показываем производительность для N-граммов более высокого порядка.

Исследование кластеризации слов в Bangla Language Processing находится в начальной стадии. Таким образом, кластер слов может быть полезным для многих секторов обработки естественного языка. Например, устранение неоднозначности смысла слова, классификация текста, система рекомендаций, проверка орфографии, проверка грамматики, обнаружение знаний и многие другие приложения. Устранение неоднозначности смысла слова (WSD) определяет, какой смысл слова используется в предложении, когда слово имеет множественное значение. Естественный язык сформирован таким образом, что требует от него столько всего, что является отражением этой неврологической реальности. Для уменьшения проблемы WSD кластеризация слов также может указывать на наиболее подходящую форму слова [2]. Классификация текста присваивает документу один или несколько классов в соответствии с их содержанием. POS-теги – это контролируемое учебное решение, в котором используются такие функции, как предыдущее слово, а следующее слово пишется с заглавной буквы [3]. Это также называется грамматическим тегированием или устранением неоднозначности категории слов.

Кластер слов может определять POS-тег для определенного неизвестного слова [4]. Кластеризация слов может быть полезна для проверки орфографии, поскольку она предоставляет множество вариантов для исправления неправильного написания [5]. Основная концепция кластера состоит в том, чтобы группировать слова в кластеры, где слова представляют собой однородные или похожие слова, как в разных кластерах, которые явно отличаются друг от друга в кластерной группе. По этой причине мы предложили структуру для реализации системы кластеров слов с помощью n-грамматических правил высшего порядка. В этом документе анализируется система с примерно 3019 различными видами предложений банглы. Теперь бангла является 4-м по распространенности языком общения, на котором говорят более 245 миллионов человек в мире. А также обогащены различными ресурсами, такими как культурные, исторические. Большое количество исследований кластеризации слов для некоторых языков, таких как русский, арабский, китайский, японский и английский, уже сделано. В английском уже реализовано достаточно методов для обогащения ресурсов, с другой стороны, Bangla все еще остается позади и не может достичь удовлетворительного уровня. Таким образом, важно вырастить необходимость кластеризации слов бангла. Цель нашего исследования – ускорить весь процесс с помощью N-граммов более высокого порядка. И наблюдать результат, который грамм дает лучшую производительность. Также предложенная нами методология будет играть важную роль в поисковой системе. У кластеризации бангловских слов нет эффективных методов. Чтобы сохранить все превосходства, сделанные в Bangla, необходимо усилить силу языка Bangla.

Удаленная работа

Было реализовано много реализаций другого языка, но из-за нехватки ресурсов реализация кластеризации слов в Bangla остается позади. Во-первых, реализация биграмной модели для расчета весовой матрицы нейронной сети [6]. Другой метод, использующий N-грамм, представлен автором [7], который показывает функцию подобия и жадный алгоритм, который используется для группировки слов в одном кластере. Для японского и английского языка эффективным методом является удаленная интерполяция, которая была разработана [8]. Используя этот метод, они получили лучший результат, чем метод N-граммовых моделей на основе классов. Техника машинного обучения используется для реализации кластеризации слов на основе триграмм, 4 и 5 граммов. Другая английская статья была опубликована после их эксперимента [9]. Они использовали наивный метод Байеса для классификации слов, используя окружающие контекстные слова как функцию, которая работает эффективно. Некоторая работа была разработана, чтобы показать технические проблемы и спроектировать проблему в обработке языка Bangla [10]. Другая методология была реализована для кластеризации слов с использованием неконтролируемой техники машинного обучения [11].

Стохастическая языковая модель используется для автоматического предсказания слов в языке бангла [12]. Была опубликована еще одна статья о бангла, в которой было показано неконтролируемое бангловское слово, основанное на корпусе, с использованием N-граммовой модели [13]. Техника машинного обучения используется для реализации кластеризации слов на основе триграмм, 4 и 5 граммов для лучшего результата [14]. Наблюдая за всеми этими работами, нам становится ясно, что было разработано много экспериментов, но не существует какой-либо существующей модели, которая могла бы помочь эффективно генерировать кластер слов для n-граммов более высокого порядка. Также другие языки уже смотрели реализацию кластеризации слов. Таким образом, это может стать новым измерением для нашего языка. В этой статье мы работаем с новым подходом, который поможет кластеризации слов в обработке Bangla Natural Language. III. Предлагаемая структура В нашей предлагаемой структуре у нас есть шесть модулей, включая входные предложения, селектор n-граммы, генератор правил, кластер слов, пороговое значение и вывод. На рис. 1. Мы показали нашу систему.

Зарегистрируйся, чтобы продолжить изучение работы

Поделиться сочинением

Ещё сочинения

Эффект плацебо пациента: понимание биохимического процесса

30.10.2020 Комментариев нет

Несмотря на то, что в клинических условиях много раз наблюдали преимущества эффекта плацебо у пациентов, внимательно изучая пациентов, проходящих лечение от болезни Паркинсона, лечения боли

Читать полностью »

Плюсы и минусы кесарева сечения доставки

30.10.2020 Комментариев нет

Доставка кесарева сечения также называется доставкой кесарева сечения. Этот способ включает развертывание операции по доставке детей, то есть одного или нескольких. Роды кесарева сечения часто

Читать полностью »

Важность использования различных методических приемов для формирования и улучшения навыков общения студентов на английском языке

30.10.2020 Комментариев нет

Преподавание существительных в важной области интересов в преподавании английского языка, которая всегда привлекала мое внимание и внимание моих учеников. Это обширная область, которая может связать

Читать полностью »