Сочинение на тему Обнаружение и исправление реальных слов в языке бангла
- Опубликовано: 21.08.2020
- Предмет: Наука
- Темы: лингвистика, Язык и лингвистика
Аннотация – Обнаружение орфографической ошибки не так легко в Bangla. Чтобы проверить наличие реальной ошибки в предложении, это сопряжено с большими трудностями. В этой статье мы сосредоточимся на исправлении ошибки гомофона в ошибке реального слова. Мы используем N-граммовую модель, которая используется во многих целях, таких как машинный перевод, распознавание речи, для извлечения синтаксической информации и т. Д. Мы используем комбинацию Би-грамм и Триграмм со словом-кандидатом, которое будет обнаружено, является ли оно реальным Ошибка в слове или нет. Мы разработали корпус, который содержит (i) один из них представляет собой набор наборов гомофоновых (сбивающих с толку) слов, (ii) еще два представляют собой набор биграмм и триграмм, использующих гомофоновые слова, и (iii) остальные семь являются тестовыми наборами. Слово-кандидат извлекает набор гомофоновых слов из корпуса. В нашем предлагаемом методе мы создаем триграмм и биграмму, используя гомофонное слово, затем он проверяет правильность и берет частоту биграмма или триграмма, и, наконец, вычисляет вероятность принятия окончательного решения о слове-кандидате. Мы использовали около миллиона слов для проверки нашей системы. Предлагаемый нами метод обеспечивает точность более 96% в обнаружении и исправлении реальных слов текста Bangla.
Ключевые слова: гомофоны Bangla, НЛП, ошибка реального слова, N-грамм, марковская модель.
I. Введение
Люди общаются друг с другом на разных языках. Это почти как все другие животные, мы также участвуем в общении через устные, знаковые или текстовые представления, чтобы выразить свои взгляды другим людям.
Текстовое представление – это наиболее распространенный способ общения, благодаря которому люди могут выразить свое желание другим людям. Мы можем получить вдохновение для текстового представления газетами, дневниками, руководствами, книгами, романами, публикациями и т. Д. С помощью текстового представления языка мы можем хранить и поддерживать информацию через средства массовой информации и развитие правовой системы. Bangla является основным языком в Бангладеш и вторым по распространенности языком в Индии. Бангла – один из самых распространенных языков, на котором проживает около 250 миллионов человек.
Язык бангла происходит от индоарийских, индоевропейских языков. Язык бангла – один из самых важных языков, которые мы знаем. В бангла есть 11 гласных и 39 согласных символов. Таким образом, всего 50 букв, в целом поддерживая весь язык бангла. Нелегко обрабатывать язык бангла по его сложным орфографическим правилам. Есть много критических грамматических правил, которым так трудно всегда следовать в нашем текстовом представлении. Вот почему в нашем тексте принято ожидать автокоррекции, известной как правописание.
Средство проверки правописания – это приложение, которое обнаруживает ошибки, а также предоставляет рекомендации. Как правило, проверка орфографии говорит о слове, где оно написано с ошибкой или нет. Если слово не существует в корпусе или словаре, то оно будет недействительным словом или словом с ошибкой. Есть несколько распространенных причин орфографических ошибок, таких как похожие фонетические буквы в бангла, наличие схожего произнесенного слова, меньшие навыки в правилах орфографии и т. Д. Есть много типов ошибок, таких как опечатка, когнитивная ошибка и т. Д.
Кукич [1] разделил орфографические ошибки на два типа: опечатка и когнитивная ошибка. Типографские ошибки возникают при наборе текста (‘দোসর’ как ‘দোসরর’), а когнитивные ошибки (‘বাস’ как ‘বাষ’) – отсутствие знаний о том, как пишется слово. Типографская ошибка также включает в себя ошибку вставки, ошибку удаления, ошибку замещения, ошибку транспонирования. Когнитивная ошибка включает фонетическую ошибку.
Кукич также представил с ошибкой реального слова и ошибкой не слова. Несловая ошибка – это уровень слова
Преподавание существительных в важной области интересов в преподавании английского языка, которая всегда привлекала мое внимание и внимание моих учеников. Это обширная область, которая может связать
Приобретение словарного запаса играет доминирующую роль в процессе изучения английского языка, а также оно очень интерактивное и сложное. Другими словами, мы можем видеть, что приобретение
Арнольд (1992) даже обнаружил, что песня на хинди была опознавательным знаком индийцев. По ее словам, песня на хинди предоставила всем индийцам отчетливо национальную, современную, популярную