Сочинение на тему Выявление ошибок в системах SR

Опубликовано: 03.09.2020
Предмет: Бизнес
Темы: автоматизация, Производство

Распознавание речи дает вывод текста на данный голос, короче говоря, это преобразование речи в текст (STT). Это полезно для глухих, немых и инвалидов. Этот проект призван повысить эффективность распознавания речи. Разработана система распознавания речи с собственным словарем для повышения эффективности системы распознавания речи. Ошибки обычно не только различаются по количеству, но также имеют различную степень влияния на оптимизацию набора акустических моделей. Важно исправить ошибки в результатах распознавания речи, чтобы повысить производительность системы распознавания речи. Ошибки обнаруживаются и исправляются в соответствии с базой данных, полученной из пар ошибочно-правильных высказываний. Во время работы системы распознавания речи отображаются значения и ошибки References и Hypothesis. Уравновешивая ошибки, мы можем улучшить точность распознавания речи. Удаляя тишину из речевого сигнала, мы можем улучшить точность речи.

Распознавание речи – это процесс преобразования произнесенных слов в текст. Распознавание речи – это анализ акустического речевого сигнала для определения лингвистического сообщения. Системы распознавания речи сравнивают произнесенные слова и текст, а затем дают точность. Эти системы распознавания играют жизненно важную роль в облегчении повседневной деятельности. Приложения распознавания речи включают в себя голосовой набор, маршрутизацию вызовов и голосовой поиск на основе контента, ввод данных, подготовку структурированных документов, обработку речи в текст и в кабинах самолетов. В дополнение к этому, система распознавания речи может использоваться для людей с нарушениями зрения, искалеченными руками. В слаборазвитых странах, где уровень грамотности является низким, это может обеспечить механизм доступа к информации для людей, которые не умеют читать и писать, а также для людей, которые могут быть грамотными, но не обладают компьютерными навыками.

Распознавание речи определяется как способность компьютера понимать произносимые команды или ответы, что является важным фактором взаимодействия человека с компьютером. SR был доступен в течение многих лет, но он не был практичным из-за высокой стоимости приложений и вычислительных ресурсов. СР значительно расширились в приложениях телефонии, преобразования голоса в текст. Повышение эффективности работников, которые выполняют обширную печать, помогают инвалидам и управляют колл-центрами за счет сокращения затрат на персонал, демонстрируют преимущества распознавания речи. Распознавание речи – это процесс, с помощью которого компьютер распознает произнесенные слова. По сути, это означает, что вы разговариваете с вашим компьютером и правильно понимаете, что вы говорите. Просто это преобразование Сигнал в Символ, т.е. принимает речь как ввод и дает текст как вывод.

Модели распознавания:

Зависимость от говорящего: системы распознавания речи, которые могут распознавать речь только тех пользователей, которых она обучила понимать, называются распознавателем речи, зависящим от говорящего. Ограниченный, чтобы понять выбранных ораторов.

Speaker Independent: программное обеспечение для распознавания речи, которое распознает множество динамиков без какой-либо подготовки, называется распознавателем речи, независимым от говорящего.

Скрытая модель Маркова:

Каждая система распознавания речи связана со скрытой марковской моделью:

Скрытая марковская модель – это вероятностный конечный автомат, который можно использовать для моделирования и распознавания речи. Рассматривайте речевой сигнал как последовательность наблюдаемых событий, генерируемых механической системой производства речи, которая переходит из одного состояния в другое при создании речи. Термин скрытый относится к тому факту, что состояние системы (т.е. конфигурация речевых артикуляторов) неизвестно наблюдателю речевого сигнала. Системы распознавания речи используют HMM для моделирования каждой звуковой единицы на языке. В HMM каждое состояние связано с распределением вероятностей, которое измеряет вероятность событий, сгенерированных этим состоянием. Эти распределения известны как выходные или наблюдательные распределения вероятностей. Каждое состояние также связано с набором вероятностей перехода. Учитывая текущее состояние, вероятности перехода моделируют вероятность того, что система будет в определенном состоянии, когда будет произведено следующее наблюдение. Как правило, гауссовые распределения используются для моделирования выходного распределения каждого состояния HMM. Вероятности перехода определяют скорость, с которой модель переходит из одного состояния в другое, что дает модели некоторую гибкость в отношении звуковых единиц, которые могут различаться по продолжительности.

HMM = (?, A, B)

<Р>? = вектор вероятностей начального состояния A = матрица перехода состояний B = матрица смешения В определениях HMM существуют три представляющие интерес проблемы:

Проблема оценки. Алгоритм прямого-обратного хода используется для определения вероятности того, что модель сгенерировала наблюдения для данной модели и последовательность наблюдений.

Проблема декодирования. Алгоритм Витерби может найти наиболее вероятную последовательность состояний в модели, которая произвела наблюдение для данной модели, и последовательность наблюдений.

Задача обучения: алгоритм Баума-Уэлча находит параметры модели таким образом, чтобы получить максимальную вероятность генерации наблюдений для данной модели и последовательности наблюдений.

(A) Алгоритм пересылки:

Прямой алгоритм вычисляет все возможные последовательности состояний длины, которые генерируют последовательность наблюдений, а затем суммирует все вероятности. Вероятность каждого пути является произведением вероятности последовательности состояний и совместной вероятности вдоль пути.

(B) Алгоритм Витерби:

Прямой алгоритм вычисляет вероятность того, что HMM генерирует последовательность наблюдения, суммируя вероятности всех возможных путей, поэтому он не обеспечивает наилучшую последовательность пути или последовательность состояний. Во многих приложениях желательно найти такой путь , Поиск лучшего является краеугольным камнем поиска непрерывного распознавания речи. Поскольку последовательность состояний скрыта в структуре HMM, наиболее широко используемый критерий состоит в том, чтобы найти последовательность состояний, которая имеет наибольшую вероятность получения при создании последовательности наблюдения, алгоритм Витерби можно рассматривать как динамическое программирование, применяемое к HMM. или как модифицированный прямой алгоритм. Вместо суммирования вероятностей с разных путей, приходящих в одно и то же состояние назначения, алгоритм Витерби выбирает и запоминает лучший путь.

Он также известен как алгоритм прямого-обратного хода, используемый для моделирования наблюдений в обучающих данных с помощью параметров HMM. Этот алгоритм является своего рода алгоритмом EM (Expectation Maximization), который перебирает данные сначала в прямом проходе, а затем в обратном проходе. Во время каждого прохода мы корректируем набор вероятностей, чтобы максимизировать вероятность данного наблюдения в обучающих данных, соответствующих данному состоянию HMM. Поскольку эта проблема оценки не имеет аналитического решения, необходимы дополнительные итерации, пока не будет достигнута сходимость. На каждой итерации алгоритм пытается найти лучшие вероятности, которые максимизируют вероятность наблюдений и обучающих данных. На этом этапе мы переоцениваем вес смешивания, вероятности перехода, а также среднее и дисперсионные параметры.

После каждой итерации переоценки Баума-Уэлча мы вставляем этап нормализации. Мы рассчитываем переоцененные параметры модели на основе переоценочных показателей, полученных с помощью Baum-Welch. Объединенная итерация Баума-Уэлча и нормализации повторяется до тех пор, пока не будет достигнута приемлемая сходимость параметров.

Реализация:

Мы должны написать файл пакетного режима.

Его можно записать в виде текстовой транскрипции вместе с необработанным файлом. Необработанный файл, в котором мы сохранили, и это путь к пакетному файлу. Устанавливая файл конфигурации, мы должны создать файл XML и вызвать все файлы, которые мы сохранили в папке sphinx4, запустить файл XML. При запуске Sphinx 4 он отображает значения References и гипотезы с точностью и частотой ошибок и отображает вставку, замену , ошибки удаления. Повышение эффективности точности распознавания речи с помощью системы распознавания речи Sphinx 4. Система распознавания речи разработана с собственным словарем, чтобы повысить эффективность системы распознавания речи. Ошибки распознавания не только различаются по количеству, но также имеют различную степень влияния на оптимизацию набора акустических моделей. Важно исправить ошибки в результатах распознавания речи, чтобы повысить производительность системы распознавания речи. Запустив систему распознавания речи, он может отображать значения и ошибки References и Hypothesis.

Здесь мы можем получить три типа ошибок.

<Р> 1. Вставка

<Р> 2. Замена

<Р> 3. Удаление

Дополнительное слово, добавленное в распознанное предложение, называется ошибкой вставки.

Неправильное слово, которое было заменено на правильное, называется ошибкой замещения.

Правильное слово было опущено в распознанном предложении.

Путем исправления ошибок распознавания речи мы можем улучшить точность распознавания речи. В речи используются две пары строк. Первая строка является ошибочной строкой высказывания, предсказанного системой распознавания речи. Вторая строка представляет собой соответствующий раздел фактического высказывания. Ошибки обнаруживаются и исправляются в соответствии с базой данных. При рассмотрении ошибок в распознавании речи мы должны проверить общую базу данных, в которой обнаружены ошибки. Шаблон ошибки состоит из двух строк. Одна – это строка, содержащая ошибки, а другая – соответствующая правильная строка.

Эти части извлекаются из результатов распознавания речи и соответствующих фактических высказываний. Часть коррекции выполняется путем замены правильной части частью ошибки, когда часть ошибки обнаруживается в результате распознавания. Сравните значения ссылок и гипотез из базы данных и исправьте словарь, уменьшите ошибки вставки, замены, удаления и улучшите точность распознавания речи с исправленной строкой. Распознаватель речи обычно выдает три разных типа ошибок, включая вставку, замену и удаление. При вставке, распознавании и замене речи ошибки не только различаются по количеству, но и имеют разную степень влияния на оптимизацию набора акустических моделей.

Используя коррекцию шаблона ошибок, мы можем устранить частоту ошибок и повысить точность распознавания речи. Здесь мы должны исправить словарь и командный файл. Если мы сделали три ошибки, то легко улучшаем точность и уменьшаем частоту ошибок. Выполните вставку, замену за раз и удаление за один раз, чтобы улучшить точность системы распознавания речи. Словарь произношения является одним из основных компонентов системы распознавания речи. Производительность системы распознавания речи в основном основана на выборе субъединиц и точности речи. Он может варьировать значения точности с помощью методов распознавания аудио в системе распознавания речи. Используя методы классификации, мы можем повысить точность системы распознавания речи.

Зарегистрируйся, чтобы продолжить изучение работы

Поделиться сочинением

Ещё сочинения

Цифровое предприятие в производственном секторе

26.10.2020 Комментариев нет

Всегда была необходимость стать цифровым предприятием в производственном секторе, так как нам необходимо сделать шаг в сторону Industry 4.0 и обеспечить конкурентоспособность с помощью масштабируемых

Читать полностью »

Основы изготовления свечей

26.10.2020 Комментариев нет

Известно, что использование свечей для света и тепла существовало в древние времена. Остатки свечей были найдены в пещерах Франции. Считается, что пещерные люди использовали их

Читать полностью »

Контейнеры для попкорна

26.10.2020 Комментариев нет

Контейнеры для попкорна – индивидуальные упаковочные контейнеры Попкорн – самая известная и восхитительная закуска во всем мире. Люди любого возраста любят хрустеть попкорном, находясь на

Читать полностью »