Проблемы и перспективы автоматического распознавания речи сочинение пример

ООО "Сочинения-Про"

Ежедневно 8:00–20:00

Санкт-Петербург

Ленинский проспект, 140Ж

Сочинение на тему Проблемы и перспективы автоматического распознавания речи

Распознавание речи – это способность слушать произносимые слова и различать в них различные звуки, распознавать их как слова некоторого известного языка. В компьютерной области распознавание речи может быть охарактеризовано как способность компьютерной структуры распознавать произносимые слова в конфигурации звука, такой как wav, и впоследствии создавать ее сущность в расположении контента. Автоматическое распознавание речи (ASR) имитирует слух человека, превращает речь в текст.

Этот вид преобразования не должен зависеть от размера словарного запаса, акцента, характеристик динамика, таких как мужской или женский и т. д. Юрафски дает более техническое определение, где он определяет ASR как построение системы для отображения акустических сигналов на струну слов. Он продолжает, определяя автоматическое понимание речи (ASU) как расширение цели до некоторого понимания предложения. Распознавание речи в основном является проблемой распознавания образов. Это включает в себя извлечение признаков из волн входного сигнала и их классификацию по классам с использованием модели сопоставления с образцом. Производительность системы ASR измеряется на основе точности распознавания, сложности и надежности. Преимуществами автоматического распознавания речи являются доступность для глухих, снижение затрат за счет автоматизации, возможность поиска текста.

Проблема ASR состоит в том, чтобы запрограммировать компьютер для взятия оцифрованных образцов речи и печати слов, которые человек узнает при прослушивании того же звука. ASR вырос примерно пропорционально другим областям распознавания образов из-за желания изобрести машину, способную принимать сложные решения, и, практически, такую, которая могла бы функционировать так же быстро, как люди.

Хотя мы многое узнали о том, как создавать практичные и полезные системы распознавания речи, остается ряд фундаментальных вопросов о технологии, на которые у нас нет однозначных ответов. Безошибочно речевой сигнал является выдающимся среди самых сложных сигналов, которыми мы должны управлять. Он создан вокальной системой человека, и его трудно описать простой двухмерной моделью распространения звука. Хотя существуют различные передовые численные модели, которые пытаются симулировать систему производства речи, их демонстрационные возможности пока ограничены.

В этой работе мы исследуем эффективность использования алгоритма оптимизации бактериального кормления (BFOA) для оптимизации структуры и изучения параметров HMM. BFOA, предложенный Passino (Passino, 2002), является новичком в семействе алгоритмов оптимизации, основанных на природе. В течение последних пяти десятилетий алгоритмы оптимизации, такие как генетические алгоритмы (GA) (Holland, 1975) и (Benmachiche et al., 2016), эволюционное программирование (EP), Evolutionary Strategies (ES) (Rechenberg et al., 1994), которые вдохновлены эволюцией и естественной генетикой, доминируют в области алгоритмов оптимизации. В последнее время в этой области исследований нашли применение алгоритмы, вдохновленные природным роем, такие как Particle Swarm Optimization (PSO) (Kennedy and Eberhart, 1996), Ant Colony Optimization (ACO) (Dorigo and Gambardella, 1997), которые доказали свою эффективность. Следуя той же тенденции алгоритмов, основанных на рое, Passino предложил BFOA (Passino, 2002). Кроме того, можно спроектировать операторов, которые поддерживают биологически правдоподобные изменения в структуре HMM. То есть для обеспечения того, чтобы модули состояний оставались нетронутыми. Цель данной работы – предложить алгоритмы, улучшающие это качество. Критерием, используемым для количественной оценки качества НММ, является вероятность того, что данная модель генерирует данное наблюдение. Чтобы решить эту проблему, мы используем, как мы уже упоминали, гибридизацию BFOA с HMM.

Насколько нам известно, смысл взаимодействия машины и человека заключается в том, чтобы использовать наиболее регулярный метод общения через нашу речь. Выполнение запрограммированных систем ASR зависит от традиционных HMM, которые зависят от систем оценки максимального правдоподобия (MLE). Различные модели были исследованы такими специалистами, как нейронные и байесовские системы, дискриминационные стратегии обучения, моделирование длительности состояний и использование машин опорных векторов с HMM.

Наиболее пунктуальные попытки разработать системы для ASR на машине были предприняты в 1950-х годах. В 1952 году в Bell Laboratories, Biddulph и Balashek (Biddulph and Balashek, 1952) изготовили систему, сильно зависящую от измерения спектральных резонансов в области гласных каждой цифры. В 1970-х годах исследования по распознаванию речи достигли огромных поворотных моментов. Начнем с того, что распознавание изолированного слова или дискретного высказывания стало жизнеспособной и пригодной для использования технологией, основанной на фундаментальных исследованиях Величко и Загоруйко в России.

При распознавании слогов или отдельных слов слуховые системы человека работают выше уровня вероятности уже при -18 дБ отношение сигнал / шум (SNR) и значительно выше его при -9 дБ SNR. Ни одна система ASR не способна достичь производительности, близкой к производительности слуховых систем человека, при распознавании изолированных слов или фонем в условиях сильного шума, как недавно было подтверждено в обширном исследовании Sroka.

Норрис в 2008 году представил байесовскую модель непрерывного распознавания речи, которая основана на коротком списке и разделяет многие из его основных допущений: параллельная конкурентная оценка нескольких лексических гипотез, фонологически абстрактные предлексические и лексические представления, архитектура прямой связи с нет онлайн-обратной связи и лексический алгоритм сегментации, основанный на жизнеспособности кусков ввода как возможных слов.

Модели нейронных сетей являются мощными механизмами распознавания речи. Их способность классифицировать данные и способность к параллельной обработке прокладывают путь для распознавания речи. Типичная нейронная сеть состоит из входного слоя, скрытого слоя, выходного слоя. Входной слой получает входной сигнал и передает данные на скрытый слой. Скрытый слой вычисляет функцию действия, и все необходимые вычисления выполняются в этом слое. После вычислений вывод переносится в выходной слой. Искусственные нейронные сети представляют собой структуру ориентированного графа с узлами, имеющими некоторые веса. Веса изначально случайные и обновляются соответственно. Алгоритмы обучения используются для классификации данных. Алгоритм обратного распространения, итеративный процесс обучения, многоуровневая модель персептрона, а также функции радиального смещения могут использоваться для классификации данных. В 2013 году Грэйвс исследовал глубоко рекуррентные нейронные сети (RNN), которые объединили несколько уровней представления, которые оказались настолько эффективными в глубоких сетях с гибким использованием контекста на большие расстояния, который расширяет возможности RNN. Когда они обучались сквозной подходящей регуляризации, они обнаружили, что глубокая долговременная кратковременная память RNN достигает ошибки набора тестов 17,7% в тесте распознавания фонем TIMIT.

Модели опорных векторов (SVM) с контролируемыми алгоритмами обучения. Они используются для классификации и регрессионного анализа. Они анализируют данные и распознают закономерности. Независимое от текста распознавание говорящего использует в качестве своих функций компактное представление речевого высказывания, известного как i-vector. Вместо того, чтобы оценить модель SVM для каждого динамика, по одному против всех гуманных парадигм, Попарные опорных векторы (PSVM) подход классифицирует пробу, состоящая из пары I-векторов, как принадлежащие или не к тому же класса акустических систем. Однако тренировка PSVM с большим объемом данных является трудоемкой и дорогостоящей в вычислительном отношении задачей, поскольку число обучающих пар растет квадратично с увеличением количества обучаемых i-векторов. Среди многочисленных методов выбора данных, которые были предложены для двоичной SVMS, представлены те, которые наилучшим образом подходят для этой проблемы, но являются очень дорогими в вычислительном отношении. В рамках подхода к обучению предлагается, когда данные обучения разделяются на непересекающиеся подмножества, которые используются для обучения независимых SVM. Тренировочные шаблоны, близкие к средней гиперплоскости, выбираются для обучения естественного SVM. Этот подход интересен тем, что процедура обучения может выполняться параллельно на каждом подмножестве, но имеет несколько недостатков. Не только трудно выбрать значимые непересекающиеся подмножества пар i-векторов, но также этот метод остается дорогим для большого набора динамиков и не дает никакой гарантии, что гиперплоскость среднего запаса подобна оптимальной гиперплоскости. Иерархическое параллельное обучение предлагается в каскадном SVM-подходе, который, тем не менее, стоит дороже формального, потому что все SVM-схемы должны оцениваться каждым SVM в дереве, а также потому, что процедура является итерационной.

Обобщенная переменная Модель скрытого Маркова (GVP-HMM) используется для распознавания речи в шумной среде. Важнейшей задачей систем автоматического распознавания речи является надежное устранение несоответствия целевой среде, вызванной внешними факторами, такими как шум окружающей среды. Когда эти факторы имеют изменяющийся во времени характер, эта проблема становится еще более сложной. Для решения этой проблемы можно использовать ряд методик на основе моделей: многоуровневое обучение использует неявную мощь моделирования смешанных моделей или, в последнее время, глубоких нейронных сетей, чтобы получить хорошее обобщение для невидимых шумовых условий. Альтернативный подход к вышеупомянутым методам заключается в непосредственном внедрении управляемости в основную акустическую модель. Следует надеяться, что благодаря явному изучению основного эффекта, налагаемого развивающимися акустическими факторами, такими как шум, на акустическую реализацию речи, становится возможной мгновенная адаптация к этим факторам.

В этом исследовании используется арабский язык. Общеизвестно, что арабский язык является пятым по распространенности языком в мире и насчитывает около 300 миллионов носителей языка, простираясь через широкий географический район от Северной Африки до Ближнего Востока. Он также является одним из шести официальных языков, принятых в Организации Объединенных Наций, и представляет собой официальный язык примерно в двадцати двух странах, в то время как во многих странах существуют значительные арабоязычные общины. Арабский язык также является литургическим языком и языком поклонения для более чем полутора миллиардов мусульман во всем мире.

Кроме того, многие проблемы сталкиваются с распознаванием арабской речи. Например, арабский язык имеет короткие гласные, которые обычно игнорируются в тексте, что добавляет путанице декодер ASR. Кроме того, в арабском есть много диалектов, где слова произносятся по-разному. Элмахди и Грун суммировали основные проблемы распознавания арабской речи, которые включают арабскую фонетику, проблему дискретизации, отношение графемы к фонеме и морфологическую сложность. Bourouba et al. (2006) представили новый HMM / машину векторов поддержки (SVM) (k-ближайший сосед) для распознавания изолированных произнесенных слов. Sagheer в (Sagheer et al., 2005) предложил новую систему представления визуальных особенностей речи. Они использовали его, чтобы составить полную систему чтения по губам. В то время как Мухаммед оценивал обычную систему ASR для шести различных типов пациентов с нарушением голоса, говорящих по-арабски. Кепстральные коэффициенты Mel-частоты (MFCC) и модель смеси Гаусса GMM / HMM используются в качестве признаков и классификатора, соответственно. Результат распознавания анализируется по типам заболеваний.

Atal в Atal и Hanauer (1971), начал серию независимых. Они использовали широкий спектр сложных алгоритмов кластеризации, чтобы определить количество различных шаблонов, необходимых для представления всех вариаций различных слов в широком круге пользователей. В 1980-х годах технология перешла от шаблонных подходов к методам статистического моделирования, особенно к скрытому марковскому подходу.

Поделиться сочинением
Ещё сочинения
Нет времени делать работу? Закажите!

Отправляя форму, вы соглашаетесь с политикой конфиденциальности и обработкой ваших персональных данных.