Сочинение на тему Устройство преобразования текста в речь для пациентов с плохим зрением

Опубликовано: 01.08.2020
Предмет: Здоровье, Информационная наука
Темы: видение, Гаджеты, Человеческое тело

Аннотация

При максимальной видимости шесть метров и максимальной ширине 20 градусов люди, страдающие слабым зрением, не могут видеть слова и буквы в обычной газетной бумаге. Этот факт затрудняет процесс чтения, что может нарушить процесс обучения и замедлить развитие интеллекта пациента. Следовательно, требуется устройство, чтобы помочь им легче читать. Одним из устройств, которые разрабатываются сегодня, является устройство, которое использует другое чувство, которое является слуховым чувством. Text-to-Speech – это устройство, которое сканирует и читает индонезийский учебник, изменяя его на голоса.

Назначение устройства состоит в том, чтобы обрабатывать изображение как входной сигнал, а голосовой – вывод. В данной статье описаны дизайн, реализация и экспериментальные результаты устройства. Это устройство состоит из трех модулей: модуля обработки изображений, модуля коррекции слов и модуля обработки голоса. Устройство было разработано на основе Raspberry Pi v2 с частотой процессора 900 МГц. Аудио вывод легко понять, он имеет менее 2% общего количества ошибок и время обработки почти две минуты для ввода текста формата бумаги A4. Это устройство обеспечивает удобство для людей со слабым зрением, ведя их с помощью голоса, оно также имеет возможность воспроизводить и останавливать вывод во время чтения.

Введение

По словам Тайлфорса из Джанини (2004), нарушение зрения может отрицательно сказаться на обучении и социальном взаимодействии. Это может повлиять на естественное развитие интеллекта и академических способностей, социальных и профессиональных [1]. По данным Riskesdas в 2013 году, общее количество людей со слабым зрением в Индонезии составило 2 133 017 [2]. Слабовидящих слабовидящих невозможно исправить с помощью очков. Максимальная видимость этих пациентов составляет 6 метров с максимальным обзором 20 градусов. Это приводит к тому, что люди со слабым зрением не видят обычной печатной бумаги. Они могут только видеть, достаточно ли велик размер символов или букв. Это условие повлияло на длительность процесса чтения и утомило глаза.

Чтобы помочь улучшить качество жизни людей со слабым зрением, необходим инструмент для прочтения статьи. Частота нарушений зрения может варьироваться у каждого человека с плохим зрением. Поэтому устройство, разработанное в этой работе, использовало другую сенсорную функцию при получении информации из текста. Устройство преобразовало текст в речь, специально предназначенное для индонезийских людей со слабым зрением, чтобы они могли легко использовать это устройство, не обращаясь за помощью к другим, и они могут использовать это устройство для понимания литературы на индонезийском языке.

Методы

Устройство преобразования текста в речь состояло из трех основных модулей, модуля обработки изображения, модуля коррекции слова и модулей обработки голоса. Модуль обработки изображений устанавливает положение объекта, фокус и освещение камеры, делает снимки и конвертирует изображение в текст. Модуль коррекции слова вносит исправления в модуль обработки выходного изображения для повышения точности путем сопоставления с индонезийским словарем. Модуль обработки голоса преобразует запись в звук и обрабатывает ее с определенными физическими характеристиками, чтобы звук можно было понять.

Модуль обработки изображений с использованием оптического распознавания символов

Одним из элементов в этом модуле обработки изображений является OCR. При использовании механизма OCR требуются состояние и начальные шаги для того, чтобы получить лучший ввод OCR для уменьшения инвалидности этого механизма OCR. Состояние настройки хорошо адаптируется к спецификациям желаемого исходного устройства. Таким образом, чтобы желаемый результат этой обработки имел минимальную частоту появления ошибок, это также короткое время обработки. Этот модуль не изменяет алгоритм распознавания, но дает дополнительное состояние для получения лучшего ввода распознавания.

IEEE OCR или оптическое распознавание символов – это технология, которая автоматически распознает символ с помощью оптического механизма, эта технология имитирует способность органов зрения человека, где камера становится заменой для глаз, а обработка изображений выполняется в компьютере. двигатель как заменитель человеческого мозга [3]. Tesseract OCR – это тип механизма распознавания текста с матричным соответствием [4]. Выбор механизма Tesseract объясняется тем, что эта машина получила широкое признание в мире, а также гибкостью и расширяемостью этих машин, а также тем, что многие сообщества активно занимаются разработкой этого механизма распознавания. Машины по-прежнему имеют дефекты, такие как искажение по краям и эффект слабого освещения, поэтому большинству механизмов распознавания по-прежнему трудно получить текст с высокой точностью [5]. Требуется некоторая поддержка и условие, чтобы получить минимальный дефект.

Спецификация системы

Устройство спроектировано исходя из следующих ограничений: а. Диапазон чтения расстояние 38-42 см. б. Максимальная толщина материала для чтения составляет 3 см. с. Минимальная освещенность 250 люмен / м2 (экологические классы, офис с легкой работой) d. Максимальный наклон текстовой строки составляет 5 градусов от вертикали. е. Максимальный размер материала для чтения – A4 или 210×297 мм f. Размер символов не менее 10 пунктов. г. Введите символы включают римские, египетские или без засечек. Аппаратная конструкция системы Подставка на рис. 2 спроектирована таким образом, что камера может захватывать максимум бумагу формата A4. Расстояние от камеры до объекта составляет 40 см, а полюс длиной 15 см добавляется для позиционирования камеры над центром объекта.

Подставка устройства

Модуль камеры Raspberry Pi использует ручную регулировку фокуса, поэтому необходимо отрегулировать начальную настройку объектива. Для повышения резкости входного изображения необходимы хорошие условия освещения. Следовательно, добавляется серия светодиодов, чтобы обеспечить дополнительный свет, если окружающая среда имеет низкую интенсивность света. Внедрение оптического распознавания текста в Tesseract Входное изображение, снятое камерой, имеет размер 5 MPI (2592 x 1944 пикселей) или 215 ppi (пикселей на дюйм). Исходя из спецификаций механизма распознавания текста Tesseract, минимальный размер символов, который можно прочитать, составляет 20 пикселей в верхнем регистре. Точность распознавания текста в Tesseract уменьшится с размером шрифта 10pt. Дизайн программного обеспечения Программное обеспечение обрабатывает входное изображение и преобразует его в текстовый формат. Программная реализация.

Разработка программного обеспечения модуля обработки изображений

Изображение снято пользователем через контакт GPIO, который подключен к тактильной клавише с помощью функции прерывания. Кроме того, снимок сделан с помощью программы Rasistill с режимом резкости для повышения резкости изображения. Полученное изображение имеет формат .jpg с разрешением 2592 x 1944 пикселей. B. Модуль исправления слов Проверка правописания Проверка правописания – это задача прогнозирования слов с ошибками в документе. Этот прогноз может отображаться пользователю различными способами. Коррекция работы – это работа по замене слова с ошибкой на гипотезу правильного заклинания. Наиболее подходящим подходом является моделирование того, что непосредственно вызывает ошибку, и кодирование их в алгоритм моделирования или ошибку. Дистанционное расстояние Дамерау-Левенштейна было введено как способ обнаружения орфографических ошибок (Damerau, 1964).

Алгоритмы фонетического индексирования, такие как метафон, используемые GNU Aspel (Atkinson, 2009), с использованием обратных слов с похожим подходом к произношению (произношение «похожий на звук») и позволяющие корректирующему слову выглядеть иначе, чем ортографическое слово. Метафон опирается на файл данных, который содержит фонетическую информацию. Лингвистическая интуиция о различных причинах орфографической ошибки также может быть явно представлена в системе орфографии (Deorowicz and Ciura, 2005). Почти каждая система орфографии в настоящее время использует лексикон (словарь). Основанные на словаре проблемы с обработкой вещей, которые не появляются в словаре, таких как существительные, иностранные термины или освоение и неологизмы, которые могут увеличить пропорцию термина, которого нет в словаре (Ahmad and Kondrak, 2005) [6] .

Разработка модуля коррекции слов

Модуль коррекции слов получает ввод от модуля обработки изображений в виде текста от модуля обработки изображений. Модуль обработки изображений не может определить истинность или ложность вывода слова, поэтому модуль коррекции этого слова, коррекция для целых слов, выводимых из обработки изображения, требует модуля. Чтобы повысить точность модуля обработки выходного изображения, необходимо разработать модуль коррекции слова.

Модуль коррекции слова состоит из нескольких функций. В программном обеспечении для коррекции слов есть одна основная функция, которая является правильной функцией. Другие функции, такие как поддержка функции для настройки ввода с индонезийской грамматикой. Правильная функция соответствует входу и корректирует его. Правильная функция использует словарь (список слов) на индонезийском языке в качестве ссылки для ее исправления. Существуют вспомогательные функции для преодоления ограничений на использование чисел и названия словаря, как описано в литературе, такие как: 1. Функция для разбиения текста на слова. 2. Функция проверки номера в тексте. 3. Функция проверки заглавной буквы в начале предложения. 4. Функция проверки знака препинания в конце предложения. 5. Функция проверки имени (использует заглавные буквы) в предложении. 6. Функция для объединения всего вывода слова из предыдущего выполнения.

Реализация дизайна

Реализация модуля исправления слов состоит из:

<Ол>

Создать индонезийский словарь

Первый шаг – упорядочить слова на индонезийском языке для использования в словаре. Словарь используется для сравнения каждого ввода с индонезийским языком. Слова в этом словаре взяты из слов, которые существуют в KBBI (Камус Бесар Бахаса, Индонезия). Количество слов в этом словаре является результатом сокращения до 50 850 слов. Число представляет собой комбинацию основных слов, союзов, повторяющихся слов, поглощающих слов, цифр, вопросительных слов, местоимений, аффиксов, префиксов и суффиксов.

Компиляция модуля исправления слов

Модуль корректирующего слова, составленный путем адаптации корректора, сделанного Питером Норвигом. В этом модуле коррекции слов, поскольку обычная ошибка обработки выходного изображения обычно происходит в виде буквы, а не длины слова, тогда функция коррекции просто заменяет слово ошибки. Эта функция заменит слово, только если длина ввода равна длине слова в словаре. Использование этого вида замены также учитывает вычислительную нагрузку. Если использовать только одну замещающую функцию, так как длина слова равна n, а расстояние редактирования равно единице, тогда произойдет только n-1 расстояний транспонирования.

Из литературы об исправлении орфографии говорится, что от 80% до 95% орфографических ошибок имеют расстояние редактирования один от цели. На основании исследования Питера Новрига о 270 ошибках в правописании было обнаружено, что только 76% из них имеют одно расстояние редактирования. Дальнейшие исследования дают хорошее покрытие, в тестовом примере 270 только три имели расстояние больше двух. Это означает, что исправление ввода будет включать две буквы в 98,9% регистра. Поскольку коррекция не превышает двух дистанционной коррекции, оптимизация, которую можно выполнить, заключается в том, чтобы просто поддерживать заменяющее слово, в котором будут использоваться полностью знакомые слова [7].

Нет общих положений, ограничивающих различия символов, которые исправляются. Однако на основании результатов исследований, изложенных выше, и с учетом вычислительной нагрузки, для этой функции коррекции используется ограничение в два символа. Эта функция коррекции использует основанные на вероятности методы, которые проводят обучение для входного слова, так что возможные слова, которые будут выданы в качестве замены исправленного слова, зависят от частоты появления слова. Модуль голосовой обработки Text-to-Speech TTS (Text-to-Speech) – это система, которая может преобразовывать ввод из текста в речь.

Текст в речь в принципе состоит из двух подсистем, которые:

<Ол>

Конвертер текста в фонему

Преобразователь текста в фонему используется для преобразования ввода предложения на определенном языке в виде текста в серию кодов, которые обычно представлены звуком кодов фонемы, его продолжительностью и высотой тона. Этот раздел зависит от языка.

Конвертер фонемы в речь

Конвертер фонемы в речь будет принимать ввод в виде кодов, а также высоту и длительность фонем, созданных в предыдущем разделе. Проект системы На рис. 5 показана схема модуля обработки голоса.

Рис. 5. Уровень разработки 0 модуля обработки голоса. Учитывая использование платформы Linux, наличие индонезийского диалекта и результаты моделирования в TTS, выбраны eSpeak и Google TTS для программного обеспечения TTS. Спецификации общей функции системы должны быть следующими:

<Ол>

Выходной голос имеет индонезийский диалект с процентным показателем толерантности при чтении, равным 0,02%.

Есть дополнительные функции, такие как воспроизведение, остановка и приостановка звука. Реализация проекта Схема реализации модуля обработки голоса.

Импорт и инициализация

Стандартная библиотека Python охватывает широкий спектр модулей. Модуль голосовой обработки использует пакет ОС, который обеспечивает операции с файлами и процессами, пакет pygame, который предоставляет функции для воспроизведения звуков, пакет RPi.GPIO, который предоставляет класс для управления GPIO на Raspberry Pi, и пакет подпроцессов, который позволяет порождать новые процессы, подключитесь к их каналам ввода / вывода / ошибки и получите их коды возврата. IsPause и isStop – это переменные, которые будут использоваться для функций аудиоплеера. Эти переменные инициализируются значением False, что означает, что они не были активными.

Настройка

Настройка нумерации выводов GPIO в соответствии с раскладкой.

Основная программа

Основная программа предоставляет функции для извлечения и обработки входного изображения, преобразования его в звуковой сигнал и воспроизведения, остановки, приостановки или выхода из голосового вывода.

Startimport …

Зарегистрируйся, чтобы продолжить изучение работы

Поделиться сочинением

Ещё сочинения

Понимание мыльных опер: происхождение, уникальность, заблуждения и этические проблемы

30.10.2020 Комментариев нет

Анализ мыльных опер. Краткая история Жанр мыльной оперы появился на американском радио в 1930-х годах и получил свое название благодаря спонсорской поддержке программ крупными компаниями,

Читать полностью »

Пища негативного и позитивного влияния влияет на наше здоровье

30.10.2020 Комментариев нет

Ваше тело похоже на машину, в которой множество деталей работают вместе, чтобы машина работала плавно. Ваш мозг является центральной частью вашей машины. Это всего 2%

Читать полностью »

Установлена взаимосвязь закономерностей иммунофлюоресценции антиядерных антител со специфическими антителами

30.10.2020 Комментариев нет

Обнаружение антиядерного антитела (ANA) является первым шагом в диагностике аутоиммунного заболевания соединительной ткани (CTD). Золотым стандартом лабораторного анализа для обнаружения антиядерных антител (ANA) является непрямая

Читать полностью »