Анализ текста как поиск документов сочинение пример

ООО "Сочинения-Про"

Ежедневно 8:00–20:00

Санкт-Петербург

Ленинский проспект, 140Ж

magbo system

Сочинение на тему Анализ текста как поиск документов

При повседневной работе организации сталкиваются с текстовыми данными. Источником данных могут быть электронный текст, журналы колл-центра, социальные сети, корпоративные документы, исследовательские документы, бланки заявок, служебные заметки, электронные письма и т. Д. Эти данные могут быть доступны, но остаются неиспользованными из-за недостаточной осведомленности об информации богатство, которым обладает организация, или отсутствие методологии или технологии для анализа этих данных и получения полезной информации.

Цель Text Mining – обрабатывать неструктурированную (текстовую) информацию, извлекать значимые числовые индексы из текста и, таким образом, делать информацию, содержащуюся в тексте, доступной для различных алгоритмов интеллектуального анализа данных (статистического и машинного обучения). Информация может быть извлечена для получения резюме для слов, содержащихся в документах, или для вычисления резюме для документов на основе слов, содержащихся в них. Следовательно, вы можете анализировать слова, кластеры слов, используемые в документах и ​​т. Д., Или вы можете анализировать документы и определять сходства между ними или как они связаны с другими переменными, представляющими интерес для проекта интеллектуального анализа данных. В самых общих чертах интеллектуальный анализ текста «превратит текст в числа» (значимые индексы), которые затем могут быть включены в другие анализы, такие как проекты интеллектуального анализа данных, применение неконтролируемых методов обучения (кластеризация) и т. Д.

Как мы можем анализировать, интеллектуальный анализ текста – это открытие знаний из текстовых данных или исследование текстовых данных для выявления полезной, но скрытой информации. Однако многие люди определили интеллектуальный анализ текста немного по-другому. Ниже приведены несколько определений:

«Цель Text Mining – использовать информацию, содержащуюся в текстовых документах, различными способами, включая… обнаружение закономерностей и тенденций в данных, ассоциации между сущностями, правила прогнозирования и т. д.» (Гробельник и др., 2001).

«Другой способ просмотра интеллектуального анализа текстовых данных – это процесс исследовательского анализа данных, который приводит к получению ранее неизвестной информации или к ответам на вопросы, ответ на которые в настоящее время неизвестен». (Херст, 1999).

Интеллектуальный анализ текста, также известный как анализ текстовых данных или анализ текста, – это процесс обнаружения высококачественной информации из источников текстовых данных. Применение методов интеллектуального анализа текста для решения конкретных бизнес-задач называется бизнес-анализом текста или просто анализом текста. Методы добычи текста могут помочь организациям получить ценную бизнес-информацию из богатства текстовой информации, которой они обладают.

Анализ текста преобразует текстовые данные в структурированный формат с помощью нескольких методов. Он включает в себя идентификацию и сбор источников текстовых данных, методы НЛП, такие как тегирование речи и синтаксический анализ, извлечение сущности / концепции, которое идентифицирует именованные функции, такие как люди, места, организации и т. Д., Устранение неоднозначности, установление отношений между разными сущностями / концепциями методы анализа и визуализации моделей и тенденций.

интеллектуальный анализ текста аналогичен интеллектуальному анализу данных, за исключением того, что инструменты интеллектуального анализа данных предназначены для обработки структурированных данных из баз данных, но интеллектуальный анализ текста также может работать с неструктурированными или полуструктурированными наборами данных, такими как электронные письма, текстовые документы, файлы HTML и т. д. В результате, интеллектуальный анализ текста является гораздо лучшим решением.

Извлечение текста обычно представляет собой процесс структурирования входного текста (обычно синтаксический анализ, добавление некоторых производных лингвистических функций, удаление других и последующую вставку в базу данных), получение шаблонов в структурированных данных и окончательный оценка и интерпретация результатов.

Подходы к интеллектуальному анализу текста

Для повторения, анализ текста может быть обобщен как процесс «нумерации» текста. На самом простом уровне все слова, найденные во входных документах, будут проиндексированы и подсчитаны для вычисления таблицы документов и слов, то есть матрицы частот, которая перечисляет количество раз, которое каждое слово встречается в каждом документе. Этот базовый процесс может быть дополнительно усовершенствован для исключения некоторых общих слов, таких как «the» и «a» (списки стоп-слов), и для объединения различных грамматических форм одних и тех же слов, таких как «travel», «travel», «travel» и т. д. Однако, как только таблица (уникальных) слов (терминов) по документам была получена, все стандартные статистические методы и методы анализа данных могут применяться для получения измерений или кластеров слов или документов или для определения «важных» слов или терминов. это лучше всего предсказать другую переменную результата интереса.

Использование проверенных методов и понимание результатов анализа текста

После того как матрица данных была вычислена из входных документов и слов, найденных в этих документах, для дальнейшей обработки этих данных можно использовать различные хорошо известные аналитические методы, включая методы кластеризации, факторинга или прогнозного извлечения данных

Подход «черного ящика» к интеллектуальному анализу текста и извлечению концепций

Существуют приложения для анализа текста, которые предлагают методы «черного ящика» для извлечения «глубокого смысла» из документов с минимальными человеческими усилиями (для первого прочтения и понимания этих документов). Эти приложения для интеллектуального анализа текста опираются на собственные алгоритмы для предположительного извлечения «концепций» из текста и даже могут претендовать на возможность автоматического суммирования большого количества текстовых документов, сохраняя при этом основное и наиболее важное значение этих документов. Хотя существует множество алгоритмических подходов к извлечению «смысла из документов», этот тип технологии все еще находится в зачаточном состоянии, и стремление обеспечить значимые автоматические сводки большого количества документов может навсегда остаться неясным.

При использовании таких алгоритмов рекомендуется скептицизм, потому что

1) если пользователю не ясно, как работают эти алгоритмы, невозможно понять, как интерпретировать результаты этих алгоритмов, и

2) методы, используемые в этих программах, не подлежат проверке, например, со стороны академического сообщества и экспертной оценки, и, следовательно, мы просто не знаем, насколько хорошо они могут работать в разных областях.

В качестве заключительной мысли по этому вопросу вы можете рассмотреть этот конкретный пример: попробуйте различные услуги автоматического перевода, доступные через Интернет, которые могут переводить целые абзацы текста с одного языка на другой. Затем переведите некоторый текст, даже простой текст, с вашего родного языка на другой язык и обратно и просмотрите результаты. Практически каждый раз попытка перевести даже короткие предложения на другие языки и обратно при сохранении первоначального значения предложения дает скорее юмористические, чем точные результаты. Это иллюстрирует сложность автоматической интерпретации значения текста.

Существует другой тип приложений, который часто описывают и называют «интеллектуальным анализом текста» – автоматический поиск большого количества документов на основе ключевых слов или ключевых фраз.

Это область, например, популярных интернет-поисковых систем, которые были разработаны за последнее десятилетие для обеспечения эффективного доступа к веб-страницам с определенным контентом.

Зарегистрируйся, чтобы продолжить изучение работы

    Поделиться сочинением
    Ещё сочинения
    Нет времени делать работу? Закажите!

    Отправляя форму, вы соглашаетесь с политикой конфиденциальности и обработкой ваших персональных данных.