Методы крупномасштабной классификации текста в обработке естественного языка сочинение пример

ООО "Сочинения-Про"

Ежедневно 8:00–20:00

Санкт-Петербург

Ленинский проспект, 140Ж

magbo system

Сочинение на тему Методы крупномасштабной классификации текста в обработке естественного языка

Текстовая классификация – это задача классификации немаркированных документов на естественном языке в предопределенный набор категорий. Задача классификации может зависеть от различных факторов, таких как структура данных, размер обрабатываемых данных и т. Д. Однако многие проблемы реального мира требуют учета огромного количества данных, которые необходимо классифицировать из многих источников. Масштабная классификация текста классифицирует текст на тысячи классов, и в некоторых случаях каждый документ может принадлежать только одному классу, в то время как другой относится к более чем одному классу. Иерархические отношения могут передавать информацию в систему классификации, что может улучшить ее точность и точность. Работа направлена ​​на изучение различных методов, используемых для классификации текстов в НЛП, которые включают в себя как обучение в технике, так и методы глубокого обучения. в нем также описываются меры оценки, обычно используемые для системы классификации.

Ключевые слова – обработка естественного языка, крупномасштабная текстовая классификация, модель векторного пространства, сверточная нейронная сеть, рекуррентная нейронная сеть.

Введение

Текстовая классификация решает проблему присвоения документов заранее определенному набору классов. Рассмотрим случай двоичной классификации, когда существует только один класс, и каждый документ либо принадлежит ему, либо нет. Фильтрация спама приводит пример, когда электронные письма не классифицируются как мошенники. Классификатор можно обучить, используя положительные и отрицательные значения, чтобы автоматически выполнять классификацию в машинном обучении, но в простейшем случае было обнаружено, что в 100% случаев он корректируется на 100%. В крупномасштабной текстовой классификации объем обрабатываемых документов также очень велик (сотни тысяч или даже миллионов), что приводит к высокой лексике (уникальные слова в документах, также известные как типы). Одним из аспектов классификации мульти-меток является то, что классы связаны друг с другом. Таким образом, это может быть родительское дочернее отношение, составляющее иерархию. Таксономия класса предлагает дополнительную информацию для системы классификации, которую можно использовать либо для улучшения масштабируемости, либо для повышения точности системы классификации.

ПРОЦЕСС КЛАССИФИКАЦИИ ТЕКСТА

Цель классификации текста – автоматически классифицировать текстовые документы в одну или несколько определенных категорий. Классы выбираются из ранее установленной таксономии (иерархия категорий или классов). Задача представления данного документа в форме, которая подходит для системы интеллектуального анализа данных, называется представлением документа. Поскольку данные могут быть структурированы или неструктурированы, форма представления очень важна для процесса классификации, т.е. е. в форме экземпляров с фиксированным числом атрибутов. Документы из простого текста преобразуются в фиксированное количество атрибутов в обучающем наборе. Этот процесс может быть выполнен несколькими способами.

Представление на основе слов:

Процесс установки одной из частей речи для данного слова в документе называется тегированием частей речи. Это обычно упоминается как маркировка POS. Части речи могут быть существительными, глаголами, наречиями, прилагательными, местоимениями, соединением и их подкатегориями.

Tagger частей или речи POS Tagger автоматически помечает слова. В процессе тегирования слов тегеры используют несколько видов информации, таких как словари, лексиконы, правила и т. Д. Словари содержат категории или категории определенного слова. Это слово может принадлежать более чем одной категории. Например, run – это существительное и глагол. Тэггеры используют вероятностную информацию для решения этой двусмысленности.

Представление на основе графика:

Мешок слов – это типичный и стандартный способ работы с записями содержимого модели, который подходит для определения частоты слов. Но BOW перекрывает вспомогательные и семантические данные. В представлении Graph математические конструкции используются для отображения взаимосвязи и основных данных. Здесь контент может быть соответственно представлен в виде графика, в котором термин функции представлен инвертно, а граничное соединение может быть соединением между терминами функции. Расчеты, идентифицированные с различными активностями, такими как вес термина, ранжирование, которое полезно во многих приложениях в восстановлении данных, даны этой моделью. Основанное на графике изображение является подходящим методом для представления записей о содержании и улучшает последствие чрезмерно привычной модели исследования для различных приложений контента. Документ смоделирован как Граф, где термин представлен вершинами, а отношение между терминами представлено ребрами: G = {Vertex, EdgeRelation} В представлении Graph обычно есть пять различных типов вершин: Vertex = {F, S, P, D, C}, где F-Featureterm, S-Sentence, P-Paragraph, D-Document, C-Concept. EdgeRelation = {Синтаксис, Статистический, Семантический} Граничные отношения между двумя характеристическими терминами могут различаться в контексте Graph.

     

  1. Слово встречается вместе в предложении, абзаце, разделе или документе.
  2.  

  3. Общие слова в предложении, абзаце или документе или разделе.

Совместное вхождение в фиксированное окно из n слов.

Семантические отношения

Слова имеют одинаковое значение, слова пишутся одинаково, но имеют различное значение, противоположные слова. Термин «значимость» не учитывается подходом «мешок слов». Взаимосвязь между записями можно поддерживать, поддерживая вспомогательное представление данных, которое будет вызывать выполнение кадра высшего порядка.

<Р> В. Построение модели векторного пространства Модель векторного пространства или VSM представляет собой представление набора документов в виде векторов в общем векторном пространстве и является фундаментом для множества IR-операций, начиная от подсчета запросов Docson, классификации документов и кластеризации документов. VSM – алгебраическая модель для представления текстовых документов в виде векторов идентификаторов, таких как термины индекса. Поднабор элементов для задачи классификации текстовых документов использует функцию оценки, которая применяется к одному слову. Оценка отдельных слов может быть выполнена с использованием некоторых мер, таких как частота документа (DF), частота термина (TF) и т. Д. Подход извлечения характеристики не взвешивает термины для того, чтобы отбросить более низко взвешенный, как выбор функции, но сокращает словарный запас на основе совпадений признаков. / р>

TF-IDF: термин «документ, инвертированный по частоте». Частотно использует все токены в наборе данных в качестве словаря. TF – это частота токена в каждом документе. IDF – это количество документов, в которых встречается токен. Интуиция для этой меры: Важное слово в документе будет встречаться часто, и ему следует дать высокую оценку. Но если слово встречается слишком высоко, оно, вероятно, не уникально и, следовательно, имеет более низкий балл. Математическая формула для этой меры:. tfidf (t, d, D) = tf (t, d) * tf (t, D), где t обозначает термин, d обозначает каждый документ, а D обозначает коллекцию документов. Преимущества

     

  • Легкость в вычислениях
  •  

  • Иметь базовую метрику для извлечения большинства описательных терминов в документе
  •  

  • Можно легко вычислить сходство между двумя документами, используя itDisadvantages
  •  

  • TF-IDF основан на модели «мешок слов» (BoW). Поскольку он использует пакет слов, он не фиксирует расположение слов в тексте, семантику, совместные вхождения безразличных документов и т. Д.

 

  • TF-IDF полезен только как функция лексического уровня
  •  

  • Он не может фиксировать семантику (например, по сравнению с моделями тем, встраиванием слов)
  • Принципиальный компонентный анализ: PCA – это классический многовариантный инструмент анализа данных, очень хорошая технология обработки уменьшения размера данных. Предположим, что имеется N образцов данных, каждый образец выражается через n наблюдаемых переменных x1, x2 ,. , , xn мы можем получить образец матрицы данных. PCA использует вариации каждой функции, чтобы максимизировать ее разделимость. Это необслуживаемый алгоритм. Шаги PCA являются

       

    • Стандартизировать данные
    •  

    • Получите собственные векторы и собственные значения из ковариационной матрицы или матрицы взаимосвязи.
    •  

    • отсортируйте собственные значения в порядке убывания и выберите k собственных векторов, которые соответствуют k наибольшим собственным значениям, где kis число измерений подпространства новых признаков ≤ d
    •  

    • Построить проекционную матрицу W из выбранных k собственных векторов.
    •  

    • Преобразуйте исходный набор данных X через W, чтобы получить k-мерное подпространство пространственных объектов Y.

    ПРИМЕНЕНИЕ АЛГОРИТМА КЛАССИФИКАЦИИ ТЕКСТА

    Алгоритмы интеллектуального анализа данных в процессе обработки естественного языка используются для получения большого объема текстовых данных. Это набор эвристик и вычислений, который создает модель из данных. Алгоритм сначала анализирует предоставленные данные, затем определяются конкретные типы моделей или тенденций. Затем алгоритм использует результаты этого анализа в течение многих итераций, и были найдены оптимальные параметры для создания модели майнинга. Затем эти параметры применяются ко всему набору данных для извлечения действующих шаблонов и подробной статистики. Машинное обучение (или ML) – это область искусственного интеллекта (AI), которая представляет собой набор статистических методов для решения проблем. Чтобы применить методы ML к проблемам NLP, неструктурированный текст преобразуется в структурированный формат. Глубокое обучение (которое включает в себя Recurrent NeuralNetworks, Convolution Neural Networks и другие) является типом подхода машинного обучения. Это расширение NeuralNetworks. Глубокое обучение может быть использовано и для задач НЛП. Рис. 2. Отношения между ML, Deep Learning и NLPA. Методы машинного обучения для классификации текстаMachine Learning – это набор алгоритмов, которые анализируют данные, учатся на них, а затем применяют то, что они узнали, для принятия разумных решений. Моделирование двух методов кратко обсуждается ниже:

    Классификация Нейва Байеса: Наивный байесовский классификатор – это классификатор с неконтролируемым контролем, который дает подход к выражению позитивных, негативных и нейтральных настроений в контенте. Классификатор NaiveBayes классифицирует слова на их соответствующие метки, используя идею условной вероятности. Преимущество использования Нейва Байеса в классификации контента заключается в том, что для его подготовки требуется небольшой информационный индекс. Необработанная информация из Интернета подвергается предварительной подготовке, эвакуации числовых, внешних слов, HTML-меток и необычных изображений, приводящих к расположению слов. Слова с отметками положительных, отрицательных и непредвзятых слов помечены и физически выполнены специалистами-людьми. Эта предварительная обработка производит наборы классификации слов для подготовки набора. Рассмотрим слово из набора тестов (набор слов без меток) и окно из n-слов (x1, x2, …, …, xn) из документа. Условная вероятность того, что данная точка данных y будет в категории n-слов из обучающего набора, определяется следующим образом: 2) Алгоритм J48, используемый для прогнозирования настроений: J48 – это классификатор на основе дерева решений, используемый для выработки правил для идентификации целевых терминов.

    Пространство признаков выделено в уникальные области, в соответствии с классификацией теста по классификационным отметкам в прогрессивном механизме. Благодаря этой стратегии большие коллекции обучающих наборов обрабатываются с большей производительностью, чем различные классификаторы. , В наборе тестов уровень узла неизбежно повышается, когда закрывающий элемент определяет состояние имени внутреннего компонента в аналогичной части дерева. Различные две ветви дерева решений шаг за шагом создаются задачей назначения меток слов. , Расчет J48 использует энтропийную работу для проверки порядка сроков из набора тестов. Дополнительные основные моменты J48 представляют недостающие качества, обрезку деревьев выбора, диапазоны значений постоянных признаков, вывод принципов и т. Д., Где (Термин) может быть униформой, биграммом и триграммом. B. Методы глубокого обучения для классификации текста. Глубинное обучение – это техника в машинном обучении, которая обеспечивает большую мощность и гибкость, обучаясь представлять мир как вложенную иерархию понятий, причем каждое понятие определяется в отношении более простых понятий, а более абстрактные представления вычисляются в терминах менее абстрактных. , Два из методов глубокого обучения обсуждаются ниже:

    Свернутая нейронная сеть: CNN широко использовались в обработке изображений, которые продемонстрировали относительно точные результаты в ней. Однако в НЛП, где источниками данных являются текст или предложения, относящиеся к матрице, когда CNN обрабатывает его, каждый столбец решетки сравнивается с одним токеном, который является словом, но это может быть символ. То есть каждая строка – это вектор, который говорит со словом. Обычно эти векторы представляют собой вложения слов (низкоразмерные изображения), но они также могут быть горячими векторами, которые вводят слово в словарь. Для предложения из 10 слов, использующего 100-мерное вложение, в качестве входного значения мы будем использовать сетку 10100. Например, рассмотрим классификацию предложений с использованием метода CNN, изображенного на рисунке 2. 3, Здесь определены три размера канала: 2, 3 и 4, каждый из которых имеет 2 фильтра. карты характеристик переменной длины создаются путем выполнения свертки каналов в сетке предложений. В этот момент пул 1-макс выполняется для каждого гида, т.е. е. наибольшее число от каждого компонента delineaterecorded. Следовательно, для шести карт создается одномерный вектор выделения, и эти 6 выделений связаны для формирования вектора компонента для предпоследнего слоя. Последний слой softmax в этот момент получает этот компонентный вектор и использует его для категоризации предложения; здесь предполагается двоичная характеристика и, следовательно, два возможных состояния вывода.

    Рекуррентная нейронная сеть. Концепция сетей RNN заключается в использовании последовательных данных. В обычной нейронной системе мы ожидаем, что все источники ввода (и вывода) не зависят друг от друга. Тем не менее, обременительные задания – бесполезная мысль. В случае, если вам необходимо предвидеть следующее слово, вы лучше знаете, какие слова предшествовали ему. RNNs называются повторяющимися на том основании, что они воспроизводят аналогичные обозначения для каждого компонента группировки, а доходность основывается на прошлых расчетах. Другой подход к рассмотрению сетей RNN заключается в том, что у них есть «память», которая перехватывает данные о том, что было выяснено до сих пор.

    Словом, RNN могут использовать данные в субъективно длинных последовательностях, однако постепенно они ограничиваются мысленным повторением всего лишь нескольких шагов. Модели систем RNN используются в двух вариантах: во-первых, это дает нам возможность оценивать самоутверждающие предложения с учетом того факта, что они так вероятны в реальности. Это дает нам пропорцию синтаксической и семантической корректности. Во-вторых, модель языка позволяет нам создавать новый контент. На рисунке внизу показан RNN …

    Зарегистрируйся, чтобы продолжить изучение работы

      Поделиться сочинением
      Ещё сочинения
      Нет времени делать работу? Закажите!

      Отправляя форму, вы соглашаетесь с политикой конфиденциальности и обработкой ваших персональных данных.