Сочинение на тему Прогнозная аналитика в интернет-технологиях

Опубликовано: 16.09.2020
Предмет: Информационная наука
Темы: Информационные технологии

Для достижения поставленных целей решение должно включать в себя. Прогнозная аналитика и использование существующих данных, доступных в рамках проекта, применение соответствующих статистических алгоритмов и методов машинного обучения для определения вероятности будущих результатов на основе исторических данных. Цель состоит в том, чтобы выйти за рамки знания того, что произошло, чтобы обеспечить наилучшую оценку того, что произойдет в будущем. Доступ к более крупным данным за определенный период времени позволит решению прогнозировать лучшие результаты на основе прошлых результатов. Технический подход. Решение Entity Extraction должно извлекать людей, места, даты, компании, продукты, задания и названия из источника, определять их настроения и делить Entity Extraction на два типа. i) Тип I извлечения сущности – текстовое извлечение: для реализации модели извлечения сущности решение должно использовать следующие методы машинного обучения. Максимальные энтропийные (ME) скрытые марковские модели (HMM) Условные случайные поля (CRF) Для извлечения информации Из любого текстового контента решение будет опираться на методы анализа, извлечения текста и обработки естественного языка (NLP).

Ниже приведены этапы машинного обучения, связанные с извлечением объектов. Corpora: Коллекция текстов, связанных с целевым доменом. Существует два типа аннотированных корпусов, в зависимости от источника аннотаций: Gold Standard Corpora (GSC): аннотации выполняются вручную экспертами-аннотаторами в соответствии с конкретными и подробными инструкциями. Silver Standard Corpora (SSC): аннотации автоматически генерируются компьютеризированными системами. Предварительная обработка. Обработайте входные данные, чтобы упростить процесс распознавания. Данные предварительной обработки содержат много подпроцессов. а) Разделение предложений. Разделение предложений – это процесс разбиения всего текстового документа на соответствующие предложения. Таким образом, каждое предложение должно обеспечивать определенный локальный, логический и значимый контекст для будущих задач. b) Токенизация: токенизация – это процесс разбиения конкретного предложения на составляющие значимые единицы, называемые n-граммами или токенами. Кодировка аннотации: для внутреннего представления имен аннотированных сущностей алгоритм должен использовать схему кодирования, чтобы присвоить тег каждому маркер текста.

Основой является кодировка IO, которая для каждого маркера помечается как находящаяся (тег «I») в определенной именованной сущности или как внешняя (тег «O»). Это кодирование имеет некоторые недостатки, поскольку не может представлять две сущности рядом друг с другом. Расширенное кодирование BIO является стандартом де-факто. В этом тег «B», представляющий первый токен или начало имени сущности. Следующий расширяется с помощью BIO и называется кодированием BMEWO. Различая конец токенов объекта (тег «E») от токенов среднего объекта (тег «M»), и добавляя новый тег («W») для объектов только с одним токеном. Обработка признаков: решающая задача, поскольку прогнозы будут выполняться на основе кодируемой ими информации, отражающей особые явления и лингвистические характеристики соглашений об именах. Таким образом, определение богатого и тщательно подобранного набора функций необходимо для правильного представления имен целевых объектов. Лингвистический: самая основная внутренняя особенность – сам маркер. Однако в большинстве случаев морфологические варианты слов имеют сходные семантические интерпретации и могут рассматриваться как эквивалентные. По этой причине можно использовать либо основание, либо лемматизацию, чтобы сгруппировать все перекошенные формы слова, чтобы их можно было проанализировать как один элемент.

Основная идея терминализации – найти префикс, который является общим для всех вариантов термина. С другой стороны, лемматизация является более надежным методом, поскольку она находит корневой термин вариантного слова (например, лемма «был» есть «быть»). Наряду с методами нормализации можно также ассоциировать каждый токен с определенной грамматической категорией на основе его контекста, процедуры, называемой тегом части речи (POS).

Кроме того, можно использовать разделение на части, разделяя текст на синтаксически коррелированные части слов (например, фразы существительные или глаголы). Эти лингвистические особенности обеспечивают только локальный анализ токена в предложении. Чтобы дополнить это, функции могут быть получены из инструментов анализа зависимостей для сбора отношений между различными токенами в предложении.

Орфография: Цель функций орфографии – собрать знания о словообразовании. Например, слово, которое начинается с заглавной буквы, может указывать на наличие имени объекта (например, в названии белка «MyoD»). Можно использовать различные функции, отражающие наличие символов верхнего или нижнего регистра, наличие символов или подсчет количества цифр и символов верхнего регистра в токене.

Морфологический. Морфологические признаки, с другой стороны, отражают общие структуры и / или подпоследовательности символов среди нескольких имен объектов, таким образом выявляя сходства между различными токенами. Лексиконы: добавление биомедицинских знаний в набор функций может дополнительно оптимизировать NER системы. Чтобы обеспечить это знание, словари определенных терминов домена и имен сущностей сопоставляются в тексте, а полученные теги используются как функции. Обычно используются два разных типа словарей: имена целевых объектов (сопоставляют токены со словарями с полным набором имен имен целевых объектов) и имена триггеров (сопоставляют имена, которые могут указывать на наличие биомедицинских имен в окружающих токенах).

Обработка элементов: извлечение, выбор и / или создание элементов из предварительно обработанных входных данных. Модель XML. Используйте сгенерированные элементы для автоматического определения набора правил, которые описывают и различают имена характеристик и шаблонов. Уточнение сгенерированных аннотаций, решение проблем процессора распознавания, расширяющего распознанные имена. Выход: входные данные с автоматически сгенерированными аннотациями или извлеченный структурированный формат информации. ii) Entity Extraction Type II – извлечение на основе изображения: модель классификации изображений принимает изображение в качестве входного и возвращает то, что изображение содержит. Решение обучит алгоритм, чтобы узнать различия между различными классами. Например.

Если вы хотите найти людей на изображениях, вам нужно обучить алгоритм распознавания изображений с тысячами изображений людей и тысячами изображений фонов, которые не содержат людей. Подход: шаг 1: предварительная обработка На этом шаге изображение нормализуется с помощью эффектов контрастности и яркости, обрезается и изменяется. Шаг 2: Извлечение объектов Используя гистограмму ориентированных градиентов (HOG), этот шаг преобразует изображение фиксированного размера в вектор объектов фиксированного размера. Работа HOG основана на идее, что любой внешний вид локального объекта может быть эффективно описан распределением краевых направлений или градиентов.

Следующие шаги описывают вычисление дескриптора HOG для изображения 64 × 128. Расчет градиента: Рассчитайте x и их градиенты, а также из исходного изображения. Это можно сделать, отфильтровав изображение по ядрам. Используя изображения градиента и, решение вычисляет величину и ориентацию градиента, используя следующие 2 уравнения: Рассчитанные градиенты являются «без знака» и, следовательно, находятся в диапазоне от 0 до 180 градусов. Изображение далее делится на 8 × 8 ячеек. Расчет гистограммы градиентов. Решение должно знать градиент каждого пикселя в ячейке 8 × 8 и указывать 64 величины и 64 направления, равные 128 записям.

Решение преобразует эти 128 записей в гистограмму 9 бинов. Контейнеры гистограммы соответствуют градиентам в направлениях 0, 20, 40,60,…, 160 градусов. Каждый пиксель голосует за 1 или 2 ячейки в гистограмме. Если направление градиента в пикселе точно совпадает с градусами, пиксель голосует за ячейку. Если совпадения нет, пиксель разделяет голосование между двумя ближайшими ячейками на основе расстояния от ячейки. Нормализация блока: нормализация гистограммы заключается в делении вектора некоторых элементов на величину вектора. Элементы векторного размера не являются фиксированными для каждого случая. Вектор элемента. На этом этапе конечный вектор элемента создается путем вычисления конкатенации блоков (8 пикселей) вектора изображения и вектора гистограммы.

Например: предположим, у нас есть 36 векторов гистограммы, и входное изображение имеет размер 64 × 128 пикселей, и мы перемещаем блок размером 8 пикселей. Таким образом, мы можем сделать 7 шагов в горизонтальном направлении и 15 шагов в вертикальном направлении, что создает 7 х 15 = 105 шагов. Длина конечного вектора характеристик равна 105 x 36 = 3780. Шаг 3. Алгоритм обучения Решение обучается путем ввода тысяч образцов человеческих и фоновых изображений.

Различные алгоритмы обучения учатся в разных стилях, и здесь алгоритмы обучения будут обрабатывать векторы объектов как входные точки в пространстве более высокого измерения, чтобы гарантировать, что все выборки, принадлежащие к одному и тому же классу, находятся на одной стороне плоскости. Фактический вектор имеет 3780-мерное пространство, но для упрощения представьте, что вектор признаков представляет собой двухмерное пространство. В опорном изображении H1, H2 и H3 три прямые линии в 2D пространстве. H1 не разделяет два класса, и поэтому он не является хорошим классификатором. H2 и H3 оба успешно разделяют два класса, но интуитивно H3 является лучшим классификатором, чем H2, потому что H3 различает данные более четко.

Приложения. При использовании распознавания именованных объектов в медицинском приложении могут потребоваться названия лекарств и симптомы заболевания. Подход машинного обучения к учебному корпусу с соответствующими обозначениями. Используя систему распознавания изображений, решение может обнаружить человеческое лицо, пользовательские объекты, границы / края и т. Д. Решение может быть реализовано в дронах, где дроны могут находить человеческие объекты, обнаруживать идентичность объекта и рекомендовать соответствующие действия. ).

Машинное обучение способно извлекать и обнаруживать объекты из разных источников данных. Использование подходов, применяемых в систематических обзорах сложных областей исследований, таких как классификация, прогнозирование, извлечение, распознавание изображений и речи, медицинская диагностика, учебная ассоциация и т. Д. Построение решения с использованием возможностей машинного обучения и искусственного интеллекта, которые могут решать сложные задачи. с качественными результатами.

Зарегистрируйся, чтобы продолжить изучение работы

Поделиться сочинением

Ещё сочинения

Краткая история кибербезопасности

30.10.2020 Комментариев нет

Кибербезопасность или защита информационных технологий – это методы защиты компьютеров, сетей, программ и данных от несанкционированного доступа или атак, направленных на эксплуатацию. Существует четыре типа

Читать полностью »

Геоинформационная система (ГИС)

30.10.2020 Комментариев нет

Ахмад Альдхафири CEGR 4802/1/2018 ГИС Геоинформационная система (ГИС) – это система, предназначенная для сбора, хранения, обработки, анализа, управления и представления всех типов географических данных. Ключевым

Читать полностью »

Какова основная идея виртуальной машины?

28.10.2020 Комментариев нет

Основная идея виртуальной машины состоит в том, чтобы удалить оборудование одного компьютера и сделать его автономной операционной средой, которая ведет себя как отдельный компьютер. По

Читать полностью »