Сочинение на тему Применение интеллектуального анализа текста для преобразования текстовых данных в структурированный формат

Опубликовано: 27.08.2020
Предмет: Информационная наука, Наука, социология
Темы: Мобильный телефон, связь, Технологии

Аннотация:

Во многих совместных сетях, таких как портал для электронной коммерции, социальные сети или система обратной связи, данные записываются в текстовых форматах. Если проникновение средств массовой информации доступно для крупных заинтересованных сторон, то данные становятся большими за определенный период. Эти данные хранятся в механизме распределенного хранения, но экосистема для хранения неструктурированных данных, таких как текст, недоступна в большинстве существующих баз данных для обработки больших неструктурированных данных, что затрудняет анализ прогнозов. В этом предлагаемом исследовании целью является разработка основанного на грамматике алгоритма, чтобы отфильтровать избыточные термины из текстовых предложений и построить табличное назначение данных из текстового набора данных. Анализ производительности алгоритма будет сделан для проверки согласованности метода, наблюдая скорость преобразования данных значения. Принятая методология – математическое моделирование и моделирование вычислительной платформы. Результаты исследования полезны для разработки эффективных прогностических моделей для текстовых данных.

Введение:

Достижения в мобильных вычислительных системах и системах связи наряду с парадигмами облачных вычислений, которые обеспечивают платформу истинного смысла для вездесущих вычислений в сценарии в реальном времени. Эта эко-система позволяет создавать и получать доступ к данным распределенного приложения в любое время и в любом месте с любым размером данных. Эксплуатационные расходы наряду с капитальными вложениями резко сокращаются, если организации используют облачные сервисы. Данные, сгенерированные пользователями с помощью множества интеллектуальных устройств, данные с порталов различных приложений, данные из систем наблюдения, данные, сгенерированные социальными сетями и микроблоггерами, если они хранятся, обрабатываются и используются в облачной инфраструктуре, которая обеспечивает основу для новое измерение, позволяющее получать информацию из данных и создавать множество приложений, а также помогает принимать решения.

Пример использования больницы демонстрирует различные формы данных, которые включают форматы текста или pdf для счетов, формат расширенного текста для записи о поступлении, изображения из радиологии и многие другие журналы, а также рекомендации в виде форматов XML вместе со многими датчиками. данные, которые используются для измерения важной информации о теле пациента. Непрерывность хранения этих разнообразных данных обеспечивает объем данных с течением времени с истинным характером неструктурированных и полуструктурированных. Экосистема для непосредственного хранения этих данных неэффективна и надежна для обработки их в структуре данных без схемы, что делает задачу аналитики более неточной. Существует много таких примеров, когда организация очень сильно генерирует такие типы данных, которые называются большими или большими данными, размеры которых воспринимаются как петабайты / зетабайты. Огромный объем больших данных является основной проблемой, которая порождает другие связанные проблемы. Самое большое влияние таких проблем – это их анализ, поскольку он включает в себя различные этапы реализации, например, i) сбор, запись, ii) извлечение, очистка, аннотация, iii) интеграция, агрегация, представление, iv) анализ, моделирование и v) интерпретация.

До сегодняшнего дня проводились различные исследования больших данных в облаке, но внимание большинства исследователей сосредоточено на аналитической или модельной фазе. Хотя это важный этап анализа больших данных, другие этапы остаются без внимания, что вызывает эволюцию различных исследовательских задач. Более тщательное изучение существующих аналитических подходов к проблеме больших данных показывает, что сложности не отображаются с полной ясностью в связи с кластерами с несколькими арендаторами. Следует знать, что широко применяется практика многопользовательской кластеризации, поскольку она обеспечивает экономию затрат для клиентов.

Хотя мы уже вступили в эру больших данных, подходы к анализу и преодолению пробелов в исследованиях по-прежнему расплывчаты. Мы считаем, что только эффективная форма анализа, которая в некоторой степени решает все проблемы больших данных, будет действительно полезной. Тем не менее, в настоящих исследованиях решается несколько проблем, связанных с анализом больших данных. Поэтому мы обсуждаем основную информацию о больших данных, а также исследуем существующую исследовательскую работу, чтобы понять эффективность существующих методов оптимизации в больших данных.

Обзор литературы

Термин «большие данные» постоянно создает проблемы для существующей организации не только с точки зрения хранения, но и с точки зрения применения аналитических операций (Trovati et al. (2016) и Mazumder et al. (2017). Хотя хранение не очень сложно достичь с помощью облачной среды, но выполнение аналитической операции над большими данными – все еще нерешенная проблема (Marjani et al. (2017) и Lv et al. (2017). Это потому, что данные можно назвать только большими данные, когда он характеризуется 5 В, т. е. объемом, разнообразием, правдивостью, скоростью и значением, Марр и др. (2015 г.) и Ли и др. (2017 г.). Существуют также различные отчеты, например, Путаль и др. (2018 г.) и Прасад и др. (2017), где утверждается, что различные сенсорные приложения Интернета вещей генерируют огромный объем больших данных. Организация, например, IBM недавно внесла значительный вклад, представив проект IBM Watson для исследования анализа больших данных. через IoT (включи AI, (получено 17 августа 201 г. 8). Такие инициативы по анализу больших данных часто способствуют снижению затрат, улучшают формулировку решений и новые возможности услуг и продуктов. Тем не менее, есть некоторые открытые проблемы, которые необходимо решить, например, i) механизм хранения неструктурированных данных и сохранения максимального качества данных, ii) конфиденциальность данных, iii) создание разнородных данных из различных источников, iv) процесс эффективной сегментации неструктурированных данных и эффективной фильтрации полезных данных, v) точный анализ vi) структурированные и неструктурированные данные, vi) большие данные – это новая концепция в науке о данных, и организации не хватает квалифицированных специалистов для анализа больших данных (Han et al. (2018). Следовательно, существует необходимость в специальной исследовательской работе, которая фокусируется на решении проблем, связанных с анализом больших данных.

Кроме того, Apache предлагает различные формы программного обеспечения и инструментов для обработки больших данных, которые в настоящее время находятся на стадии изучения. Некоторые из них уже используются промышленностью, а некоторые все еще находятся на стадии расследования. Принятие Hadoop и MapReduce широко используется исследователем, за которым следуют Hbase и Neo4J. По сообщениям, другие типы инструментов не были реализованы в последнее время. Следовательно, в двух словах, основанный на NoSQL инструмент делает постепенный переход к управлению большими данными. Система управления базами данных NoSQL в основном используется для хранения и извлечения информации. Механизм структуры данных, развернутый в этой системе, сильно отличается от обычной системы на основе SQL, чтобы обеспечить более быстрое время отклика. В настоящее время существуют различные формы системы управления базами данных NoSQL, как показано на рисунке 1. Помимо вышеупомянутых методов управления базами данных больших данных, также существуют различные другие решения, например, Sybase, Teradata, Essbase и т. Д. В настоящее время многие предпочтения предлагаются для системы обработки параллельных хранилищ, которая включает в себя массовую параллельную обработку. Другое название организации, которая владеет параллельной системой хранения, показано в таблице.

В настоящее время проводятся различные исследования в области подходов, основанных на больших данных, для сенсорного приложения. Проблема, связанная с правдивостью, объемом и скоростью, решается путем разработки системы рекомендаций в качестве уникального аналитического подхода, как видно из работы (Habibzadeh et al. 2018). Доказано, что использование интеллектуального анализа тумана обеспечивает лучшую аналитическую производительность для больших данных на основе датчиков. Исследования в этом направлении были проведены Raafat et al. (2017), где статистический подход использовался для извлечения сенсорных данных. Существуют отчеты об использовании аналитики больших данных для приложений IoT для разработки модели управления интеллектуальными бытовыми приборами. Ali et al. (2017), где используется бизнес-аналитика. Рехман и соавт. (2018) и Yang et al. (2017) также обсудили важность аналитики больших данных с использованием концентрической системы вычислений. Чжан и соавт. (2017) представили подход с использованием больших данных для анализа мобильных сенсорных данных с четким акцентом на эффективное управление данными. Сообщается, что производительность аналитической операции повышается за счет применения кластерного подхода для объединения данных, как видно из работы Din et al. (2017). Работа, выполненная Cheng et al. (2017) обсудили сложность получения набора данных для решения проблем с энергией и точностью. Существуют также определенные виды литературы, в которых, как говорят, эффективно анализируются большие данные путем принятия гибридного механизма различных существующих моделей распределенного хранения. Ebner et al. (2014). Hu et al. (2017) обсудили процесс планирования, используемый для анализа больших данных. Исследование с использованием подхода планирования также было выполнено Ren et al. (2017) для решения проблемы задержки и энергии во время анализа сенсорных данных. Энергетические проблемы при агрегировании данных с использованием подхода больших данных представлены Takaishi et al. (2014). Примерно аналогичная форма исследования в отношении агрегирования данных обсуждалась Каримом и Аль-Кахтани (2016) с учетом приоритета данных. Работа, выполненная Jeong et al. (2015) использовал метод больших данных для анализа радиационных сигналов. Сообщается о работе по усилению системы безопасности при анализе больших данных Kandah et al. (2017), Zhu et al. (2017), кластеризация с использованием анализа главных компонентов Li et al. (2016), принятие решения с учетом тематического исследования по авионике Miao et al. (2017), анализ информации о погоде Onal et al. (2017 г.), экологический мониторинг Виска и др. (2016 г.) и т. Д. Поэтому проводятся различные исследовательские работы, направленные на использование аналитики больших данных.

Описание проблемы

Существующие основанные на исследованиях подходы к анализу больших данных стали свидетелями следующих подходов реализации, например, i) гипотетическое моделирование для решения конкретной проблемы, связанной с приложением, ii) уделение большего внимания повышению производительности без учета многих ограничений в реальном времени сенсорной сети или даже IoT, ii) принятие инструментов, о которых уже сообщалось, что они имеют проблемы. Обнаружено, что такие подходы не учитывают значительный объем сложности данных экономически эффективным образом. Это приводит к сомнительным фактам о применимости существующих исследований по практической реализации сценария. Более того, нет совместной реализации существенной проблемы 5V. Все эти проблемы приводят к генерации крайне неструктурированных данных, которые довольно сложно анализировать.

Эволюция Больших Данных и связанных с ними технологий насчитывает даже полвека. Следовательно, совершенно необходимо, чтобы управление большими данными находилось на начальной стадии исследований и разработок. После серии исследовательских работ мы выясняем, что все эти исследования дают очень конструктивное руководство по решению проблем в больших данных. Тем не менее, есть некоторые открытые проблемы исследования, которые необходимо выявить, чтобы решить их в предстоящей исследовательской работе. Ниже кратко изложены основные вопросы открытых исследований:

Меньшее внимание к сложности алгоритмов. Широко известно, что маломощные коммуникационные устройства отвечают за генерацию огромного количества данных. Таким образом, различные исследовательские работы, обсуждаемые до настоящего времени, должны найти свое применение, которое может быть сетевым протоколом или системным протоколом. Сетевые подходы не имеют никаких зависимостей от устройств, но системные подходы к управлению большими данными имеют существенные зависимости. Работы сложных алгоритмов майнинга обычно считаются находящимися на устройстве, и в таком состоянии есть вероятность того, что устройство перегружено алгоритмической операцией. Это может быть обеспечено, если алгоритмы обладают очень низкой временной и пространственной сложностью. К сожалению, во всех существующих подходах к исследованию было обнаружено отсутствие комплексного тестирования сложности алгоритма, что не дает подсказки об адаптивности алгоритма на маломощных устройствах.

Необходимость более эффективной техники оптимизации. Мы обнаруживаем, что большинство существующих методов оптимизации использует выпуклую оптимизацию для решения проблемы, связанной с производительностью больших данных. Хотя многие исследователи использовали распределенное программное обеспечение с открытым исходным кодом вместе с этим, было обнаружено, что оно не решает проблему конфигурации планирования, относящуюся к большим данным в облаке. Другая большая проблема – оптимизация техники кластеризации во время оптимизации производительности. Нет сомнений в том, что различные потенциальные методы кластеризации были в значительной степени исследованы в процессе внедрения эффективной добычи полезных ископаемых. Тем не менее, эффективность таких подходов кластеризации никогда не бывает четко определена, чтобы установить конкретные проблемы исследования в облачных вычислениях. С точки зрения разработки программного обеспечения, принятие традиционной архитектуры программного обеспечения используется для удовлетворения определенных сложных требований обработки данных. К сожалению, до настоящего времени не обсуждались такие методы, которые бы решали такую проблему. Для решения проблемы конфигурации планирования требуется, чтобы точка схождения алгоритма была включена с определенным уровнем интеллекта, а не с использованием жестко закодированных значений. Для изучения алгоритма, который строит целевую функцию и управляет целевой функцией на основе динамической среды потока данных, требуется тщательное исследование. Таким образом, проблемы неоднородности и достоверности больших данных могут быть …

Зарегистрируйся, чтобы продолжить изучение работы

Поделиться сочинением

Ещё сочинения

Как сделать и использовать журнал пули

30.10.2020 Комментариев нет

Из всех методов ведения журнала журнал пули является самым простым, но с наибольшей путаницей. Возможно, вы видели журнал пули раньше и думали, что вы можете

Читать полностью »

Лаборатория Виртуального Приборостроения Инструментальные средства

30.10.2020 Комментариев нет

Цель этого эксперимента – получить представление о полностью настраиваемой программе LabVIEW и понять, как инженеры используют программу в своих интересах, чтобы создать собственную лабораторию, которая

Читать полностью »

Наблюдение за клиентами, страдающими от общих психических расстройств и правовых последствий обмена информацией о пациентах

30.10.2020 Комментариев нет

На прошлой неделе я наблюдал двух клиентов, которые страдали от общих психических расстройств, хотя развитие состояния было очень различным, особенно из-за существующих различий в социальной

Читать полностью »