Анализ настроений с использованием Twitter Data Amity сочинение пример

ООО "Сочинения-Про"

Ежедневно 8:00–20:00

Санкт-Петербург

Ленинский проспект, 140Ж

magbo system

Сочинение на тему Анализ настроений с использованием Twitter Data Amity

Аннотация

Благодаря последним разработкам в области технологий Интернет стал легко доступным для миллионов пользователей по всему миру. Это не только помогло людям поделиться своим мнением за один раз, но и помогло компаниям принимать более правильные решения путем анализа этих данных. Анализ настроений – это использование методов обработки естественного языка для анализа этих данных. В этом отчете мы говорим о различных методах анализа настроений и обсуждаем проблемы, которые он должен преодолеть. Кроме того, в этом отчете выполняется анализ настроения темы путем анализа твитов, извлеченных из Twitter с использованием Python.

Введение

Известно, что каждый день миллионы данных передаются онлайн в виде текстов. Мы делимся своими мнениями, мыслями и опытом на различных сайтах. Просмотр продуктов и фильмов, короткие комментарии, сообщения о состоянии и т. Д. На сайтах социальных сетей – это различные способы, которыми мы разделяем наше мнение. Этот обмен мнениями привел к увеличению пользовательского контента и данных. Эти данные очень полезны для роста многих компаний и организаций.

Правительства также могут извлечь выгоду из этих широко доступных данных. Например, они могут знать чувства людей в области до или после применения политики. Благодаря последним разработкам в области глубокого обучения, способность алгоритмов к анализу текста значительно улучшилась. Анализ настроений является наиболее популярным среди инструментов, которые говорят нам о настроениях и общем отношении пользователей к конкретной проблеме. Анализ настроений, также известный как анализ мнений, представляет собой процесс извлечения и обработки настроений, встроенных в текст. НЛП с искусственным интеллектом и анализом текста способны определить, является ли настроение текста положительным, отрицательным или нейтральным. Обработка естественного языка (NLP) – это способность машины понимать человеческий язык. Анализ настроений имеет ряд применений, например, выяснение отношения к продуктам, фильмам, политикам и т. Д., Улучшение отношений с клиентами и т. Д. Таким образом, существует огромный интерес к анализу настроений коротких текстов, таких как твиты и SMS-сообщения в разных в различных областях, таких как коммерция, здравоохранение, военная разведка, борьба со стихийными бедствиями и т. д. Он вырос благодаря своей полезности в деловых секторах, таких как получение отзывов о продуктах или помощь в избирательных кампаниях.

В этом отчете мы сосредоточились на Twitter, который постоянно расширяется. Интерфейс Twitter позволяет своим пользователям публиковать короткие сообщения. Таким образом, Twitter стал одной из самых известных платформ для выражения наших взглядов и мыслей.

Источники данных

Основными блоками анализа настроений являются пользовательские обзорные данные. Существуют различные источники, которые могут предложить данные для анализа.

<Р> а. Блоги: это дискуссионные сайты, доступные в Интернете, состоящие из различных статей и редакционных статей на различные другие темы. Например, Tumblr и WordPress.

<Р> В. Сайты социальных сетей. Сайты социальных сетей, позволяющие своим пользователям общаться и общаться с другими пользователями, обмениваться фотографиями и публикациями по различным вопросам в Интернете. Facebook, Whatsapp, Twitter, Instagaram и т. Д. – несколько примеров C. Сайты обзора: Rotten Tomatoes, Amazon и т. Д. – это несколько веб-сайтов, которые позволяют пользователям размещать отзывы о фильмах, продуктах, услугах и т. Д.

Уровни анализа настроений

В зависимости от полярности мнения бывают трех типов; положительный, отрицательный или нейтральный. Положительное мнение – это то, которое использует слова позитивного настроения, например, для хороший, выдающийся, симпатичный и т. д. Он может иметь негативное поведение, если в нем есть слова с негативными эмоциями, такими как неприязнь, разочарование, неприятность и т. д. Слова отрицания, такие как нет, нет, не меняют полярность настроения. также существуют. Поэтому важно использовать такие слова осторожно.

<Р> а. Изучение уровня документа: на этом уровне весь документ подвергается тщательному анализу и тщательно обрабатывается для выявления скрытых в документе настроений. Анализ на этом уровне полезен только в том случае, если документ связан с одной сущностью, и не имеет большого значения, если он имеет представления о нескольких сущностях.

<Р> В. Анализ уровня предложения: На этом уровне цель состоит в том, чтобы обработать предложение и получить эмоции, лежащие в этом предложении. На этом уровне есть две цели; во-первых, классифицировать предложение в объективное предложение или субъективное предложение. Объективное предложение – абсолютно непредвзятое утверждение. Субъективное предложение содержит намеки на личные эмоции автора. C. Добыча на уровне сущности. Предыдущие два уровня не дают точного определения того, что любят, а что ненавидят. Этот уровень анализа в изысканной манере, он анализирует сами мнения, а не используемый язык.

Процесс анализа настроений

Стандартный поток анализа настроений выглядит следующим образом:

<Р> а. Подготовка данных. Подготовка данных – это процесс сбора данных по определенной теме из различных источников пользовательских данных. Иногда собранные данные могут содержать нежелательную информацию, такую ​​как теги HTML, информация URL и т. Д.

<Р> В. Анализ анализа: шаг Анализ анализа анализирует данные и выявляет скрытые эмоции и информацию. Различные вычислительные задачи сначала применяются для извлечения результатов. Двумя известными методами являются POS-теги и Negation-теги.

<Р> С. Классификация настроений: настроения можно классифицировать двумя способами; во-первых, подход ориентации настроения, при котором чувства извлекаются из текста, а затем выясняется его общая ориентация. Во-вторых, подход машинного обучения, который зависит от того, классифицируются ли данные как положительные, отрицательные или нейтральные.

Методы анализа настроений

Методы анализа настроений можно отнести к следующим категориям:

A. Подход машинного обучения

Машинное обучение относится к компьютерным наукам, которые заставляют машины учиться и понимать, предоставляя им прогнозы на основе данных без их программирования. Вот некоторые из важных алгоритмов:

<Р> 1. Наивный байесовский: он основан на теореме Байеса. Это не единственный алгоритм, а комбинация и совокупность множества алгоритмов, разделяющих общий принцип: каждая классифицируемая функция является независимой. Смысл, значение одного признака не зависит от значения другого признака. Этот алгоритм прост, легок и эффективен также для больших наборов данных.

<Р> 2. Максимальная энтропия: в отличие от наивного Байеса, здесь мы не предполагаем, что функции независимы друг от друга. Поскольку он следует принципу максимальной энтропии, он выбирает самую большую из всех моделей, удовлетворяющих обученным данным. Поскольку мы не делаем никаких предположений в случае классификатора максимальной энтропии, мы используем его, когда у нас нет знаний о предыдущих распределениях.

<Р> 3. Машины опорных векторов: это контролируемые модели обучения, имеющие алгоритмы анализа данных для классификации. Алгоритм обучения SVM помогает создавать новые примеры обучения для категории или другого, делая его не вероятностным двоичным линейным классификатором. Модель SVM показывает эти примеры в виде точек в пространстве, разделяя примеры разных категорий, давая широкий пробел. Затем сопоставляются новые примеры, и их категория прогнозируется в зависимости от того, с какой стороны разрыва они находятся.

В. Подход на основе лексикона

В этом подходе вместо обучающих данных используются готовые словари или словари. При таком подходе мы предполагаем, что окончательное чувство текста – это сумма индивидуальной полярности слов в нем. Задачам, таким как короткие тексты, отрицания, грамматические ошибки и т. Д., Необходимо уделять особое внимание.

<Р> 1. Ручной подход: это очень длительный и утомительный процесс, требующий квалифицированной работы и уникальной техники для создания лексикона.

<Р> 2. Подход на основе словаря: в этом подходе мы используем заранее известную полярность нескольких основных слов. Затем мы собираем синонимы и антонимы этих слов, расширяя наш словарь. Таким образом, с каждой итерацией новые слова добавляются в словарь до тех пор, пока новые слова не будут найдены. Считается, что подходы машинного обучения более точны, чем подходы, основанные на лексиконах, но они неэффективны и плохо работают в условиях ограничения времени.

С. Гибридные методы

В гибридных методах комбинируются подходы машинного обучения и лексикона. Эта комбинация улучшила классификацию производительности. Концепция, названная pSenti, была разработана путем объединения лексиконного подхода и подхода машинного обучения. Таким образом, мы можем получить лучшее из обоих миров и дать точные результаты за короткий промежуток времени.

Процесс анализа настроений в Твиттере

Twitter является лучшим и легкодоступным источником информации для организаций по конкретной теме. Исследователи, политики, бизнес-организации и другие любопытные организации проявили огромный интерес к твиттеру по той же причине. Как указывалось ранее, в этом отчете мы также сосредоточимся на анализе настроений в Twitter. Различные этапы анализа твиттера:

A. Извлечение данных Twitter с помощью API Twitter

API Twitter соединяется с источником и приемником напрямую. Разработаны ключи аутентификации и токены, которые помогают в связи с сервером Twitter. Источником является учетная запись пользователя в Twitter, а приемником – HDFS (распределенная файловая система Hadoop), в которой хранятся и хранятся все твиты.

В. Предварительная обработка твитов

Данные, извлеченные из твиттера, содержат различный бесполезный контент, такой как ссылка на веб-сайт, смайлики, пробелы, хэштеги и т. д., которые необходимо удалить перед обработкой для получения точных результатов.

Существуют различные типы символов, используемых пользователем, такие как знак пунктуации и т. д., от которых нужно избавиться из твитов, так как они не имеют чувств. В наше время смайлики также стали способом показать свои эмоции. Следовательно, преобразование смайликов в соответствующие им слова крайне важно.

С. Применение наивного байесовского алгоритма

Наивная байесовская классификация – это контролируемый метод обучения для классификации текстов. Эта классификация названа как Наивный Байес в честь Томаса Байеса, который предложил теорему Байеса о вероятности. Это дает нам различные алгоритмы обучения и наблюдаемые данные, чтобы дать нам обученные данные.

Метод, примененный в анализе настроений Twitter

Мы следуем этим 3 основным шагам в нашей программе:

<Ол>
 

  • Авторизовать клиент API Twitter.
     

  • Сделайте GET запрос к Twitter API для извлечения твитов по определенной теме.
     

  • Анализируйте твиты и классифицируйте каждый из них как положительный, отрицательный или нейтральный.

    Установка:

    <Р> а. Tweepy: Tweepy – клиент Python для официального API Twitter. Команда для установки ispip install tweepy

    <Р> В. TextBlob: Textblob – это библиотека python для обработки данных. Он устанавливается с помощью команды pip install TextBlob

    Следующая обработка выполняется над текстом с помощью библиотеки textblob:

    <Ол>
     

  • Токенизируйте твит, разбивая каждое слово из текста.
     

  • Удаление ненужной информации и стоп-слов из текста.
     

  • Выполните POS (часть речи) теги токенов.
     

  • Передайте эти токены классификатору настроений, который затем классифицирует настроение в твите как положительное, отрицательное или нейтральное, задавая его полярность от -1,0 до 1,0. Нам также необходимо установить любую из доступных корпусов NLTK. Корпора содержит большой и структурированный набор текстов. Это делается с помощью следующей команды-python -m textblob. download_corpora.

    Аутентификация:

    Для извлечения твитов через Twitter API нам необходимо зарегистрировать приложение через личный аккаунт в Твиттере, выполнив следующие действия:

    Проблемы анализа настроений

    <Р> а. Достоверность / Поведение / Гомофилия: Говорят, что не все, что мы читаем или видим в Интернете, является правдой. Трудно быть уверенным в достоверности источника данных. То, что мы видим на социальных сайтах, – это просто следы того, что люди чувствуют, и сделать общий вывод с помощью этой неверной информации несправедливо. это затрудняет оценку для принятия важных решений, основанных на индивидуальном поведении.

    <Р> В. Сарказм: истинную природу сарказма чрезвычайно сложно выяснить, особенно по тексту. Сарказм может быть использован, чтобы причинить боль или оскорбить или может быть использован для комического аффекта.

    <Р> С. Грамматически неверные слова: было разработано много подходов для анализа данных и извлечения их мнений, но ни один из них не может найти грамматических ошибок в этих данных. Результат анализа настроений может быть улучшен путем решения этих проблем.

    <Р> Д. Шум и динамизм. Данные в социальных сетях огромны, шумны, неструктурированы и динамичны по своей природе, что приводит к возникновению проблем, связанных с анализом настроений. Устранить этот шум чрезвычайно сложно.

    <Р> Е. Спам-сообщения: трудно провести различие между подлинным обзором или поддельным отзывом. Конкурирующие политики или компании могут принять решение о недобросовестных средствах и опубликовать предвзятые и фальшивые обзоры, которые могут стать проблемой в предоставлении точного результата анализа настроений. Заключение В этом отчете мы указали, как анализ настроений или анализ мнений в настоящее время используются конкурентным миром для принятия лучших решений и роста. Twitter – это место для тех, кто хочет найти большое количество отзывов по теме. Это сайт микроблогов, который позволяет нам общаться с людьми по всему миру, а также публиковать сообщения длиной до 140 символов. В этом отчете мы разработали метод, используемый для привлечения, обработки и анализа данных Twitter с использованием подхода машинного обучения. Помимо подходов машинного обучения, мы также обсудили различные лексиконные и гибридные подходы и методы. В будущем требуется дальнейшая разработка для дальнейшего повышения производительности путем преодоления различных проблем, таких как …

  • Зарегистрируйся, чтобы продолжить изучение работы

      Поделиться сочинением
      Ещё сочинения
      Нет времени делать работу? Закажите!

      Отправляя форму, вы соглашаетесь с политикой конфиденциальности и обработкой ваших персональных данных.