Сочинение на тему Обзор больших данных: смысл, источники, категории

Опубликовано: 19.08.2020
Предмет: Информационная наука
Темы: Большое количество данных, компьютер, Компьютерная наука

Данные, которые у оригинального устройства были на своих серверах и жестких дисках, были просто данными, но неожиданно появился новый термин «Большие данные», большие данные – это термин, используемый для описания огромного объема структурированных или неструктурированных данных, которые настолько велика, что традиционное программное обеспечение для управления базами данных практически невозможно обработать. Говоря более простыми словами, данные очень велики по размеру и в то же время экспоненциально растут с каждым днем. Причиной внезапного роста больших данных является то, что в настоящее время существует так много цифровых платформ, с которых можно собирать данные, чем несколько десятилетий назад. Кроме того, цена на хранение и управление данными стала дешевле и будет продолжать снижаться. Платформа облачных вычислений обеспечивает доступ к данным из любого места с высокой скоростью загрузки. Все эти факторы послужили топливом для расширения использования и анализа больших данных.

Чтобы объяснить значение больших данных, Лейни представил 3V: объем, скорость и разнообразие. V подразумевает, что размер данных огромен, данные создаются быстро, и данные будут доступны в различных форматах и будут собираться из многих ресурсов. В настоящее время определение 3 V считается недостаточным для объяснения больших данных, поэтому для определения стандартного определения больших данных были добавлены достоверность, достоверность, ценность, изменчивость, место и неопределенность.

Каков источник больших данных?

Каждый раз, когда пользователь использует какую-либо сетевую или цифровую услугу, он оставляет цифровые следы, которые можно собирать в виде данных. Этими цифровыми услугами могут быть все, что может хранить избыточные данные и управлять ими, например социальные сети, сайты электронной коммерции, порталы онлайн-платежей, поисковые системы, цифровые карты и т. Д. Например, человек ищет в Google «Хорошие мобильные телефоны стоимостью менее 7000 рупий». , теперь Google создаст новую ветку для цифровых следов этих пользователей (если пользователь вошел в систему с помощью своей учетной записи Google в браузере, тогда эта ветка будет связана с его идентификатором Google, если нет, то эта нить будет однозначно идентифицирована с IP-адресом пользователя. адрес или из идентификатора устройства, используемого для доступа к Google). Если пользователь теперь просматривает результаты поиска и открывает веб-сайт онлайн-покупок, Google добавляет новые данные о том, какой веб-сайт предпочитает пользователь. Если пользователь когда-либо снова ищет какой-либо продукт, результаты поиска будут иметь предпочтительный веб-сайт вверху. Таким образом, в основном Google использует данные, полученные от пользователей, для показа результатов поиска и рекламы. В дополнение к этому, если пользователь покупает телефон на сайте покупок, сайт порекомендует пользователю приобрести защитную пленку для экрана, чехол для телефона и другие аксессуары для мобильного телефона.

Facebook делает еще один шаг, Facebook отслеживает каждый щелчок пользователя, они даже собирают то, что удалили, после ввода чего-либо в поле для комментариев или в разделе обновления статуса. Они также собирают данные из ваших личных чатов и о том, какие темы вы читаете. Если кто-то хочет увидеть алгоритм сбора и анализа данных facebook в действии, он может просто подделать чат со своими друзьями о покупке определенного продукта (например, калькулятора или обуви) или использовании определенной услуги (например, фастфуд или облачное хранилище). на веб-сайте Facebook, в Facebook-мессенджере, Whatsapp или Instagram (все эти социальные медиа-платформы принадлежат Facebook!), и участники фальшивого чата очень скоро заметят, что их новостная лента полна рекламы, связанной с этим продуктом или услугой.

Теперь можно только задаться вопросом, сколько данных генерируется каждый день, огромный размер данных создает проблему извлечения полезных данных из кучи кластеров данных. Для максимально возможного преодоления этой проблемы были введены различные методы, некоторые из них – выборка, инкрементное обучение, подходы на основе плотности, конденсация данных, подходы на основе сетки, распределенные вычисления, «разделяй и властвуй». Кроме того, данные, хранящиеся в организациях, должны быть защищены от попадания в руки посторонних лиц, таких как хакеры или взломщики.

Зачем нам нужны большие данные?

Если мы управляем записями происхождения, имеющими ограниченный объем данных, и манипулирование данными осуществляется в управляемом количестве, то мы можем использовать любое программное обеспечение СУБД для управления данными и обработки запросов. Но если мы говорим о гигантах данных, таких как Facebook, Google или Youtube, где данные настолько огромны и сложны, что, когда мы пытаемся реализовать традиционные концепции СУБД, мы сталкиваемся со сбоем структуры потока данных и потерей эффективности, нам нужно что-то, чтобы справиться с экспоненциальным ростом данных. Большие данные стали решением этой проблемы и потребностью в анализе кластеров данных. Анализ данных – это процесс, в котором определенные инструменты используются для преобразования, фильтрации и ремоделирования данных, чтобы прийти к выводу для данной ситуации; точный анализ данных пропорционален качеству принятия решений, что, в свою очередь, приводит к повышению эффективности и снижению количества отказов.

Большие данные оказались мощным ресурсом для гигантов данных, они позволяют получить доступ к огромному объему данных. Анализируя эти данные, предприятия завоевывают рынок, разрабатывая более эффективные стратегии за меньшее время, поскольку это усиливает возможности принятия решений. Кроме того, он может быть использован для быстрого обнаружения ошибок и мошенничества.

Категории больших данных:

Неструктурированные данные: данные без надлежащей формы или структуры называются неструктурированными данными, основная проблема с ними заключается в том, что их трудно понять нетехническим пользователям, а также трудно обрабатывать их, поскольку нет определенного направления данных течь. Пример: изображения, текст, видео, метаданные файлов, данные социальных сетей и т. Д.

Полуструктурированные данные. Это данные, которые не являются ни необработанными, ни структурированными в таблицах и записях. Они могут быть расположены в виде дерева, что облегчит их анализ. Примерами являются файлы типов JSON и XML, содержащие полуструктурированные данные.

Структурированные данные. Данные, которые хранятся в виде таблиц в записи, известны как структурированные данные, такие данные легко вводить, обрабатывать и анализировать. Пример: запись ученика школы, управляемой с использованием данных RDBMSBig, позволяет интегрировать как структурированные, так и неструктурированные данные.

Зарегистрируйся, чтобы продолжить изучение работы

Поделиться сочинением

Ещё сочинения

Несколько советов от команды реагирования на инциденты компьютерной безопасности

30.10.2020 Комментариев нет

Группа реагирования на инциденты в области компьютерной безопасности (CSIRT, пояснено «see-sirt») – это подразделение, которое получает отчеты о взрывах безопасности, проводит проверки отчетов и отвечает

Читать полностью »

Позвоните в полицию. На моем компьютере преступник!

30.10.2020 Комментариев нет

Обычным сюжетом голливудских триллеров является устройство «Не отвечай на телефон». В этом фильме няня знает, что придет маньяк, чтобы убить ее или детей. Важный момент

Читать полностью »

Как общаться с диалогами Microsoft Dynamics помогает пользователям CRM достичь дохода и успеха в обслуживании

29.10.2020 Комментариев нет

Миллионы пользователей полагаются на Microsoft Dynamics CRM в качестве основного центра всей своей клиентской информации. Конфронтные группы клиентов используют его для суммирования и разбивки информации

Читать полностью »