Сочинение на тему Большое количество данных
- Опубликовано: 22.08.2020
- Предмет: Информационная наука
- Темы: Большое количество данных, Сбор данных
Большие данные напоминают поток данных. Обилие данных расширяется день ото дня. Большие данные ориентированы на огромный объем данных. Данные могут быть в форме структурированных, неструктурированных и полуструктурированных. Структурированные данные состоят из текстовых файлов, которые могут отображаться в строках и столбцах. Это может быть легко обработано. Неструктурированные данные противоположны структурированным. Данные не могут быть отображены в реляционной базе данных. Примером неструктурированных данных может быть текстовый документ, презентация, аудио, видео, электронная почта, а также многие другие деловые документы. Третья категория – полуструктурированные данные, в которые входят базы данных xml, JSON и NoSQL. Термин большие данные тесно связан с неструктурированными данными. Можно сказать, что 80% данных в больших данных неструктурированы. В действительности большие данные относятся к данным, которые не обрабатываются традиционной базой данных. Традиционная система баз данных хранит данные в гигабайтах, в то время как в больших данных она хранит данные в петабайтах, эксабайтах, зетабайтах и т. Д. Компаниям необходимо нанять или нанять высококвалифицированных сотрудников для глубокого аналитического просмотра больших данных. Эпоха больших данных постоянно увеличивается в самых популярных социальных сетях, таких как Facebook, Twitter. Понимание больших данных будет различным в зависимости от условий бизнеса, технологий и отрасли. McKinsey бросил вызов пяти следующим единицам, в которых данные быстро растут. Это данные здравоохранения, государственного сектора, розничной торговли, производства и личного местоположения. Основным преимуществом больших данных это обеспечивает масштабируемость и аналитику данных.
Примеры больших данных в реальных сценариях, таких как банки, социальные сети, веб-данные и любые типы ежедневных транзакций. Определение больших данных в сочетании с объемом, разнообразием, скоростью, достоверностью и ценностью этих пяти V. Итак, вот 5 В больших данных, разработанных простым языком.
Объем. В терминах больших данных слово «большой» определяет объем. в будущем данные будут выражаться в зеттабайтах. С сайтов социальных сетей передается большое количество данных. Вот некоторые интересные статистические данные, которые показывают объем данных. По данным интернет-статистики в реальном времени за 1 сек. Есть:
- 64 551 поиск в Google
- 7 886 твитов в твиттере
- 822 фотографии из Instagram загружены за 1 сек.
- 72 179 видео YouTube просматриваются за 1 секунду
- 2 655 557 электронных писем, отправленных за 1 секунду, включая спам
- 52 180 ГБ интернет-трафика за 1 секунду
Разнообразие. Как я уже говорил, типы данных структурированные, полуструктурированные и неструктурированные. Эти типы данных трудно обрабатывать традиционной системой баз данных. Различные типы данных называются разнообразием. В настоящее время генерируется много структурированных данных.
Скорость. Скорость создания данных, известная как скорость. Несколько примеров данных, появившихся на сайтах социальных сетей: твиты в твиттере, статусы / комментарии / публикации в Facebook и многие другие. Данные генерируются в режиме реального времени, почти в реальном времени, ежечасно, ежедневно, еженедельно, ежемесячно и ежегодно, партиями и т. Д.
Правдивость: соответствие данных. Атрибуты достоверности включают точность, целостность и достоверность данных. Это приводит к неопределенности данных, независимо от того, проверены они или нет.
Неопределенность. Путаницу в отношении больших данных называют неопределенностью. Существуют различные инструменты, которые используются для обработки больших данных. Это Hadoop, улей, Map Reduce, Apache pig или любой другой?
Значение: последнее, но не менее важное: значение является наиболее важной характеристикой больших данных. Оно гарантирует, что полученные данные полезны или не полезны для организации. Информация о добавленной стоимости окажет большое влияние на развитие организации.
Ахмад Альдхафири CEGR 4802/1/2018 ГИС Геоинформационная система (ГИС) – это система, предназначенная для сбора, хранения, обработки, анализа, управления и представления всех типов географических данных. Ключевым
Биткойн становится все более популярным и победоносным в мире криптовалют. С момента его создания в 2009 году стоимость биткойна в 2018 году выросла втрое. В
Типичная база данных для компании, которая продает строительные материалы, может быть организована следующим образом: у компании должен быть хотя бы один клиент. Каждому клиенту в