Сочинение на тему Большое количество данных

Опубликовано: 24.09.2020
Предмет: Информационная наука
Темы: Большое количество данных

Введение

Большие данные здесь. Он приходит в ваш мир быстрее, чем мы ожидаем. Сегодня в эту эру цифровых данных все становится цифровым, как электронная библиотека, электронная почта, электронные покупки, электронные билеты, электронные платежи, электронное управление и многое другое. Люди использовали все больше и больше веб-сайтов для развлечений, таких как Facebook, Twitter и YouTube для видео, фотографий, твитов и загрузки данных, а также для загрузки в Интернете. В Интернете хранится огромное количество данных или информации, которые находятся в зетах или в эксабайтах, которые являются ничем иным, как большими данными. Согласно IDC, в будущем рост данных никогда не прекратится, и в конце 2015 года он достигнет 7910 Exabyte. Существует острая необходимость в исследованиях и разработках в области анализа больших данных, чтобы справиться с этой шумихой в цифровую эпоху. Каждый человек, профессионалы, правительство и государственные учреждения должны подумать об этом и разработать экспертные системы для лучшего использования вселенной больших данных.

Что такое большие данные?

Большие данные в основном представлены в формате несжатых данных, поэтому они очень большие, сложные и трудные для обработки в традиционных приложениях обработки данных. Таким образом, в таком массиве данных очень сложно визуализировать, анализировать, искать, хранить и передавать данные для любой организации или компании. Это самая большая проблема для большой компании, как решить эту проблему. За этим документом наш основной мотив состоит в том, чтобы описать реальность больших данных, как могут отличаться большие данные с традиционной базой данных, каковы различные типы больших данных, характерно для больших данных и в действительности, как они работают с различными инструментами и технологиями и как компания может решить эти большие проблемы, используя эти инструменты. Здесь мы также опишем сравнительное исследование различных инструментов, которые в основном используются для анализа, визуализации, хранения и передачи больших данных. В последнее время большие данные широко обсуждаются в научных кругах и в ведущих корпорациях, например IBM, Oracle и IDC. Весь бизнес, мир технологий и научные круги гудят дискуссиями и прогнозами о больших данных. Это напрямую и косвенно влияет на библиотеки; напрямую, потому что библиотека может использовать инструменты больших данных для анализа ваших больших наборов данных; и косвенно, поскольку преподаватели в вашей школе будут все чаще включать большие данные в свои исследования. Поэтому важно понимать большие данные для специалистов библиотек.

Типы больших данных

Большие данные в основном делятся на три части, которые называются структурированными, неструктурированными и полуструктурированными данными.

Структурированные данные: когда мы говорим о структурированных данных, которые в основном хранятся в СУБД СУБД формально. Данные сгруппированы в виде строк и столбцов. Теперь за день доступно 10% структурированных данных вокруг нас. Данные, которые находятся в фиксированном поле в записи или файле, называются структурированными данными. Это включает в себя данные, содержащиеся в реляционных базах данных и электронных таблицах. Структурированные данные дают имена каждому полю в базе данных и определяют отношения между полями. Пример структурированных данных – СУБД (ERP и CRM), хранилище данных, файл плана Microsoft Project (файл .MPP).

Неструктурированные данные: данные, созданные на человеческом языке, включая текстовые и числовые значения с пунктуацией или без мета-данных. Данные, которые не могут быть сохранены в необработанном виде и в виде столбцов, как видео и аудио данные, потоковые данные, пиктографические данные, называются неструктурированными данными. Массивно эти виды данных все больше и больше генерируют сегодня, это на 80% больше, чем за последние 2 года. Указывает на информацию, которая либо не имеет предопределенной модели данных, либо не организована предопределенным образом. Неструктурированная информация, как правило, содержит много текста, но может также содержать такие данные, как даты, числа и символы. Примером неструктурированных данных являются видео, аудио, текстовые сообщения, блоги, электронная почта, SocialMedia, шаблон потока StreamWeather, координаты местоположения и данные датчика.

Полуструктурированные данные. Полуструктурированные данные – это один из видов структурированных данных, которые не соответствуют своей формальной структуре этой модели данных, и называются полуструктурированными данными. Этот тип данных в настоящее время существует на 10%, и примером таких данных являются RSS-каналы и данные XML-форматов.

Характеристики больших данных

В статье Колина Уайта большие данные представлены во многих формах, размерах и длине, и что касается ученых-данных IBM, большие данные делятся в основном на четыре части, или мы можем сказать, что 4V: 1.объем, 2.разнообразие, 3. скорость и 4. достоверность. Как выясняется, ученые данных почти всегда описывают «большие данные» как имеющие как минимум три различных измерения: объем, скорость и разнообразие. Некоторые затем добавляют дополнительные V в список, чтобы также включить изменчивость и ценность. Вот как определить «пять больших данных».

Объем. Большие данные в первую очередь должны быть «большими», а размер в этом случае измеряется как объем. Эта информация уже расширяется от клинических данных, связанных с лабораторными тестами и визитами к врачу, до административных данных, касающихся платежей и плательщиков. Когда эти данные будут совмещены с более широким использованием точной медицины, в здравоохранении произойдет большой взрыв данных, особенно с учетом того, что данные о геноме и окружающей среде становятся все более распространенными.

Скорость: Скорость в контексте больших данных относится к двум связанным концепциям, знакомым любому в здравоохранении: быстро растущая скорость, с которой новые данные создаются технологическими достижениями, и соответствующая потребность в том, чтобы эти данные переваривались и анализировались в режиме реального времени. Например, поскольку все больше медицинских устройств предназначено для мониторинга пациентов и сбора данных, существует большая потребность в том, чтобы иметь возможность анализировать эти данные и затем передавать их обратно врачам и другим лицам. Этот «интернет вещей» здравоохранения приведет только к увеличению скорости больших данных в здравоохранении.

Разнообразие: с увеличением объема и скорости возрастает разнообразие. Эта третья буква «V» описывает то, что вы думаете: огромное разнообразие типов данных, которые организации здравоохранения видят каждый день. Опять же, подумайте об электронных медицинских записях и этих медицинских устройствах: каждый из них может собирать данные различного типа, которые, в свою очередь, могут по-разному интерпретироваться разными врачами или предоставляться специалисту, но не поставщику первичной медицинской помощи. Задача для систем здравоохранения, когда дело касается разнообразия данных? Стандартизация и распространение всей этой информации, чтобы все участники были на одной странице. С ростом внедрения анализа здоровья населения и анализа больших данных мы видим все большее разнообразие данных, объединяя традиционные клинические и административные данные с неструктурированными примечаниями, социально-экономическими данными и даже данными социальных сетей.

Изменчивость. То, как лечение предоставляется конкретному пациенту, зависит от всевозможных факторов – и способ оказания помощи и, что более важно, способ сбора данных могут изменяться время от времени или от места к месту. Например, то, что читают врачи в медицинской литературе, где они обучались, или профессиональное мнение коллеги по коридору, или то, как пациентка выражает себя во время первоначального обследования, – все это может сыграть роль в том, что происходит дальше. Такая изменчивость означает, что данные могут быть осмысленно интерпретированы только тогда, когда условия оказания медицинской помощи и процесс оказания помощи приняты во внимание Например, диагноз «CP» может означать боль в груди, когда вводится кардиологом или врачом первичной медицинской помощи, но может означать «церебральный паралич», когда вводится неврологом или педиатром. Поскольку истинная совместимость все еще не совсем ясна в данных здравоохранения, изменчивость остается постоянной проблемой.

Значение Последнее, но не менее важное, большие данные должны иметь значение. То есть, если вы собираетесь инвестировать в инфраструктуру, необходимую для сбора и интерпретации данных в масштабе всей системы, важно обеспечить, чтобы генерируемые данные основывались на точных данных и приводили к ощутимым улучшениям в конце день. Большие данные характеризуются тремя значениями: объем, скорость и разнообразие.

Первый V, том, самый легкий для понимания. Большие данные отличаются от обычных данных тем, что размеры наборов данных огромны. Насколько огромный? Это зависит от отрасли или дисциплины, но большие данные слабо определяются как данные, которые не могут быть сохранены или проанализированы с помощью обычного аппаратного и программного обеспечения. Традиционное программное обеспечение может обрабатывать наборы данных размером в мегабайты и килобайты, тогда как инструменты для работы с большими данными могут обрабатывать наборы данных размером в терабайты и петабайты.

Второй V, скорость, покрывает скорость, с которой создаются данные. Подумайте о скорости, с которой кто-то может создать один твит в Твиттере или опубликовать в Facebook, или о том, как быстро тысячи удаленных датчиков постоянно измеряют и сообщают об изменении температуры морской воды.

Третий вариант V делает большие наборы данных более сложными для организации и анализа.

Традиционно тип данных, собираемых бизнесом и исследователями, строго контролировался и структурировался, например, данные, вводимые в электронную таблицу с конкретными строками и столбцами, аккуратные и чистые. Большие наборы данных могут содержать неструктурированные данные, такие как сообщения электронной почты, фотографии, публикации на интернет-форумах и даже стенограммы телефона. Реальная вещь или Vaporware: почему большие данные сейчас? Управление и анализ больших наборов данных когда-то были исключительной сферой триединства научных кругов, крупного бизнеса и национальных правительств. Новым является то, что аппаратное и программное обеспечение для анализа больших данных дешевле и, следовательно, более доступно для бизнеса, научных кругов и местных органов власти. Также новшеством является возможность анализировать большие данные в режиме реального времени и делать прогнозы на их основе. Ранние пользователи больших данных были прирожденными цифровыми фирмами, которые полагались на анализ больших наборов данных для управления их успехом, таких как Facebook, LinkedIn, Google и Twitter. Ряд факторов приблизились к загону и эффективно добывают массивные наборы данных. Эти факторы включают более низкую стоимость обычных серверов для размещения данных, выпуск программных средств с открытым исходным кодом для управления распределенными вычислениями, создание массивных наборов данных и необходимость для компаний и других организаций извлекать ценность из собираемых ими данных.

Что библиотекари должны знать о больших данных Из-за их распространенности и потенциальных воздействий, библиотекари должны знать основы больших данных и то, как они влияют на научные исследования. Бизнес-библиотекари должны знать, как компании используют большие данные, как такой интеллектуальный анализ данных дает конкурентное преимущество, и как студентам, возможно, придется работать с большими наборами данных при будущей работе. Научные библиотекари должны знать, насколько большие данные отличаются от других научных данных, и влияние новых программных и аппаратных средств, используемых для их анализа. Библиотекари по гуманитарным и общественным наукам должны знать, что большие данные становятся все более распространенным явлением и в их дисциплинах и больше не ограничиваются корпусной лингвистикой. Библиотекари во всех дисциплинах, чтобы облегчить процесс исследования, должны знать, как используются большие данные и где их можно найти. Курация больших данных Библиотекари также должны принять участие в создании больших наборов данных, более полезных, видимых и доступных, путем создания таксономий, разработки схем метаданных и систематизации методов поиска. Цифровым архивариусам, кураторам данных и библиотекарям других типов также предлагается консультировать своих преподавателей по вопросам хранения и доступности больших наборов данных. Майк Фёрло из Penn State отмечает, что мы, библиотекари, знаем ценность традиционных источников информации, но какова ценность менее готовых данных, так называемых необработанных данных? Мы на самом деле не знаем ценность необработанных данных, но ключ к пониманию заключается в том, что с помощью новой и мощной аналитики, в том числе инструментов визуализации информации, исследователи могут по-новому взглянуть на данные и добыть их для получения информации, отличной от исходных данных. для.

Дальнейшие действия для академических библиотек. Администрация и руководство библиотек должны изучить, какие типы больших наборов данных может собирать и анализировать их библиотека с помощью инструментов для работы с большими данными. Есть ли у вашей библиотеки возможность измерить что-то новое, какой-то массив данных, который ранее был недоступен из-за ограничений программного и аппаратного обеспечения? С точки зрения обработки больших данных, может ли ваша библиотека, в рамках хранения научных исследований вашего факультета и обеспечения ее доступности, также хранить и собирать необработанные данные исследований вашего факультета для использования другими? Ваша библиотека может собирать большие данные для анализа, чтобы помочь принимать решения на основе данных. Какие типы больших данных вы могли бы использовать для принятия лучших решений о разработке коллекций, обновлении публичных пространств или отслеживании использования библиотечных материалов через вашу систему управления обучением? Или вы можете стать лидером в области обработки больших данных в своем учреждении, предоставляя рекомендации по хранению и созданию доступных больших наборов данных. Теперь у вашей библиотеки есть возможность понять проблемы и возможности, которые предлагает большие данные исследователям, администрации и библиотекарям в вашем учреждении. Понимание больших данных в библиотечном деле Значение больших данных в библиотечном деле также обсуждалось. Sulistialie (2015) определяет библиотеки как ответственные за организацию знаний, поиск и распространение информации и поддержание информационных систем. Однако большие данные изменяют шаблоны, которые библиотеки используют и используют для выполнения своих обязанностей (Affelt, 2015). Но (2015) подчеркивает, что текущая модель для библиотек превращается в Библиотеку 4.0, интеллектуальную библиотеку, которая может анализировать информацию и представлять результаты пользователям.

Исключительной особенностью библиотеки 4.0 являются массивные данные, которые она обрабатывает. Таким образом, большие данные считаются актуальной и важной концепцией для развития будущих библиотек. Кроме того, поскольку современные библиотеки противостоят распространению данных (Gordon-Murnane, 2012), необходимо обновить навыки библиотекарей, чтобы справиться с проблемами, вызванными большими данными (Affelt, 2015; Gordon-Mur …

Зарегистрируйся, чтобы продолжить изучение работы

Поделиться сочинением

Ещё сочинения

Большие данные: основные преимущества Hadoop

29.10.2020 Комментариев нет

Hadoop может быть страстно привлекательным, потому что он отлично масштабируется, может быть настроен на переключение широкого ассортимента и очень дорогой по сравнению со старыми. Hadoop

Читать полностью »

Какие существуют виды аналитических решений для больших данных?

29.10.2020 Комментариев нет

Существует четыре типа аналитических решений для больших данных, которые действительно помогают бизнесу: Prescriptive . Этот тип анализа показывает, какие действия следует предпринять. Это наиболее

Читать полностью »

От каких угроз труднее всего защититься?

28.10.2020 Комментариев нет

Самая большая угроза для ваших данных – это внутренние и внешние источники, которые хотят украсть эти данные. Правильная защита – единственный способ защитить ее, а

Читать полностью »