Исследование эффективности облачного хранения данных в методе кластерного анализа сочинение пример

ООО "Сочинения-Про"

Ежедневно 8:00–20:00

Санкт-Петербург

Ленинский проспект, 140Ж

magbo system

Сочинение на тему Исследование эффективности облачного хранения данных в методе кластерного анализа

Облачное хранилище данных – это сервис, в котором данные хранятся удаленно, управляются и резервируются. Сервис позволяет пользователям хранить файлы в Интернете, чтобы они могли получить к ним доступ из любого места через Интернет. Облачные вычисления и многие пользователи ожидают, что облачные вычисления изменят процессы информационных технологий. Огромный объем данных хранится в облаке, который необходимо эффективно извлекать. Извлечение информации из облака занимает много времени, поскольку данные не хранятся организованным образом. Таким образом, интеллектуальный анализ данных важен для облачных вычислений. Мы можем интегрировать интеллектуальный анализ данных и облачные вычисления (Integrated Data Mining и Cloud Computing – IDMC), которые обеспечат гибкость и быстрый доступ к технологии. Благодаря технологии облачных вычислений пользователи используют различные устройства, в том числе ПК, ноутбуки, смартфоны и КПК, для доступа к программам, хранилищам и платформам разработки приложений через Интернет с помощью услуг, предлагаемых поставщиками облачных вычислений. Преимущества технологии облачных вычислений включают экономию средств, высокую доступность и простоту масштабирования. Таким образом, в этой представленной работе представлен обзор облачных хранилищ данных и их кластерного анализа для использования данных в различных приложениях бизнес-аналитики. В этой статье предлагается новая модель кластерного анализа данных, которая обеспечивает кластеризацию как услугу.

Большой объем данных хранится в облачной среде и требует эффективного извлечения. Извлечение информации из облака занимает много времени, поскольку данные не хранятся организованным образом.

Кластеризация данных – это метод анализа данных и извлечения значимых шаблонов из необработанных наборов данных. Значение здесь обозначается как обозначение шаблонов или знаний, извлеченных из обучающих выборок, которые в дальнейшем используются для идентификации аналогичного шаблона, который принадлежит изученному шаблону. В кластеризации данных наблюдаются два основных вида методов обучения, а именно методика обучения под наблюдением и методика обучения без контроля. Эти модели обучения используются для оценки данных и создания математической модели для использования для идентификации сходных шаблонов данных, полученных для классификации их в некоторые заранее определенные группы.

В контролируемой технике обучения данные обрабатываются с помощью меток их классов, и здесь метки классов работают в качестве учителя для алгоритма обучения. С другой стороны, в неконтролируемой технике обучения данные не содержат меток классов, которые можно использовать в качестве учителя. Поэтому, используя сходство и различие входных обучающих выборок, данные классифицируются. Поэтому контролируемые процессы обучения известны как классификация данных, а неконтролируемые методы обучения поддерживают кластерный анализ данных. В этой представленной работе немаркированные данные используются для анализа, поэтому метод анализа данных используется в качестве кластерного анализа. Кластеризация – это неконтролируемая классификация шаблонов или входных выборок. Это может использовать классификацию наблюдений, элементов данных или векторов объектов в группы. Эти группы в области интеллектуального анализа данных известны как кластерный анализ данных. В случае кластеризации проблема состоит в том, чтобы сгруппировать данный набор немаркированных шаблонов в значимые кластеры. В некотором смысле метки также связаны с кластерами, но эти метки категорий управляются данными; то есть они получены исключительно из данных.

Фон техники кластеризации.

Кластеризация – это наиболее популярный метод анализа данных, используемый для поиска полезного неизвестного шаблона из данных в большом хранилище. Кластеризация – это группирование данных в разные кластеры, так что элементы, принадлежащие одному кластеру, наиболее похожи, а элементы, принадлежащие другому кластеру, отличаются друг от друга. По сути, методы кластеризации делятся на две широкие категории. i) Жесткая кластеризация ii) Мягкая кластеризация. В Hard Clustering каждый документ может принадлежать только одному кластеру. Жесткая кластеризация также известна как эксклюзивная кластеризация. В Soft Clustering один и тот же документ может принадлежать более чем одной группе. Он также известен как метод наложения кластеров.

Необработанные и кластерные данные.

В этом разделе представлен обзор введения кластеризации данных и выбранной области для изучения в хранилище данных. В следующем разделе изучаются различные виды алгоритмов кластеризации для понимания методики кластерного анализа.

Типы техники кластеризации.

Существует значительное количество алгоритмов кластеризации и доступны методы, описываются некоторые важные методы:

Метод разбиения. В этом подходе кластеризации тогда предоставляется количество данных или объектов, и k данных требуется количество разделов из данных, но количество разделов таково, что k = n. Это означает, что алгоритм разделения будет генерировать k разделов, удовлетворяющих нижеследующему условию: a. Каждая группа имеет минимум один объект. б. Каждый объект должен быть членом ровно одной группы. 2. Иерархические методы. Иерархический метод генерирует иерархически способ организации кластеров. Это может быть достигнуто следующим образом:

Агломерационный подход. Он следует восходящему подходу. Во-первых, он генерирует отдельную группу для каждого объекта данных. Далее он объединяет эти группы на основе более близких сходств. Этот процесс повторяется до тех пор, пока вся группа групп не будет объединена в одну или пока не выполнится условие завершения.

Разделительный подход. Это следует нисходящему подходу. Процесс начинается с одного кластера, имеющего все объекты данных. Затем он продолжает разделять большие кластеры на более мелкие. Этот процесс продолжается до тех пор, пока не выполнится условие завершения. Этот метод негибкий, то есть после завершения слияния или разделения он никогда не может быть отменен.

Методы, основанные на плотности. Этот метод использует восприятие плотности. Основная задача состоит в том, чтобы продолжать расширять кластер до тех пор, пока плотность окрестности не достигнет определенного порога, то есть в пределах данного кластера радиальный промежуток кластера должен иметь определенное количество точек для каждой точки данных.

Метод на основе сетки. Этот метод осуществляет квантование пространства объектов в большое число. клеток, которые вместе питают сетку. Метод, имеющий текущие преимущества: • Основным преимуществом метода является его быстрая обработка. • Единственная надежда – полагаться на «нет». ячеек в объектном пространстве.

Основанные на модели методы. В основанной на модели схеме модель может быть предположена для каждого кластера наряду с этим; затем он определяет данные, которые лучше всего подходят для этой модели. Этот метод предоставляет средство для автоматического выявления ряда кластеров, полученных из стандартной статистики, с учетом выбросов или шумов. В результате создаются надежные методы кластеризации.

Метод на основе ограничений. Он выполняет кластеризацию на основе ограничений, ориентированных как на приложение, так и на пользователя. Эти ограничения на самом деле являются перспективой или свойствами желаемых результатов кластеризации. Эти ограничения упрощают взаимодействие с процессом кластеризации.

Один из предлагаемых облачных сервисов – это метод хранения данных. Ранее для концепции облачных вычислений важные промышленные данные использовались для внутреннего хранения на носителе [1]. От музыкальных файлов до картинок и конфиденциальных документов, облако невидимо создает резервные копии всех файлов и папок и устраняет необходимость в бесконечном и дорогостоящем поиске дополнительного места для хранения. При наличии огромных данных облачное хранилище облегчает покупку внешнего жесткого диска или удаление старых файлов, чтобы освободить место для новых. Таким образом, многие организации вступили в облачную среду для службы хранения. Эти организации платят за количество пространства, которое они используют в облаке. Облачное хранилище удобно и экономично. Он работает путем хранения файлов на сервере в Интернете, а не на локальном жестком диске. Это позволяет выполнять резервное копирование, синхронизацию и доступ к данным на нескольких устройствах, если у пользователей есть доступ к Интернету.

В облачных вычислениях были проведены различные исследования для повышения производительности облачных вычислений. Различные алгоритмы интеллектуального анализа данных были применены различными способами для управления огромным количеством данных в облаке. Связанные работы в этой области: Bhupendra Panchal и R.K Kapoor [2] предложили методики кластеризации и кэширования для повышения производительности. Основная идея состоит в том, чтобы сделать копии данных доступными в каждом центре обработки данных, поэтому даже если один центр обработки данных выходит из строя, все данные во втором центре обработки данных объединяются в кластеры с первым. Кашиш Ара Шакил и Мансаф Алам [3] предложили подход, который обеспечивает управление облачными данными посредством кластеризации и использует k-медиану в качестве метода кластеризации. А. Махендиран и др. [4] предложили реализацию алгоритма кластеризации k-средних в облачных вычислениях для больших наборов данных. Крити Шривастава [5] предложил реализовать алгоритм агломерационной иерархической кластеризации, чтобы обеспечить такие преимущества, как масштабируемость, эластичность и обработка больших наборов данных.

ПРЕДЛАГАЕМАЯ МОДЕЛЬ, УЛУЧШАЮЩАЯ УЧЕБНЫЕ АЛГОРИТМЫ ОБУЧЕНИЯ С КЛАСТЕРСТВОМ

Кластеризация – это неконтролируемый подход к машинному обучению, но может ли он использоваться для повышения точности контролируемых алгоритмов машинного обучения, а также путем кластеризации точек данных в аналогичные группы и использования этих меток кластера в качестве независимых переменных в контролируемом алгоритме машинного обучения. Давайте проверим влияние кластеризации на точность нашей модели для задачи классификации, используя 3000 наблюдений со 100 предикторами данных запаса, чтобы предсказать, будет ли запас увеличиваться или уменьшаться с использованием R. Этот набор данных содержит 100 независимых переменных от X1 до X100, представляющих профиль акции и одна исходная переменная Y с двумя уровнями: 1 для роста цены акций и -1 для падения цены акций.

Мы обсудили, каковы различные способы выполнения кластеризации. Он находит приложения для обучения без присмотра в большой нет. доменов. Вы также увидели, как можно повысить точность своего алгоритма машинного обучения с использованием кластеризации.

Несмотря на то, что кластеризация проста в реализации, вам необходимо позаботиться о некоторых важных аспектах, таких как обработка выбросов в ваших данных и обеспечение достаточной численности каждого кластера. Предлагаемый метод имеет такие преимущества, как быстрый доступ к данным, статистика использования пространства облачного хранилища, масштабируемость и помощь в добыче больших наборов данных, которые неоднородны по своей природе. Дальнейшие работы для предложенной модели – применить другие алгоритмы кластеризации в облачном хранилище и сравнить результаты, чтобы найти лучший алгоритм кластеризации для облачного хранилища.

Зарегистрируйся, чтобы продолжить изучение работы

    Поделиться сочинением
    Ещё сочинения
    Нет времени делать работу? Закажите!

    Отправляя форму, вы соглашаетесь с политикой конфиденциальности и обработкой ваших персональных данных.