Сочинение на тему Улучшение кластеризации данных с использованием гравитационного алгоритма PSO

Опубликовано: 25.08.2020
Предмет: Наука
Темы: Сила тяжести, физика

<Р> Абстрактный

В последние годы кластеризация данных метаэвристическим методом становится популярной в области интеллектуального анализа данных. Все эти методы страдают от проблемы оптимизации, которая рассматривается в этой статье. Проблема возникает, когда кластерные центроиды происходят от особи населения (частицы в этой статье) не играют роли центра кластера. Мы используем закон гравитации, чтобы решить эту проблему. После того, как данные каждой кластеризации частиц, центроиды перемещаются к центру масс данных в кластере желаний по закону гравитации. В законе гравитации обрабатывают все данные в кластере, чтобы заставить центроид кластера переместить их в центр масс кластера. Частицы оцениваются после этого улучшения с помощью выбранного внутреннего индекса проверки кластеризации (CVI). Мы изучили некоторые CVI и обнаружили, что Xu, Du и WB являются наиболее точными CVI. Предлагаемый метод по сравнению с некоторыми методами кластеризации включает методы кластеризации Роя частиц и знакомые методы кластеризации по индексу Жакара. Результат показывает, что наш метод работает более точно.

<Р> Введение

Цель кластеризации – объединить одни и те же образцы в кластер и разные образцы в разных кластерах. Различные методы были предложены для кластеризации данных. Эти методы делятся на разные ветви. В качестве основных методов кластеризации могут использоваться методы разделения, иерархического, плотного и сетевого подходов. Методы разбиения считаются многими, и самый популярный метод кластеризации – это метод среднего значения (Jain, 2010). Метод K-средних имеет ряд недостатков, самым основным из которых является то, что каждая целевая функция не может быть использована, есть возможность получить локальную оптимуму, и число кластеров должно быть указано с самого начала. Целевая функция K-Means учитывает только расстояние внутри кластера, но не заботится о расстоянии между кластерами. С другой стороны, были введены многие индексы достоверности кластеров (CVI), которые учитывают как межкластерное расстояние, так и межкластерное расстояние. Таким образом, мы можем использовать эти CVI в качестве целевой функции метода кластеризации для первой проблемы, упомянутой выше. Для второй проблемы мы можем использовать общий оптимизатор, который редко застревает в локальной оптиме. Если оптимизатор может выбрать наилучшее количество кластеров в соответствии с целевой функцией, последняя проблема решается. Метаэвристические методы, такие как Оптимизация роя частиц (PSO) (van der Merwe & Engelbrecht, 2003) и его вариации (Cura, 2012; Valente de Oliveira, Szabo, & de Castro, 2017), Генетический алгоритм (GA) (Maulik & Bandyopadhyay, 2000) и его вариации, «Оптимизация пчелиных семей (ACO)» (Ozturk, Hancer, & Karaboga, 2015; Yan, Zhu, Zou, & Wang, 2012) и Алгоритм гравитационного поиска (GSA) (Dowlatshahi & Nezamabadi-pour, 2014). предложил для этих проблем. Все эти методы страдают от другой проблемы, которую мы рассмотрели в этой статье.

Проблема возникает, когда центроиды кластера от отдельного населения не играют роли центров кластера. Например, на рис. 1 вы можете видеть 3 кластера и 2 типа центроидов (квадраты и круги), которые извлекаются из 2 разных частиц в PSO. Если мы используем эти частицы, результат кластеризации двух частиц точно одинаков, но области двух частиц различны. Это означает, что частицы, делающие определенную кластеризацию, могут получить различную пригодность, и это вызывает некоторую проблему в оптимизации. Эта проблема влияет на разнообразие населения даже на разведку и эксплуатацию оптимизатора.

1-2 шт.

Базовая форма алгоритма PSO была введена в (Kennedy & Eberhart, 1995) и позже изменена в (Shi & Eberhart, 1998). В алгоритме рой S частиц случайным образом летит через N-мерное пространство поиска, где положение каждой частицы представляет потенциальное решение задачи оптимизации. Каждая частица p с текущим положением xp и текущей скоростью vp до сих пор помнит свое личное решение, bp. Рой помнит лучшее решение, достигнутое в мире, bS. Частицы испытывают притяжение к лучшим решениям, и через некоторое время рой обычно сходится к оптимальному.

Из-за своей стохастической природы PSO может избежать некоторых локальных оптимумов. Однако для основной формы алгоритма PSO преждевременная сходимость к локальному оптимуму является распространенной проблемой. Таким образом, были введены несколько модификаций или расширений базовой формы (Poli, Kennedy, & Blackwell, 2007), например, «Возмущенный PSO» (Xinchao, 2010), «Orthogonal Learning PSO» (Zhan, Zhang, Li, & Shi, 2011), или различные топологии локального соседства, например, полностью информированный PSO (Mendes, Kennedy, & Neves, 2004).

В кластеризации, как и в других приложениях PSO, положение каждой частицы должно представлять потенциальное решение проблемы. Чаще всего это реализуется путем кодирования положения частицы p как xp = {mp, 1,…, mp, j,…, mp, K}, где mp, j представляет j-й (потенциальный) центроид кластера в N-мерном пространстве. пространство данных, а K – номера кластеров. Каждый элемент K-мерной позиции частицы, xp, теперь является N-мерной позицией в пространстве данных. Кроме того, было предложено другое кодирование частиц, такое как кодирование на основе разделов (Jarboui, Cheikh, Siarry & Rebai, 2007), где каждая частица представляет собой вектор из n целых чисел, n – это число элементов данных, которые должны быть сгруппированы, и i-й элемент представляет метку кластера, назначенную элементу i, i ∈ {1,…, n}.

Основным ограничением предложенного метода была необходимость вручную определять номера кластеров, K, априорных. Другой метод кластеризации, предложенный в (Omran, Salman, & Engelbrecht, 2006), преодолел это ограничение с помощью двоичного PSO, чтобы выбрать, какой из потенциальных центроидов частиц должен быть включен в окончательное решение, но в этом методе алгоритм K-средних использовался для уточнить позиции центроидов.

Кодирование частиц, используемое для кластеризации PSO, было предложено в (Das, Abraham, & Konar, 2008). При заданном пользователем максимальном количестве кластеров, Kmax, положение частицы p кодируется как вектор Kmax + Kmax * N xp = {Tp, 1,…, Tp, kmax, mp, 1,…, mp, j,… , mp, Kmax}, где Tp, j, j∈ {1,…, Kmax} – порог активации в диапазоне [0, 1], а mp, j – j-й (потенциальный) центр тяжести кластера. Если Tp, j> 0,5, соответствующий j-й центроид включается в решение. В противном случае кластер, определенный j-м центроидом, неактивен. Минимальный номер кластера определен как два. Если в растворе менее двух активных кластеров, один или два случайно выбранных порога активации, Tp, j <0,5, повторно инициализируются до случайного значения в диапазоне [0,5, 1]. В нашей реализации, аналогично (Xu, Xu, & Wunsch, 2010), мы также деактивируем любой кластер, имеющий менее двух элементов, устанавливая порог его активации на случайное значение в диапазоне [0, 0,5], а затем проверяем, условие на минимальное количество кластеров все еще выполняется.

1-3 гравитационная кластеризация

В статье представлен метод (Bahrololoum, Nezamabadi-Pour, & Saryazdi, 2015), в котором для кластеризации использовался закон всемирного тяготения Ньютона. Предполагается, что каждая точка данных, Xi = (Xi, 1,…, Xi, n), расположена в N-мерном пространстве, где N – число признаков. Кластеры компактны, и точечный представитель (центроид) используется для представления каждого кластера. Основная идея в предлагаемом алгоритме состоит в том, чтобы рассматривать подвижный гравитационный объект (агент) как центр тяжести кластера, а каждую точку данных – как неподвижный гравитационный объект. В этой гравитационной системе неподвижные объекты прикладывают силу гравитации к агентам и изменяют свои позиции в пространстве признаков. Мы ожидаем получить оптимальные положения для кластерных центроидов, когда силы, приложенные к агентам, приближаются к нулю. Алгоритм может справляться с зашумленными данными и выбросами и имеет хорошую производительность для работы с несбалансированными группами. Это связано с законом тяготения Ньютона, в котором сила тяжести между двумя объектами обратно пропорциональна квадрату расстояния между ними. Таким образом, зашумленные точки данных и выбросы, которые находятся далеко от групп, оказывают меньшее влияние на изменение положения кластерных центроидов (агентов). Смещение агента (движение центроида) пропорционально значению общей силы, действующей на агента неподвижными объектами. Ожидается, что агенты движутся к центру тяжести и останавливаются в области, где поле силы тяжести приближается к нулю. Следует отметить, что неподвижным объектам запрещено применять силу друг к другу.

2- Предлагаемый метод

Предлагаемый метод объединяет PSC и гравитационную кластеризацию для решения проблемы, упомянутой в предыдущем разделе. Метод улучшает каждую частицу в PSO, используя гравитационный закон, чтобы гарантировать, что частицы, которые группируют данные в одинаковые кластеры, дают одинаковую пригодность и одинаковое положение.

Алгоритм начинается с нескольких случайных частиц. Структура частиц предназначена для оптимизации целевой функции наряду с количеством кластеров (рис. 2). После инициализации алгоритм декодирует каждую частицу и извлекает центроиды. Данные сгруппированы по центроиду, извлечены из частиц. Теперь алгоритм использует преимущества гравитационного закона. Каждый кластер имеет кластерный центроид, который играет роль агента в гравитационной кластеризации. Все данные в кластере заставляют агента и агента двигаться в направлении данных. Сила каждого из данных для агента рассчитывается по формуле 1 в каждой итерации.

μ (t + 1) ← μ (t) + txj-μ (t) ‖xj-μ (t) ‖2, ∈x∈C

Где вектор центроида, это коэффициент дисконтирования, который контролирует скорость агента, xj – это j-е данные в кластере. После некоторой итерации агент попадает в место в пространстве данных, суммарная сила которого равна нулю. Эта точка называется центром масс скопления. Вы можете увидеть процесс этой корректировки на рис.2.

После выполнения гравитационного алгоритма скорректированные центроиды кластеров вставляются в частицы и оцениваются по функции пригодности. Мы уверены, что если две или более групп частиц данных в одном кластере, они становятся похожими. Каждая частица обновляет свое положение и скорости по следующей формуле, как PSO.

На рисунке 4 вы видите, что обычный PSO скоро сходится к локальному оптимуму, однако, когда мы используем гравитационную кластеризацию для улучшения частиц, он исследует больше.

Зарегистрируйся, чтобы продолжить изучение работы

Поделиться сочинением

Ещё сочинения

Завод Фукусима Дайхатсу

30.10.2020 Комментариев нет

Есть несколько разных циклов, вокруг которых вращается Земля. Некоторые из циклов были затронуты катастрофой Фукусима-Дайхатсу. Завод в Фукусиме пострадал от землетрясения силой 9,0 балла. Растения,

Читать полностью »

Акт трения: определение и измерение

30.10.2020 Комментариев нет

Трение – это сила, которая приводит к предотвращению движения объекта. Трение повсюду, когда один объект вступает в контакт с другим, возникает трение. Сила действует в

Читать полностью »

Тиристор – тип диода

29.10.2020 Комментариев нет

Тиристор – это тип диода, который позволяет току течь тогда и только тогда, когда на его клемму затвора подается управляющее напряжение. Этот вид диода имеет

Читать полностью »