Что такое меры сходства? сочинение пример

ООО "Сочинения-Про"

Ежедневно 8:00–20:00

Санкт-Петербург

Ленинский проспект, 140Ж

magbo system

Сочинение на тему Что такое меры сходства?

Семантическое сходство

Семантическое сходство – это метрика, определяемая на основе набора документов или терминов, где идея расстояния между ними основана на сходстве их значения или семантического содержания, а не на сходстве, которое можно оценить в отношении их синтаксического представления (например, их формат строки). Это математические инструменты, используемые для оценки силы семантических отношений между единицами языка, концепциями или примерами посредством числового описания, полученного в результате сравнения информации, подтверждающей их значение или описывающей их природу.

Сходство субъективно и сильно зависит от области и приложения. Например, два плода похожи по цвету, размеру или вкусу. Следует соблюдать осторожность при расчете расстояния между размерами / элементами, которые не связаны. Относительные значения каждого элемента должны быть нормализованы, иначе один объект может оказаться доминирующим в расчете расстояния. Сходства измеряются в диапазоне от 0 до 1 [0,1].

Меры сходства

Мера сходства – это мера того, насколько похожи два объекта данных. Мера сходства в контексте интеллектуального анализа данных – это расстояние между точками измерений, представляющими особенности объектов. Если это расстояние мало, это будет высокая степень сходства, тогда как большое расстояние будет иметь низкую степень сходства.

Мера сходства также известна как функция сходства, которая представляет собой действительную функцию, которая количественно определяет сходство между двумя объектами. Хотя не существует единого определения меры сходства, обычно такие меры в некотором смысле являются обратными метрикам расстояния: они принимают большие значения для похожих объектов и либо ноль, либо отрицательное значение для очень разнородных объектов.

Сходство между двумя документами или документом и условиями запроса. Мера сходства может использоваться для вычисления сходства между двумя документами, двумя запросами или одним документом и одним запросом.

Ранжирование документов: оценка степени сходства может использоваться для ранжирования документов.

Все алгоритмы кластеризации используют сходство или так называемые «функции расстояния» для определения членов кластера. Немногие из самых популярных мер сходства обсуждаются в следующих подразделах.

Евклидово расстояние

Это стандартная метрика для геометрических задач. Это обычное расстояние между двумя точками, и его можно легко измерить линейкой в ​​двух- или трехмерном пространстве. Евклидово расстояние широко используется в задачах кластеризации, включая кластеризацию текста. Это также мера расстояния по умолчанию, используемая с алгоритмом K-средних. Измерение расстояния между текстовыми документами: даны два документа, da и db, представленные их векторами терминов ta и tb соответственно. Евклидово расстояние двух документов определяется как:

Где набор терминов: T = {t1, t2, ..… .., tn} В этом расчете Wt, a = tf-idf (da, t)

Евклидово расстояние – наиболее распространенное использование расстояния. В большинстве случаев, когда люди говорят о расстоянии, они ссылаются на евклидово расстояние. Евклидово расстояние также называется просто расстоянием. Когда данные плотные или непрерывные, это лучшая мера близости.

Манхэттенское расстояние

Манхэттенское расстояние – это метрика, в которой расстояние между двумя точками является суммой абсолютных разностей их декартовых координат. Проще говоря, это общая сумма разности между координатами x и y.

Предположим, у нас есть две точки A и B, если мы хотим найти расстояние между ними на Манхэттене, просто мы имеем, чтобы подвести итог, абсолютное изменение оси x и оси y означает, что мы должны найти, как эти две точки A и B меняются по оси X и оси Y. В более математической форме можно сказать, что манхэттенское расстояние между двумя точками измеряется вдоль осей под прямым углом.

В плоскости с p1 в точке (x1, y1) и p2 в точке (x2, y2), расстояние до Манхэттена = | x1 – x2 | + | y1 – y2 |

Эта метрика расстояния Манхэттена также известна как длина Манхэттена, прямолинейное расстояние, расстояние L1 или норма L1, расстояние городского квартала, показатель такси или расстояние городского квартала.

Косинусное сходство

Косинусное сходство – это мера сходства между двумя векторами внутреннего пространства произведений, которое измеряет косинус угла между ними.

Показатель косинусного сходства находит нормализованное скалярное произведение двух атрибутов. Определяя косинусное сходство, мы эффективно попытались бы найти косинус угла между двумя объектами. Косинус 0 ° равен 1, и он меньше 1 для любого другого угла.

Таким образом, это оценка ориентации, а не величины: два вектора с одинаковой ориентацией имеют косинусное сходство 1, два вектора под углом 90 ° имеют сходство 0, а два диаметрально противоположных вектора имеют сходство -1, не зависит от их величины.

Косинусное сходство особенно используется в положительном пространстве, где результат аккуратно ограничен в [0,1]. Одна из причин популярности косинусного сходства заключается в том, что его очень эффективно оценивать, особенно для разреженных векторов.

Коэффициент Жакара

Коэффициент Жакара используется для измерения сходства между наборами, и его можно рассчитать путем деления размера пересечения на размер объединения множеств:

До сих пор мы обсуждали некоторые метрики, чтобы найти сходство между объектами. где объекты являются точками или векторами. Когда мы думаем о сходстве Жакара, этот объект будет множеством. Итак, сначала давайте познакомимся с основами.

Набор – это (неупорядоченный) набор объектов {a, b, c}. мы используем обозначения как элементы, разделенные запятыми внутри фигурных скобок {}. Они неупорядочены, поэтому {a, b} = {b, a}.

Мощность A обозначается через | A | который считает, сколько элементов в A.

Пересечение между двумя наборами A и B обозначается A ∩ B и выявляет все элементы, которые находятся в обоих наборах A, B.

Объединение между двумя наборами A и B обозначается A ∪ B и раскрывает все элементы, которые находятся в любом наборе.

Коэффициент Жакара измеряет сходство между конечными наборами выборок и определяется как мощность пересечения множеств, деленная на мощность объединения наборов выборок. Предположим, вы хотите найти сходство Жакара между двумя множествами A и B, это соотношение мощности A ∩ B и A ∪ B

<Р> Jaccard

Сходство J (A, B) = A ∩ B / A ∪ B

Для расчета сходства между запросом и данным документом с использованием коэффициента Джакарда

Зарегистрируйся, чтобы продолжить изучение работы

    Поделиться сочинением
    Ещё сочинения
    Нет времени делать работу? Закажите!

    Отправляя форму, вы соглашаетесь с политикой конфиденциальности и обработкой ваших персональных данных.