Term Frequency - обратная частота документов в корпусе документов сочинение пример

ООО "Сочинения-Про"

Ежедневно 8:00–20:00

Санкт-Петербург

Ленинский проспект, 140Ж

magbo system

Сочинение на тему Term Frequency – обратная частота документов в корпусе документов

TF – IDF означает Term Frequency – Inverse Frequency для документа, используя этот TF-IDF вес документа, рассчитывается. Это числовая статистика, предназначенная для отражения того, насколько важно слово для документа в коллекции или корпусе. Он часто используется в качестве весового коэффициента при поиске информации, поиске текста и моделировании пользователей. Вес TF-IDF рассчитывается двумя терминами:

TF: Term Frequency

(TF), который измеряет, как часто термин встречается в документе. Поскольку каждый документ имеет разную длину, возможно, что термин в длинных документах встречается гораздо чаще, чем в более коротких. Таким образом, термин «частота» часто делится на длину документа в качестве способа нормализации. Предположим, у нас есть набор текстовых документов на английском языке и мы хотим определить, какой документ больше всего соответствует запросу, «коричневая корова». Простой способ начать – исключить документы, которые не содержат всех трех слов «the», «brown» и «cow», но при этом остается много документов. Чтобы дополнительно различать их, мы могли бы подсчитать, сколько раз каждый термин встречается в каждом документе; количество раз, когда термин встречается в документе, называется его частотой. Однако в случае, когда длина документов сильно различается, часто вносятся корректировки (см. Определение ниже).

Первая форма взвешивания терминов обусловлена ​​Хансом Питером Луном (1957), который можно обобщить так: Вес термина, встречающегося в документе, просто пропорционален частоте термина. [3] TF (t) = (Количество раз, когда термин t появляется в документе) / (Общее количество терминов в документе).

IDF: обратная частота документов

(IDF), который измеряет, насколько важен термин. При вычислении TF все термины считаются одинаково важными. Однако известно, что определенные термины, такие как «есть», «из» и «это», могут встречаться много раз, но не имеют большого значения. Таким образом, нам нужно взвесить частые термины, а затем увеличить редкие, вычисляя следующее: поскольку термин «the» является настолько распространенным, термин «частота» будет иметь тенденцию неправильно подчеркивать документы, в которых слово «the» встречается чаще. без придания достаточного веса более значимым терминам «коричневый» и «корова». Термин «не» не является хорошим ключевым словом для различения релевантных и не относящихся к делу документов и терминов, в отличие от менее распространенных слов «коричневый» и «корова». Следовательно, включен коэффициент частоты обратного документа, который уменьшает вес терминов, которые встречаются очень часто в наборе документов, и увеличивает вес терминов, которые встречаются редко. Карен Спарк Джонс (Karen Spärck Jones, 1972) разработал статистическую интерпретацию термина «специфичность», называемую «Частота обратных документов» (IDF), которая стала краеугольным камнем взвешивания терминов.

Специфика термина может быть определена количественно как обратная функция количества документов, в которых он встречается. [4] IDF (t) = log_e (общее количество документов / количество документов с термином t в нем).

WHOIS: WHOIS – это протокол запросов и ответов, который широко используется для запросов к базам данных, в которых хранятся зарегистрированные пользователи или правопреемники интернет-ресурса, такого как доменное имя, блок IP-адреса или автономная система, но также используется для более широкого спектра другой информации. Протокол хранит и доставляет содержимое базы данных в удобочитаемом формате.

Поиск фишингового сервера:

     

  • URL – это не что иное, как IP-адрес.
  •  

  • Используя IP-адрес, наша система найдет фишинговый сервер.
Зарегистрируйся, чтобы продолжить изучение работы

    Поделиться сочинением
    Ещё сочинения
    Нет времени делать работу? Закажите!

    Отправляя форму, вы соглашаетесь с политикой конфиденциальности и обработкой ваших персональных данных.