nine-it
msgbartop
msgbarbottom

26 Фев 10 Вага слова в колекції текстів (TF-IDF)

Вага слова в колекції текстів (TF-IDF)

TF-IDF (від англ. TF – term frequency, IDF – inverse document frequency) – статистична міра, яка використовується для оцінки важливості слова в контексті документа, який є частиною колекції документів або корпусу. Вага деякого слова пропорційна кількості вживання цього слова в документі, і обернено пропорційна частоті вживання слова в інших документах колекції.
Міра TF-IDF часто використовується в задачах аналізу текстів та інформаційного пошуку, наприклад, як один із критеріїв релевантності документа пошуковому запиту, при розрахунку міри близькості документів при кластеризації.

Структура формули

TF (term frequency – частота слова) – відношення числа входження деякого слова до загальної кількості слів документа. Таким чином, оцінюється важливість слова ti в межах окремого документа.

Вага слова - TF (term frequency - частота слова) формула

де ni є число входжень слова в документ, а в знаменнику – загальна кількість слів у даному документі.
IDF (inverse document frequency – зворотня частота документа) – інверсія частоти, з якою деяке слово містяться в документах колекції. Врахування IDF зменшує вагу частовживаних слів.

Вага слова - IDF (inverse document frequency - зворотня частота документа) - формула

, де
| D | – кількість документів в корпусі;
Кількість документів, в яких зустрічається – Кількість документів, в яких зустрічається ti (коли n(i)!=0).
Таким чином, міра TF-IDF є добутком двох співмножників: TF і IDF.
Велику вагу в TF-IDF отримають слова з високою частотою в межах конкретного документа і з низькою частотою вживань в інших документах.

Числове застосування

Існують різні формули, засновані на методі TF-IDF. Вони відрізняються коефіцієнтами, нормування, використанням логаріфмірованних шкал. Зокрема, пошукова система Яндекс довгий час використовувала нормування по самому частотному терміну в документі.
Однією з найбільш популярних формул є формула BM25.

Приклад

Якщо документ містить 100 слів і слово «заєць» зустрічається в ньому 3 рази, то частота слова (TF) для слова «заєць» в документі буде 0,03 (3/100). Один з варіантів обчислення частоти документа (IDF) визначається як кількість документів містять слово «заєць», розділена на кількість всіх документів. Таким чином, якщо «заєць» міститься в 1000 документах з 10 000 000 документів, то частота документа (DF) буде рівна 0,0001 (1000/10000000). Для розрахунку остаточного значення ваги слова необхідно розділити TF на DF (або помножити на IDF). У даному прикладі, TF-IDF вагу для слова «заєць» в колекції документів буде 300 (0,03 / 0,0001).

Застосування в моделі векторного простору

Міра TF-IDF часто використовується для подання документів колекції у вигляді числових векторів, що відображають важливість використання кожного слова з певного набору слів (кількість слів набору визначає розмірність вектора) у кожному документі. Подібна модель називається векторною моделлю (VSM) і дає можливість порівнювати тексти, порівнюючи вектори, які їх представляють в будь-якій метриці (евклідова відстань, косінусна міра, відстань Чебишева та ін), тобто виконуючи кластерний аналіз.

Схожі пости на блозі

  • 130 параметрів алгоритму ранжирування сайтів від Google
    На що Google звертає увагу при ранжуванні сайтів? Чому цей пошукач є найпопулярнішим у світі і займає величезну частку ринку?  Search Engine Journal зібрав 130 з 200 факторів, що враховуються в ранжуванні сайтів. Це не повний список, але для першого оз...
  • Яндекс обновив морфологічний аналізатор
    Однією з задач комп'ютерної лінгвістики є визначення словникової форми слова. Для вирішення цього завдання Яндекс в 2006 році випустив для некомерційного використання морфологічний аналізатор російської мови mystem. Це невелика консольна програма, яка вир...
  • Додаємо свої пошукові системи в google chrome
    Що мені подобається в Google Chrome, так це можливість дуже зручної роботи з різними пошуковими системами: ввів ключове слово, пробіл і друкуєш запит. Однак цією функцією користуються на 100% далеко не всі. Сьогодні я хочу розповісти, як додавати св...

Теги: , , , , , , , ,

Прокоментуй!

(Обов’язково)
(Обов’язково, не публікується)