TF-IDF (від англ. TF – term frequency, IDF – inverse document frequency) – статистична міра, яка використовується для оцінки важливості слова в контексті документа, який є частиною колекції документів або корпусу. Вага деякого слова пропорційна кількості вживання цього слова в документі, і обернено пропорційна частоті вживання слова в інших документах колекції.
Міра TF-IDF часто використовується в задачах аналізу текстів та інформаційного пошуку, наприклад, як один із критеріїв релевантності документа пошуковому запиту, при розрахунку міри близькості документів при кластеризації.
TF (term frequency – частота слова) – відношення числа входження деякого слова до загальної кількості слів документа. Таким чином, оцінюється важливість слова ti в межах окремого документа.
![]()
де ni є число входжень слова в документ, а в знаменнику – загальна кількість слів у даному документі.
IDF (inverse document frequency – зворотня частота документа) – інверсія частоти, з якою деяке слово містяться в документах колекції. Врахування IDF зменшує вагу частовживаних слів.

, де
| D | – кількість документів в корпусі;
– Кількість документів, в яких зустрічається ti (коли
).
Таким чином, міра TF-IDF є добутком двох співмножників: TF і IDF.
Велику вагу в TF-IDF отримають слова з високою частотою в межах конкретного документа і з низькою частотою вживань в інших документах.
Існують різні формули, засновані на методі TF-IDF. Вони відрізняються коефіцієнтами, нормування, використанням логаріфмірованних шкал. Зокрема, пошукова система Яндекс довгий час використовувала нормування по самому частотному терміну в документі.
Однією з найбільш популярних формул є формула BM25.
Якщо документ містить 100 слів і слово «заєць» зустрічається в ньому 3 рази, то частота слова (TF) для слова «заєць» в документі буде 0,03 (3/100). Один з варіантів обчислення частоти документа (IDF) визначається як кількість документів містять слово «заєць», розділена на кількість всіх документів. Таким чином, якщо «заєць» міститься в 1000 документах з 10 000 000 документів, то частота документа (DF) буде рівна 0,0001 (1000/10000000). Для розрахунку остаточного значення ваги слова необхідно розділити TF на DF (або помножити на IDF). У даному прикладі, TF-IDF вагу для слова «заєць» в колекції документів буде 300 (0,03 / 0,0001).
Міра TF-IDF часто використовується для подання документів колекції у вигляді числових векторів, що відображають важливість використання кожного слова з певного набору слів (кількість слів набору визначає розмірність вектора) у кожному документі. Подібна модель називається векторною моделлю (VSM) і дає можливість порівнювати тексти, порівнюючи вектори, які їх представляють в будь-якій метриці (евклідова відстань, косінусна міра, відстань Чебишева та ін), тобто виконуючи кластерний аналіз.
Теги: internet, man, seo, yandex, аналіз слів, дублікати текстів, наука, пошук, формули