nine-it
msgbartop
блоґ веб розробника
msgbarbottom

01 Июн 10 Порівняльний аналіз методів визначення нечітких дублікатів для Web-документів

Порівняльний аналіз методів визначення нечітких дублікатів для Web-документів

Анотація

У роботі дається порівняльне експериментальне дослідження найбільш популярних сучасних методів виявлення нечітких дублікатів для текстових документів. Наводиться кількісна оцінка показників повноти, точності і F-міри. Набір текстів, використаний в експериментах – це веб-колекція РОМІП. Запропоновано два нових алгоритму, що мають високі показники якості.

(далее…)

Теги: , , , ,

03 Мар 10 Яндекс обновив морфологічний аналізатор

Яндекс обновив морфологічний аналізатор

Однією з задач комп’ютерної лінгвістики є визначення словникової форми слова. Для вирішення цього завдання Яндекс в 2006 році випустив для некомерційного використання морфологічний аналізатор російської мови mystem. Це невелика консольна програма, яка виробляє морфологічний аналіз слів, причому як відомих словнику, так і невідомих.

(далее…)

Теги: , ,

26 Фев 10 Вага слова в колекції текстів (TF-IDF)

Вага слова в колекції текстів (TF-IDF)

TF-IDF (від англ. TF – term frequency, IDF – inverse document frequency) – статистична міра, яка використовується для оцінки важливості слова в контексті документа, який є частиною колекції документів або корпусу. Вага деякого слова пропорційна кількості вживання цього слова в документі, і обернено пропорційна частоті вживання слова в інших документах колекції.
Міра TF-IDF часто використовується в задачах аналізу текстів та інформаційного пошуку, наприклад, як один із критеріїв релевантності документа пошуковому запиту, при розрахунку міри близькості документів при кластеризації.
(далее…)

Теги: , , , , , , , ,