nine-it
msgbartop
блоґ веб розробника
msgbarbottom

18 Дек 10 Google вивчив еволюцію мови за двісті років

Google вивчив еволюцію мови за двісті років

Вчені пристосували пошуковий сервіс Google для проведення масштабних лінгвістичних досліджень. З його допомогою фахівці, використовуючи 5 мільйонів відсканованих книг, змогли простежити еволюцію мови за останні 200 років. Стаття фахівців опублікована в журналі Science, а коротко про роботу пише New Scientist.
(далее…)

Теги: , , ,

01 Июн 10 Порівняльний аналіз методів визначення нечітких дублікатів для Web-документів

Порівняльний аналіз методів визначення нечітких дублікатів для Web-документів

Анотація

У роботі дається порівняльне експериментальне дослідження найбільш популярних сучасних методів виявлення нечітких дублікатів для текстових документів. Наводиться кількісна оцінка показників повноти, точності і F-міри. Набір текстів, використаний в експериментах – це веб-колекція РОМІП. Запропоновано два нових алгоритму, що мають високі показники якості.

(далее…)

Теги: , , , ,

26 Фев 10 Вага слова в колекції текстів (TF-IDF)

Вага слова в колекції текстів (TF-IDF)

TF-IDF (від англ. TF – term frequency, IDF – inverse document frequency) – статистична міра, яка використовується для оцінки важливості слова в контексті документа, який є частиною колекції документів або корпусу. Вага деякого слова пропорційна кількості вживання цього слова в документі, і обернено пропорційна частоті вживання слова в інших документах колекції.
Міра TF-IDF часто використовується в задачах аналізу текстів та інформаційного пошуку, наприклад, як один із критеріїв релевантності документа пошуковому запиту, при розрахунку міри близькості документів при кластеризації.
(далее…)

Теги: , , , , , , , ,