Вчені пристосували пошуковий сервіс Google для проведення масштабних лінгвістичних досліджень. З його допомогою фахівці, використовуючи 5 мільйонів відсканованих книг, змогли простежити еволюцію мови за останні 200 років. Стаття фахівців опублікована в журналі Science, а коротко про роботу пише New Scientist.
(далее…)
Теги: google, Ngrams, дослідження, лінгвістика
У роботі дається порівняльне експериментальне дослідження найбільш популярних сучасних методів виявлення нечітких дублікатів для текстових документів. Наводиться кількісна оцінка показників повноти, точності і F-міри. Набір текстів, використаний в експериментах – це веб-колекція РОМІП. Запропоновано два нових алгоритму, що мають високі показники якості.
Теги: yandex, аналіз, аналіз текстів, дублікати, майже дублікати
TF-IDF (від англ. TF – term frequency, IDF – inverse document frequency) – статистична міра, яка використовується для оцінки важливості слова в контексті документа, який є частиною колекції документів або корпусу. Вага деякого слова пропорційна кількості вживання цього слова в документі, і обернено пропорційна частоті вживання слова в інших документах колекції.
Міра TF-IDF часто використовується в задачах аналізу текстів та інформаційного пошуку, наприклад, як один із критеріїв релевантності документа пошуковому запиту, при розрахунку міри близькості документів при кластеризації.
(далее…)
Теги: internet, man, seo, yandex, аналіз слів, дублікати текстів, наука, пошук, формули