Корисна штука яку треба буде заюзати.
Про використання, установку, історію, … написано в статті.
Стаття: на Хібрі: http://habrahabr.ru/blogs/yii/129804/
Код:
http://code.google.com/p/yii-eauth/downloads/list
Теги: code, extension, Facebook, google, login, OAuth, OpenID, php, Twitter, yandex, yii, ВКонтакте
У роботі дається порівняльне експериментальне дослідження найбільш популярних сучасних методів виявлення нечітких дублікатів для текстових документів. Наводиться кількісна оцінка показників повноти, точності і F-міри. Набір текстів, використаний в експериментах – це веб-колекція РОМІП. Запропоновано два нових алгоритму, що мають високі показники якості.
Теги: yandex, аналіз, аналіз текстів, дублікати, майже дублікати
Однією з задач комп’ютерної лінгвістики є визначення словникової форми слова. Для вирішення цього завдання Яндекс в 2006 році випустив для некомерційного використання морфологічний аналізатор російської мови mystem. Це невелика консольна програма, яка виробляє морфологічний аналіз слів, причому як відомих словнику, так і невідомих.
Теги: soft, yandex, аналіз слів
TF-IDF (від англ. TF – term frequency, IDF – inverse document frequency) – статистична міра, яка використовується для оцінки важливості слова в контексті документа, який є частиною колекції документів або корпусу. Вага деякого слова пропорційна кількості вживання цього слова в документі, і обернено пропорційна частоті вживання слова в інших документах колекції.
Міра TF-IDF часто використовується в задачах аналізу текстів та інформаційного пошуку, наприклад, як один із критеріїв релевантності документа пошуковому запиту, при розрахунку міри близькості документів при кластеризації.
(далее…)
Теги: internet, man, seo, yandex, аналіз слів, дублікати текстів, наука, пошук, формули