?

Log in

No account? Create an account
December 5th, 2006 - Konstantin Savenkov [entries|archive|friends|userinfo]
Konstantin Savenkov

[ website | My Website ]
[ userinfo | livejournal userinfo ]
[ archive | journal archive ]

December 5th, 2006

Мда [Dec. 5th, 2006|12:51 pm]
Konstantin Savenkov
[Tags|]

Всего две недели назад научился прыгать на велосипеде через бордюры и прочие низкорослые препятстви, а ниппель на переднем колесе уже сломался... Наверное, неправильно прыгаю.
LinkLeave a comment

Интересно [Dec. 5th, 2006|01:17 pm]
Konstantin Savenkov
[Tags|]

Можно ли построить систему учёта индекса цитируемости/pagerank примерно следующим образом:

1. Берём составленный вручную каталог сайтов.
2. По нему автоматически производим кластеризацию ключевых слов по разделам каталога (путём анализа содержимого сайтов).
3. Далее при помощи какого-нибудь вероятностного классификатора "размазываем" проиндексированные сайты (на входящие в каталог) по кластерам.
4. Далее считаем pagerank примерно так: Если сайт, который на 80% относится к классу А, ссылается на сайт, который на 60% относится к классу А, то присваиваем этой ссылке рейтинг 0.8*0.6.
5. Далее устанавливаем нижний предел учёта ссылки в 0.2 по каждому из классов, и суммируем рейтинги ссылок на сайт. А можно лимитировать не нижний предел результата, а учитывать только ссылки С сайтов, относящихся не менее чем на 0.2 к данному классу.
6. А при поиске по ключевым словам можно считать "вероятность" отнесения введённых ключевых слов к каждому из выделенных классов, и считать релевантность страницы с учетом этого класса и рейтинга страницы в каждом из классов.


Очевидно, здесь нужен вменяемый механизм кластеризации, но такая система существенно усложнила бы "накручивание" pagerank.
Link3 comments|Leave a comment

navigation
[ viewing | December 5th, 2006 ]
[ go | Previous Day|Next Day ]