?

Log in

No account? Create an account
Интересно - Konstantin Savenkov [entries|archive|friends|userinfo]
Konstantin Savenkov

[ website | My Website ]
[ userinfo | livejournal userinfo ]
[ archive | journal archive ]

Интересно [Dec. 5th, 2006|01:17 pm]
Konstantin Savenkov
[Tags|]

Можно ли построить систему учёта индекса цитируемости/pagerank примерно следующим образом:

1. Берём составленный вручную каталог сайтов.
2. По нему автоматически производим кластеризацию ключевых слов по разделам каталога (путём анализа содержимого сайтов).
3. Далее при помощи какого-нибудь вероятностного классификатора "размазываем" проиндексированные сайты (на входящие в каталог) по кластерам.
4. Далее считаем pagerank примерно так: Если сайт, который на 80% относится к классу А, ссылается на сайт, который на 60% относится к классу А, то присваиваем этой ссылке рейтинг 0.8*0.6.
5. Далее устанавливаем нижний предел учёта ссылки в 0.2 по каждому из классов, и суммируем рейтинги ссылок на сайт. А можно лимитировать не нижний предел результата, а учитывать только ссылки С сайтов, относящихся не менее чем на 0.2 к данному классу.
6. А при поиске по ключевым словам можно считать "вероятность" отнесения введённых ключевых слов к каждому из выделенных классов, и считать релевантность страницы с учетом этого класса и рейтинга страницы в каждом из классов.


Очевидно, здесь нужен вменяемый механизм кластеризации, но такая система существенно усложнила бы "накручивание" pagerank.
LinkReply

Comments:
[User Picture]From: kstoor
2006-12-06 01:57 pm (UTC)
Это все хорошо в предположении, что

а) рубрикатор, взятый за основу, дивно хорош тем, что сайты внутри рубрики действительно семантически однородны

б) и семантические ядра рубрик слабо коррелированы,

в) а новые рубрики никогда не понадобятся.

А вообще в идее pagerank заложено внутреннее противоречие -- мы пытаемся одномерным параметром описать принципиально многомерную конструкцию (важен кто -- важен для кого -- важен чем и пр.). Мне кажется, что реальное использование этого параметра много сложнее, чем изображают популярные схемы, и что его значение довольно быстро будет снижаться.

Кстати, вот практический вопросик. Какие параметры можно использовать для интегральной оценки эффективности работы по seo сайта? Я придумал пока два: суммарный внешний pagerank всех страниц сайта и средняя позиция для подмножества запросов.
(Reply) (Thread)
[User Picture]From: savenkov
2006-12-06 02:16 pm (UTC)
Да почему, при помощи нечёткой классификации схема будет работать при любой степени пересечения семантических ядер. А при добавлении новых рубрик всё легко переклассифицируется. На самом деле, как мне разъяснили специалисты, в гугле оно всё так примерно и работает.

Я могу предположить параметры, но вышеуказанные специалисты меня, боюсь заклюют :-)
Ну посещаемость всё же важна :-) Но такие показатели плохи тем, что они учитывают pagerank и позиции, но ничего не говорят о том, пересекается ли множество заходящих на сайт с его целевой аудиторией. Надо ставить штуку, которая хорошо анализирует пути по сайту, returning visitors и прочая, прочая, и на основе этих данных делать показатели эффективности пиара сайта вообще.
(Reply) (Parent) (Thread)
[User Picture]From: kstoor
2006-12-06 02:56 pm (UTC)
>>На самом деле, как мне разъяснили специалисты, в гугле оно всё так примерно и работает.

Я тоже это хотел написать, но постеснялся ;) Наверно, все очевидные (и даже не самые очевидные) идеи в гугле уже давно реализованы. Но какой именно рубрикатор мог взять за основу гугл? Зная ответ на этот вопрос, можно многое сделать в плане той же накрутки своего пейджранка.

>>Я могу предположить параметры, но вышеуказанные специалисты меня, боюсь заклюют :-)

А ты тихонечко ;) На самом деле там ключевое слово было -- "оценка эффективности работы". Т. е. посещаемость, конечно, анализируется, но специфика конкретной задачи такова, что сейчас до 90% посетителей обеспечиваются платной рекламой на Yahoo, а позиции по основным запросам -- в середине первой сотни. Поэтому "бесплатная" посещаемость низкая, а учитывая ее подверженность сезонным колебаниям (сайт турфирмы) -- на нее трудно ориентироваться как на показатель эффективности работы. И вот, скажем, шаблоны сайта переверстываются (меньше таблиц, больше css -- вес документов снижен на 5-10%). Дает ли это какой-то эффект в плане seo? Дать ответ, глядя на посещаемость, практически невозможно.
(Reply) (Parent) (Thread)