В мире существуют кучи поисковиков. Яндекс Гугл и прочие. Так вот возникла необходимость создать свой небольшой поисковик.

Кто нибудь видел описания алгоритмов индексации? Понятное дело что что-то похожее на яндекс и гугл не сделать, но мне это и не нужно :)

Первое что приходит в голову рекурсивно обойти страницы, выкинуть хтмл, знаки препинания, слишком короткие слова.

Но как выкинуть например элементы дизайна? На каждой странице есть менюшки, счетчики и всякая прочая фигня. Как её вырезать чтобы она не забивала поиск?

Как выбрать из страницы только смысл? Хотябы направление по которому идти где нибудь описано? :)