Yavanosta
18.01.2010, 14:35
В мире существуют кучи поисковиков. Яндекс Гугл и прочие. Так вот возникла необходимость создать свой небольшой поисковик.
Кто нибудь видел описания алгоритмов индексации? Понятное дело что что-то похожее на яндекс и гугл не сделать, но мне это и не нужно :)
Первое что приходит в голову рекурсивно обойти страницы, выкинуть хтмл, знаки препинания, слишком короткие слова.
Но как выкинуть например элементы дизайна? На каждой странице есть менюшки, счетчики и всякая прочая фигня. Как её вырезать чтобы она не забивала поиск?
Как выбрать из страницы только смысл? Хотябы направление по которому идти где нибудь описано? :)
Кто нибудь видел описания алгоритмов индексации? Понятное дело что что-то похожее на яндекс и гугл не сделать, но мне это и не нужно :)
Первое что приходит в голову рекурсивно обойти страницы, выкинуть хтмл, знаки препинания, слишком короткие слова.
Но как выкинуть например элементы дизайна? На каждой странице есть менюшки, счетчики и всякая прочая фигня. Как её вырезать чтобы она не забивала поиск?
Как выбрать из страницы только смысл? Хотябы направление по которому идти где нибудь описано? :)