PDA

Просмотр полной версии : Индексация веб сайтов



Yavanosta
18.01.2010, 13:35
В мире существуют кучи поисковиков. Яндекс Гугл и прочие. Так вот возникла необходимость создать свой небольшой поисковик.

Кто нибудь видел описания алгоритмов индексации? Понятное дело что что-то похожее на яндекс и гугл не сделать, но мне это и не нужно :)

Первое что приходит в голову рекурсивно обойти страницы, выкинуть хтмл, знаки препинания, слишком короткие слова.

Но как выкинуть например элементы дизайна? На каждой странице есть менюшки, счетчики и всякая прочая фигня. Как её вырезать чтобы она не забивала поиск?

Как выбрать из страницы только смысл? Хотябы направление по которому идти где нибудь описано? :)

johnsm123
18.01.2010, 17:56
а есть уже готовые решения по поиковикам
например тоже апи от гугла
получится свой гугл)))

Yavanosta
18.01.2010, 22:11
Мне не нужен свой гугл :)

мне нужно проиндексировать десяток сайтов и по ним искать :)

johnsm123
18.01.2010, 23:30
Мне не нужен свой гугл :)

мне нужно проиндексировать десяток сайтов и по ним искать :)
ну ведь сказал же апи от гугла юзай
теперь даю ссылку http://www.google.com/cse/docs/cref.html
все тот же апи от гугла, т.е. в результате будет посик от гугла по ТВОИМ сайтам
если сам не можешь закажи мне, сделаю за бабки

Yavanosta
19.01.2010, 14:51
Я сам это за бабки делаю :) Сайты не доступны снаружи. Можно заюзать Яндекс.Сервер, но тогда придется вешать логотип яндекса везде и рекламму. А это плохо.

johnsm123
19.01.2010, 14:56
Я сам это за бабки делаю :) Сайты не доступны снаружи. Можно заюзать Яндекс.Сервер, но тогда придется вешать логотип яндекса везде и рекламму. А это плохо.

есть такая гадость как holms это тот же гугл только в сети локальной