ImperatorRUS
Участник
1689
|
отправлено: 17-11-2002 23:43:00 | |
инфо • правка • ссылка • сообщить модератору |
Пиплы, типа назрела задача - надо сделать нормальный поисковик. Причем сбособный искать по принцыпу "слова в пределах предложения" и т.п. В общем - нужны алгоритмы работы поисковиков (индексация и поиск). Варианты типа "юзай стандартные скрипты" прошу не предлагать. Примеры кодов меня тоже интересуют мало - нужны именно алгоритмы. |
|
IP |
|
ImperatorRUS
Участник
1689
|
отправлено: 18-11-2002 00:05:00 | |
инфо • правка • ссылка • сообщить модератору |
To Drеamuchiy Вообще надо сделать каталог ресурсов с поисковиком. Соотвестсвенно поисковик должен индексировать разнотемные сайты. Вроде не первый год программирую, но хоть убей не понимаю, как БЫСТРО можно найти СТОЯЩИЕ РЯДОМ слова, да еще и вывести кусок этого текста (понятно, что текст так-же сохраняется в базе, но все-таки....) |
|
IP |
|
ImperatorRUS
Участник
1689
|
отправлено: 18-11-2002 21:03:00 | |
инфо • правка • ссылка • сообщить модератору |
To Sunflower Я написал КАК это сделать. Если человек в ладах с JS и DHTML, то реализовать это будет Не так уж и сложно. А если он незнает ни того, ни другого.... хм... зачем тогда такие сложности? |
|
IP |
|
wws
Участник
|
отправлено: 18-11-2002 22:59:00 | |
инфо • правка • ссылка • сообщить модератору |
To ImperatorRUS Морфология тоже нужна?Если не нужно то все просто. Текст делишь на предложения и хранишь в базе с точностью до предложения. Для каждого предложения запоминаешь страницу, ресурс и категория в каталоге. Дальше уже дело техники. Определить рядом стоящие слова можно простым запросом и т.д. Дальше придумываешь что-то вроде к-та релевантности. Скажем в качестве поискового запроса ввели фразу из 2 слов. В первой странице 3% предложений содержат фразу, а во второй только 1% - у нее релевантность ниже. Можешь потом еще отдельные слова фразы проверять - если фраза не встречается. Короче придумываешь формулу и по ней потом сортируешь результаты.
|
|
IP |
|
LumLum
Участник
не узнаёшь?...
|
|
wws
Участник
|
отправлено: 19-11-2002 23:05:00 | |
инфо • правка • ссылка • сообщить модератору |
To ImperatorRUS а вот что с морфологией делать? С морфологией тяжело. Тогда нужно для каждого предложения хранить еще 1 копию - где все слова в каком-нибудь стандартном виде - напр. все существительные в единственном числе. Пример: 1) Маша ела кашу 2) Маша есть каша И потом поисковый запрос в такой же вид переводишь и ищешь - а пользователю выдаешь нормальное предложение.Самое сложное - как это преобразовать. Нужен морфоанализатор - программа по преобразованию - реально там просто огромный словарь + правила для неизвестных слов. Лучше это не делать самому, а найти готовое решение.
|
|
IP |
|
ImperatorRUS
Участник
1689
|
отправлено: 20-11-2002 00:49:00 | |
инфо • правка • ссылка • сообщить модератору |
To wws Угу, типа yandex, тока стоит дофига (((. Придется самому лопатить. Пока начнем без морфологии. Огромное спасибо за помощь. |
|
IP |
|
Egor
Virgin Suicider
1010
licq:1010
|
|
wws
Участник
|
отправлено: 20-11-2002 21:49:00 | |
инфо • правка • ссылка • сообщить модератору |
To Egor Мож спереть у яндекса, а не купить Можно, но если ресурс будет довольно популярным это быстро заметят. Кстати говорят эту фишку у яндекса очень плохо покупают. |
|
IP |
|
ImperatorRUS
Участник
1689
|
отправлено: 20-11-2002 23:25:00 | |
инфо • правка • ссылка • сообщить модератору |
To Egor Каталог сейчас имеет до 2000 посещений (! не хитов) в день, при том, что я на него забил год(!) назад. Думаю, яндекс это просечет, да и не охота связыватся, лучше уж все свое. |
|
IP |
|
|