Fryazino.NET Forum || Hard&Soft || Как сделать поисковвую систему?
>> Привет, Гость! Войдите! : вход | поиск | правила | банлист
Автор
Как сделать поисковвую систему? (1) 1 для печати | RSS 2.0
ImperatorRUS
Участник
1689
Пиплы, типа назрела задача - надо сделать нормальный поисковик. Причем сбособный искать по принцыпу "слова в пределах предложения" и т.п. В общем - нужны алгоритмы работы поисковиков (индексация и поиск). Варианты типа "юзай стандартные скрипты" прошу не предлагать. Примеры кодов меня тоже интересуют мало - нужны именно алгоритмы.
IP
Drеamuchiy
Участник
To ImperatorRUS
в какой инф. среде ты планируешь осуществлять поиск ?
IP
ImperatorRUS
Участник
1689
To Drеamuchiy
Вообще надо сделать каталог ресурсов с поисковиком. Соотвестсвенно поисковик должен индексировать разнотемные сайты.
Вроде не первый год программирую, но хоть убей не понимаю, как БЫСТРО можно найти СТОЯЩИЕ РЯДОМ слова, да еще и вывести кусок этого текста (понятно, что текст так-же сохраняется в базе, но все-таки....)
IP
ImperatorRUS
Участник
1689
Ну чаго? Никто не умеет их делать, чтоль?
IP
[Asm].ELK`

To ImperatorRUS
Нет только из-зи того что ТЫ спросил
IP
Sunflower
the scorpion
1492
To ImperatorRUS
Делается элементарно (тока влом сам код писать)

Это твоими же словами (вот отсюда: http://web/uboard/Forum8/HTML/001436.html)

IP
delta
Участник
To Sunflower
)))
IP
ImperatorRUS
Участник
1689
To Sunflower
Шутник, блин. Там я расписал что и как. Ладно, найду в и-нете, тут один хрен профессионалов мало.
IP
Sunflower
the scorpion
1492
To ImperatorRUS
Если бы ты там расписал, у меня бы рука не поднялась такую цитату сюда вставить
IP
ImperatorRUS
Участник
1689
To Sunflower
Я написал КАК это сделать. Если человек в ладах с JS и DHTML, то реализовать это будет Не так уж и сложно. А если он незнает ни того, ни другого.... хм... зачем тогда такие сложности?
IP
delta
Участник
To ImperatorRUS
И еще у человека бывают проблемы, когда он так отзывается о других людях. Вот!
IP
wws
Участник
To ImperatorRUS
Морфология тоже нужна?

Если не нужно то все просто. Текст делишь на предложения и хранишь в базе с точностью до предложения. Для каждого предложения запоминаешь страницу, ресурс и категория в каталоге. Дальше уже дело техники. Определить рядом стоящие слова можно простым запросом и т.д.

Дальше придумываешь что-то вроде к-та релевантности. Скажем в качестве поискового запроса ввели фразу из 2 слов. В первой странице 3% предложений содержат фразу, а во второй только 1% - у нее релевантность ниже. Можешь потом еще отдельные слова фразы проверять - если фраза не встречается. Короче придумываешь формулу и по ней потом сортируешь результаты.

IP
ImperatorRUS
Участник
1689
To wws
Сенкс. Наверное, для началу, на этом и остановлюсь, а вот что с морфологией делать?
IP
ImperatorRUS
Участник
1689
To delta
Не ну нифига себе. И помогай после этого людям.
IP
delta
Участник
To ImperatorRUS
Просто бесят необоснованные обсирания всего и вся!
IP
ImperatorRUS
Участник
1689
To delta
Че? За базаром следим, господа. Кого и где я обосрал?
IP
LumLum
Участник
не узнаёшь?...
"ножичек-то нулевого размера..."(с)А.Райкин

навеяло просто...

IP
wws
Участник
To ImperatorRUS
а вот что с морфологией делать?
С морфологией тяжело. Тогда нужно для каждого предложения хранить еще 1 копию - где все слова в каком-нибудь стандартном виде - напр. все существительные в единственном числе.
Пример:
1) Маша ела кашу 2) Маша есть каша
И потом поисковый запрос в такой же вид переводишь и ищешь - а пользователю выдаешь нормальное предложение.

Самое сложное - как это преобразовать. Нужен морфоанализатор - программа по преобразованию - реально там просто огромный словарь + правила для неизвестных слов. Лучше это не делать самому, а найти готовое решение.

IP
ImperatorRUS
Участник
1689
To wws
Угу, типа yandex, тока стоит дофига (((. Придется самому лопатить. Пока начнем без морфологии. Огромное спасибо за помощь.
IP
Egor
Virgin Suicider
1010
licq:1010
Мож спереть у яндекса, а не купить.

[Сообщение изменил Egor 20-11-2002.]

IP
wws
Участник
To Egor
Мож спереть у яндекса, а не купить
Можно, но если ресурс будет довольно популярным это быстро заметят.
Кстати говорят эту фишку у яндекса очень плохо покупают.
IP
ImperatorRUS
Участник
1689
To Egor
Каталог сейчас имеет до 2000 посещений (! не хитов) в день, при том, что я на него забил год(!) назад. Думаю, яндекс это просечет, да и не охота связыватся, лучше уж все свое.
IP
Страницы(1): 1

Хотите создавать темы и отправлять сообщения? Выполните Вход или Зарегистрируйтесь!




Напишите нам

µƒorum © fryazino.net