Warning: Cannot use a scalar value as an array in /home/admin/public_html/forum/include/fm.class.php on line 757

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/include/fm.class.php on line 770

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/topic.php on line 737
Форумы портала PHP.SU :: Анализ данных. Поисковая выдача

 PHP.SU

Программирование на PHP, MySQL и другие веб-технологии
PHP.SU Портал     На главную страницу форума Главная     Помощь Помощь     Поиск Поиск     Поиск Яндекс Поиск Яндекс     Вакансии  Пользователи Пользователи


 Страниц (1): [1]   

> Описание: Анализ данных. Поисковая выдача
mikeles
Отправлено: 12 Ноября, 2013 - 19:51:51
Post Id


Новичок


Покинул форум
Сообщений всего: 13
Дата рег-ции: Авг. 2010  


Помог: 0 раз(а)




Делаю парсер одного сайта известного с объявлениями.

Входные данные такие:
Задаем "поисковые фразы" которые подставляются ботом в поиск сайта, далее всю выдачу забираем к себе.
И так по каждой фразе.
На данный момент есть "черный список" куда записывает слова(фразы) в объявлении, если встречаются в объявлении, то объявление в игнор. Объявления в игноре больше не парсятся(дубли).
Только таким образом происходит фильтрация, естесвенно попадает много мусора, и все почти объявления вручную обрабатываются.
Есть "избранное" куда попадают объявы понравившееся.

Вообщем задача состоит в том, что нужно максимально классифицировать "Фразы" и понять что нужно пользователю, какое именно объявление "целевое". Какой план:
1. Классифицировать объявления по фразам
2. Если объявление добавляется в "избранное", то выбираем из него ключевики, сопоставляем с классификацией фраз(уточняем критерий выбора)

Вопрос, какие варианты есть по определению релевантности "фраз" к целевому объявлению. Кто сталкивался?
 
 Top
Zuldek
Отправлено: 13 Ноября, 2013 - 08:59:51
Post Id


Постоянный участник


Покинул форум
Сообщений всего: 2122
Дата рег-ции: Июнь 2010  


Помог: 50 раз(а)




Вообще говоря, релевантность объявления можно прослеживать по структуре самого сайта объявлений. Ибо там есть рубрикатор, система модерации и они сами следят за релевантностью.
Кроме того, если речь идёт, как я понял, о серьёзном сайте, то помимо поиска "в лоб" по ключевой фразе у них везде есть поиск по фильтрам. И фильтры разные в зависимости от рубрики объявлений.
Вот значения этих фильтров и используйте для определения релевантности запросу.
Помимо фильтров у объявлений есть также поля, определяющие геозону (можно указать и в фильтре поиска), что также позволит воссоздать структуру геозона->объявление относящееся к этой геозоне при разборе скаченных данных.

Если ваш парсер это делать не умеет, и ищет объявления "в лоб" по ключевым словам, то это проблема вашего парсера и нужно его усовершенствовать.

Потому что в противном случае, у вас стоит задача понять о чем текст объявления и относится ли он к ключевой фразе, при этом, — как-то ранжировать объявления по релевантности. Задача сравнимая по сложности с задачами полноценной поисковый системы, усложнённая ещё и тем, что объявления не есть качественный контент легко поддающийся семантическому анализу, если брать единое поля текста объявления без поисковых фильтров, рубрикатора и отдельных полей самого объявления. Думаю, сделав умный парсер можно с большой вероятностью избавиться от необходимости создания маленького яндекса. Если же всё-таки хочется поизвращаться: есть готовые библиотеки для семантического анализа (некоторые работают даже с кириллицей). Встречал такие, написанные на языке С. Поищите.
На php подобными развлечениями заниматься не советую.

(Отредактировано автором: 13 Ноября, 2013 - 09:06:14)

 
 Top
mikeles
Отправлено: 14 Ноября, 2013 - 00:57:59
Post Id


Новичок


Покинул форум
Сообщений всего: 13
Дата рег-ции: Авг. 2010  


Помог: 0 раз(а)




Спасибо за ответ. Немного не то.
Релевантность рассчитывается на основе семантики запроса.
А здесь имеется в виду самообучаемая модель. Т.е. нужно бота обучать, подходит по смыслу это объявление или нет.
Обучать должен пользователь, добавляя фразы и отмечая избранные объявления.
Фильтрами такое не отработаешь. И тем более часто выставляют параметры объякта одни, а содержание объвления, совсем другое.
Даже уже приколы есть в интернете...

Скорее вот это нашел:

http://ru.wikipedia.org/wiki/%D0%91%D0%B0%D0%B9%D0%B5%D1%81%D0%BE%D0%B2%D1%81%D0%BA%D0%B0%D1%8F_%D1%84%D0%B8%D0%BB%D1%8C%D1%82%D1%80%D0%B0%D1%86%D0%B8%D1%8F_%D1%81%D0%BF%D0%B0%D0%BC%D0%B0

(Отредактировано автором: 14 Ноября, 2013 - 01:05:52)

 
 Top
Страниц (1): [1]
Сейчас эту тему просматривают: 0 (гостей: 0, зарегистрированных: 0)
« Хранение данных, их вывод и обработка »


Все гости форума могут просматривать этот раздел.
Только зарегистрированные пользователи могут создавать новые темы в этом разделе.
Только зарегистрированные пользователи могут отвечать на сообщения в этом разделе.
 



Powered by PHP  Powered By MySQL  Powered by Nginx  Valid CSS  RSS

 
Powered by ExBB FM 1.0 RC1. InvisionExBB