Warning: Cannot use a scalar value as an array in /home/admin/public_html/forum/include/fm.class.php on line 757

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/include/fm.class.php on line 770

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/topic.php on line 737
Форумы портала PHP.SU :: Пробу написать парсер

PHP.SU

Программирование на PHP, MySQL и другие веб-технологии

PHP.SU Портал

Главная

Помощь

Поиск

Поиск Яндекс Вакансии

Пользователи

Здравствуйте, Гость

( Вход · Регистрация · Правила форума )

Забыли пароль?

Пробу написать парсер

Форумы портала PHP.SU » PHP » Программирование на PHP » Вопросы новичков (Модераторы: OrmaJever, Саныч, Строитель)

Страниц (2): [1] 2 »

Без описания

Поиск в теме | Версия для печати

etoYA	Отправлено: 19 Февраля, 2013 - 14:19:06
Участник Покинул форум Сообщений всего: 1859 Дата рег-ции: Июль 2011 Откуда: Крым Помог: 21 раз(а)	Парсер пишу просто, ради опыта. Взял первый попавшийся сайт. Так как раньше подобное делать не пробовал, у меня будет куча вопросов. Вот пожалуй первые 2. 1) Curl или file_get_contents? Думаю курл, так как там можно отправлять заголовки и.т.д 2) Порядок действий? (Отредактировано автором: 19 Февраля, 2013 - 14:23:42)

OrmaJever	Отправлено: 19 Февраля, 2013 - 14:25:15
Активный участник Покинул форум Сообщений всего: 7540 Дата рег-ции: Янв. 2010 Откуда: Чернигов Помог: 299 раз(а)	1) зависит от сайта но может подойти и file_get_contents 2) зависит от задачи вобщето, но в целом: регулярки ----- Если вы хотя бы 3-4 раза не решите всё выкинуть и начать заново - вы явно что-то делаете не так.

etoYA	Отправлено: 19 Февраля, 2013 - 14:31:10
Участник Покинул форум Сообщений всего: 1859 Дата рег-ции: Июль 2011 Откуда: Крым Помог: 21 раз(а)	OrmaJever пишет: 2) зависит от задачи вобщето, но в целом: регулярки Немного не это имел ввиду. Вот, этот сайт мне попался первым, решил на нем тренироватся. _http://facte.ru/ Что делать дальше? Верный ход? 1) Нужно получить все ссылки на статьи (в цикле переходить по страницам /page/2/) и собирать их в массив. Как понять, что страница полностью спаршена? 2) Потом пройтись по каждой ссылке и записывать в другой массив/базу информацию?

IstonRU	Отправлено: 19 Февраля, 2013 - 14:32:48
Новичок Покинул форум Сообщений всего: 12 Дата рег-ции: Янв. 2013 Помог: 0 раз(а)	Парсер - синтаксический анализатор. Если хочешь изучить данную тему, то читай Ахо "Путь дракона". Пригодится везде. Регулярки для Непонимающих, ИМХО.

etoYA	Отправлено: 19 Февраля, 2013 - 14:35:09
Участник Покинул форум Сообщений всего: 1859 Дата рег-ции: Июль 2011 Откуда: Крым Помог: 21 раз(а)	IstonRU, да не, регулярки я понимаю С ними вопросов особых наверное и не будет. Мне само строение интересно, а в гугле не смотрб, ибо не хочу сразу начать коряво и не правильно писать, чтоб потом переучиватся).

IstonRU	Отправлено: 19 Февраля, 2013 - 14:40:26
Новичок Покинул форум Сообщений всего: 12 Дата рег-ции: Янв. 2013 Помог: 0 раз(а)	etoYA, мне когда-то нужно было писать кросс-компилятор для микроЭВМ. Прочитав "Путь дракона", я смог реализовать его, хотя до прочтения, вообще не сталкивался с парсерами. Почитай книгу, там все логично, поймешь и будет тебе счастье.

etoYA	Отправлено: 19 Февраля, 2013 - 14:43:36
Участник Покинул форум Сообщений всего: 1859 Дата рег-ции: Июль 2011 Откуда: Крым Помог: 21 раз(а)	IstonRU, окей) (Добавление) Ну, этот код с задачей справляется, переходит по страницам и собирает ссылки в массив. А теперь касательно кода, тут все нормально? PHP: скопировать код в буфер обмена $url = 'http://facte.ru'; $maxPages = 3; for ($i = 0; $i < $maxPages; $i++){ $result = file_get_contents($url.'/page/'.$i); preg_match_all('#<h2><a href="(.?)" rel="bookmark">(.?)</a></h2>#', $result, $matches); $links[] = $matches[1]; } var_dump($links);

esterio	Отправлено: 19 Февраля, 2013 - 14:51:29
Активный участник Покинул форум Сообщений всего: 5025 Дата рег-ции: Нояб. 2012 Откуда: Украина, Львов Помог: 127 раз(а)	etoYA Незнаю как Вы но для себя я определил следующее поведения парсера: 1. запросы делаем с помощю cURL 2. Результат обрабативаем от формата данных - JSON - json_decode - HTML - PhpQuery и подобные - иногда регулярками

OrmaJever	Отправлено: 19 Февраля, 2013 - 15:23:27
Активный участник Покинул форум Сообщений всего: 7540 Дата рег-ции: Янв. 2010 Откуда: Чернигов Помог: 299 раз(а)	etoYA пишет: 1) Нужно получить все ссылки на статьи (в цикле переходить по страницам /page/2/) и собирать их в массив. Как понять, что страница полностью спаршена? 2) Потом пройтись по каждой ссылке и записывать в другой массив/базу информацию? 1) Первым делом нужно получить список страниц. 2) Получили число страниц (пусть будет $c) затем в цикле (с количеством итераций $c) проходим по каждой страницу и берём оттуда все сылки (preg_match_all). 3) В каждой итерации делаем с этими ссылками что-то. Например записываем в бд или выводим на экран. Возможно я напишу код для этой задачи, для примера. ----- Если вы хотя бы 3-4 раза не решите всё выкинуть и начать заново - вы явно что-то делаете не так.

etoYA	Отправлено: 19 Февраля, 2013 - 15:37:32
Участник Покинул форум Сообщений всего: 1859 Дата рег-ции: Июль 2011 Откуда: Крым Помог: 21 раз(а)	PHP: скопировать код в буфер обмена public $url; public $total; public function getLinks($filename){ for ($i = 0; $i < $this->total; $i++){ $result = file_get_contents($this->url.'/page/'.$i); preg_match_all('#<h2><a href="(.?)" rel="bookmark">(.?)</a></h2>#', $result, $matches); $links[] = $matches[1]; } $fp = fopen ("$filename.txt", "w"); if (!$fp) return false; foreach ($links as $page=>$val){ foreach ($val as $link){ fputs ($fp, "$link\r\n"); } } fclose($fp); } PHP: скопировать код в буфер обмена $parser = new Parser; $parser->url = 'http://facte.ru/'; $parser->total = 2; $parser->getLinks('links'); результат записывается в файл. Получение ссылок сделал нормально? (Отредактировано автором: 19 Февраля, 2013 - 15:38:08)

OrmaJever	Отправлено: 19 Февраля, 2013 - 15:44:18
Активный участник Покинул форум Сообщений всего: 7540 Дата рег-ции: Янв. 2010 Откуда: Чернигов Помог: 299 раз(а)	Вот мой вариант PHP: скопировать код в буфер обмена $f = file_get_contents('http://facte.ru/index.php'); preg_match_all("#<a class='page-numbers' href='http://facte.ru/page/(\d+)/'>(\d+)</a>#is", $f, $p); $c = end($p[2]); echo '<table>'; for($i=0; $i<$c; ++$i) { $f = file_get_contents("http://facte.ru/page/$i/"); preg_match_all('#<a href="http://facte.ru/([a-z0-9_-]+).html" rel="bookmark">(.+?)</a>#is', $f, $p); echo "<tr><td>page $i</td><td></td></tr>"; for($x=0; $x<count($p[1]); ++$x) { echo '<tr><td>http://facte.ru/'.$p[1][$x].'.html</td><td>', $p[2][$x], '</td></tr>'; } } echo '</table>'; Блин ещё прозьба, не нужно всё без нужны запихивать в класс. Здесь реально одной функции достаточно. ----- Если вы хотя бы 3-4 раза не решите всё выкинуть и начать заново - вы явно что-то делаете не так.

etoYA	Отправлено: 19 Февраля, 2013 - 15:51:57
Участник Покинул форум Сообщений всего: 1859 Дата рег-ции: Июль 2011 Откуда: Крым Помог: 21 раз(а)	OrmaJever, я вкурсе на счет функции, просто этот класс разбит на 2 метода. getLink - ссылки записываются в файл getContent - контент записывается в базу

OrmaJever	Отправлено: 19 Февраля, 2013 - 15:56:12
Активный участник Покинул форум Сообщений всего: 7540 Дата рег-ции: Янв. 2010 Откуда: Чернигов Помог: 299 раз(а)	если у вас всего 2 постояные метода работы со сылками (запись в файл и в базу) то можно зделать просто аргумент true или false, например PHP: скопировать код в буфер обмена function parser($url, $total = 2, $file = true) { .... if($file) { запись в файл } else { запись в бд. } ... а я бы вобще наверно колбеком зделал. ----- Если вы хотя бы 3-4 раза не решите всё выкинуть и начать заново - вы явно что-то делаете не так.

etoYA	Отправлено: 19 Февраля, 2013 - 15:59:25
Участник Покинул форум Сообщений всего: 1859 Дата рег-ции: Июль 2011 Откуда: Крым Помог: 21 раз(а)	OrmaJever, ну мне он не для дела нужен А для тренировки). Поэтому пока главное понять суть. Еще вопрос, вот перешел я по ссылке. Парюсь и никак не могу спарсить контент.. _http://facte.ru/pilot-samolyota-i-vtoroj-pilot-pered-rejsom-obyazany-est-raznye-blyuda.html

OrmaJever	Отправлено: 19 Февраля, 2013 - 16:02:37
Активный участник Покинул форум Сообщений всего: 7540 Дата рег-ции: Янв. 2010 Откуда: Чернигов Помог: 299 раз(а)	etoYA вы не первый день на форуме и должны понимать что фраза "никак не получается" должна подкреплятся кодом котором вы это пробуете. В даном случае мне бы на регулярку глянуть. ----- Если вы хотя бы 3-4 раза не решите всё выкинуть и начать заново - вы явно что-то делаете не так.

Поиск в теме | Версия для печати

Страниц (2): [1] 2 »

Сейчас эту тему просматривают: 0 (гостей: 0, зарегистрированных: 0)

« Вопросы новичков »

Все гости форума могут просматривать этот раздел.
Только зарегистрированные пользователи могут создавать новые темы в этом разделе.
Только зарегистрированные пользователи могут отвечать на сообщения в этом разделе.