Ребят, помогите составить регулярку чтобы парсила текст новости из этой страницы - _http://fulledu.ru/news/vuzi/news/1793_v-dalnevostochnom-universitete-nachali-gotovit-sit.html
Заранее спасибо.
PS: GoDr, на этот раз вроде сайт нормальный =)))
1. event - 10 Февраля, 2015 - 19:01:21 - перейти к сообщению
2. GoDr - 10 Февраля, 2015 - 20:07:20 - перейти к сообщению
ты уже с десяток точно подобных вопросов задал. Суть ты прекрасно понял. Осталось включить голову ;)
открой код страницы. Найди где находится нужный тебе контент. Найди метки, которые однозначно смогут идентифицировать начало и конец контента. Ну и вытаскивай. Как? ты знаешь
Вот что ты сейчас дал. Начало очень хорошо идентифицируется.
открой код страницы. Найди где находится нужный тебе контент. Найди метки, которые однозначно смогут идентифицировать начало и конец контента. Ну и вытаскивай. Как? ты знаешь
Вот что ты сейчас дал. Начало очень хорошо идентифицируется.
или как ты любишь, без картинки. Картинка идёт ниже
Как видно, что там, что там идут class`ы, но не id, а значит 100% гарантии нет. И поэтому лучше использовать два маяка
Цитата:
#<div class="article-item".*?<div class="pict-wrap".*?</div>(.*?)#
Далее конец. На данном сайте он тоже хорошо виден, это начало Яндекс.Директ