Всем привет,
У меня есть некоторый опыт Web scraping-а с помошью регулярок но сам убеждался что не все сайты регуляркам по зубам
очень хвалят SimpleHTMLDOM
А как из вашего опыта ? есть ли что 100% для всех сайтов ?
Подскажите, удобный сервис на халяву для тестирования
rest api на php - чтобы можно было и запросы вводить и доку тут же написать и желательно сохранять наборы тестовых данных
для повторного тестирования...
Спасибо !
При тестировании на Chrome на разных экстрамалых(320px) и малых ( 768px ) девайсах
страницы по ширине сдвигаются влево/ вправо - как будто что-то распирает верстку по ширине.
В инспекторе обьектов не увидел что распирает - вроде ширина не превосходит макс параметров ширины.
кажется общая проблема для всех страниц...
Тестируя на Chromium я настроил на несколько девайсов и тестируя для айпадов(ширина 768 px) http://imgur[dot]com/a/L7VGi
кликнув мышой и потянув влево/вправо я вижу что страница елозит влево/вправо примерно пикселей на 30
Эта разница видна на принтскринах http://imgur[dot]com/a/PmWDG
Обычно такре происходит если что-то распирает верстку по ширине. Я не вижу из-за чего проблема.
Выложил пример на http://sandbox.onlinephpfunctions.com/code/b54e7fa3a212804b6df324b0f1f2d16806cfb0b9,
Там текст с 3 блоками текста причем первый блок без картинки и 3 паттерна:
1) получаю 3 блока, но без картинки и картинку нужно выдергивать из 0-го элемента каждой строки результата
2) получаю 2 блока c картинками и 1-я строка пропущена Но тут проблемка в том что в первой результирующей строке заголовок из 1й строки
но картинка и контент из 2й строки
3) Пытаюсь получить 3 строки с картинками( если картинка неопределена поле news_image будет пустым из-за условие “или” )
Понимаю что наверно правильней делать 1й вариант и не заморачиваться - но заинтересовал возможность 3-го варианта. 2 тоже интересно .
Сорри, если я непонятно выразился с задачей :
Мне не нужно фильтровать, мне нужно получить ВСЕ строки и в news_image - или ссылка на картинку или пуста или нет такого ключа, но есть сама строка.
Поскольку я сижу под ubuntu(KDE) Notepad там недоступен
Я работаю в PhpStorm 2016.2.1
к нему эти примеры применимы ?
Или есть аналоги Notepad для линукса с аналогичными возможностями?
Которая работает для всех статей у которых в статье определена картинка в news_image
Но не все статьи имеют картинки
Чтобы получить и статьи без картинок и чтобы поле news_image оставалось пустым я пытался написаить с условием " или "