PHP.SU

Программирование на PHP, MySQL и другие веб-технологии

PHP.SU Портал

Главная

Помощь

Поиск

Поиск Яндекс Вакансии

Пользователи

Здравствуйте, Гость

( Вход · Регистрация · Правила форума )

Забыли пароль?

Помогите составить регулярку

Форумы портала PHP.SU » PHP » Регулярные выражения (Модераторы: EuGen, armancho7777777, Строитель)

Страниц (1): [1]

Без описания

Поиск в теме | Версия для печати

Bio man	Отправлено: 25 Сентября, 2014 - 16:17:45
Постоянный участник Покинул форум Сообщений всего: 2751 Дата рег-ции: Июль 2010 Откуда: Даугавпилс, Латвия Помог: 52 раз(а)	Есть таблица CODE (html): скопировать код в буфер обмена <table> <tr> <td>123</td> </tr> <tr id="tr_detail_4613204055456460160606"> <!--рандомные данные там где куча цифр--> <td>123</td> </tr> </table> как мне достать все данные из td кроме тех, где у tr есть id.

Panoptik	Отправлено: 25 Сентября, 2014 - 17:12:19
Постоянный участник Покинул форум Сообщений всего: 2493 Дата рег-ции: Нояб. 2011 Откуда: Одесса, Украина Помог: 131 раз(а)	PHP: скопировать код в буфер обмена $str = <<<HTML <table> <tr> <td>123</td> </tr> <tr id="tr_detail_4613204055456460160606"> <!--рандомные данные там где куча цифр--> <td>123</td> </tr> </table> HTML; libxml_use_internal_errors(true); $dom = new DomDocument(); $dom->loadHTML($formData); $trs = $dom->getElementsByTagName('tr'); // перебираем все строки for($i = 0; $i < $trs->length; $i++) { $tr = $trs->item($i); // пропускаем строки у которых есть айди if(($id = $tr->attributes->getNamedItem('id')) && $id->nodeValue) continue; $tds = $tr->childNodes; // если знаете точную структуру то можно доставить ячейки по индексу начиная с 0; // $td = $tds->item(0); // если нужно перебрать все, то по указанному сценарию с тр делаете тоже самое for($j = 0; $j < $tds->length; $j++) { $td = $tds->item($j); // текст ячейки echo $td->nodeValue; } } как-то так (Отредактировано автором: 25 Сентября, 2014 - 17:13:53) ----- Just do it

Bio man	Отправлено: 25 Сентября, 2014 - 17:14:27
Постоянный участник Покинул форум Сообщений всего: 2751 Дата рег-ции: Июль 2010 Откуда: Даугавпилс, Латвия Помог: 52 раз(а)	Спасибо конечно за альтернативу, но регуляркой будет быстрее. И памяти меньше скушает.

Panoptik	Отправлено: 25 Сентября, 2014 - 17:20:40
Постоянный участник Покинул форум Сообщений всего: 2493 Дата рег-ции: Нояб. 2011 Откуда: Одесса, Украина Помог: 131 раз(а)	ну раз так то PHP: скопировать код в буфер обмена $str = <<<HTML <table> <tr> <td>123</td> </tr> <tr id="tr_detail_4613204055456460160606"> <!--рандомные данные там где куча цифр--> <td>123</td> </tr> </table> HTML; if(preg_match_all('!<tr>([\s\W\w]+)</tr>!U', $str, $matchesTrs)) { foreach($matchesTrs[1] as $trContent) { preg_match_all('!<td>([\s\W\w]+)</td>!U', $trContent, $matches); var_dump($matches[1] } } (Отредактировано автором: 25 Сентября, 2014 - 17:21:41) ----- Just do it

Bio man	Отправлено: 25 Сентября, 2014 - 17:31:15
Постоянный участник Покинул форум Сообщений всего: 2751 Дата рег-ции: Июль 2010 Откуда: Даугавпилс, Латвия Помог: 52 раз(а)	Забыл, что tr без id'шек. то есть там может быть класс, другой атрибут, но только не ID (Отредактировано автором: 25 Сентября, 2014 - 17:46:02)

teddy	Отправлено: 25 Сентября, 2014 - 18:59:15
Участник Покинул форум Сообщений всего: 1462 Дата рег-ции: Апр. 2013 Помог: 91 раз(а)	Вообще парсинг DOM-а как бы должен происходить с помощью соответствующих средств. Вариант без регулярки через xPath: PHP: скопировать код в буфер обмена $dom = new DOMDocument(); $dom->loadHTML($html);//or loadHTMLFile $xPath = new DOMXPath($dom); $nodeList = $xPath->query('//tr[not(@id)]/td'); //собственно вывод foreach($nodeList as $DOMElement){ echo $DOMElement->nodeValue; } Не факт что регулярка будет быстрее а если и будет то на n спичкосекунд П.С: попробовал регуляркой, после второй провальной попытки перестал пробовать... ) Может такой вариант пригодится (Отредактировано автором: 25 Сентября, 2014 - 19:20:16)

Мелкий	Отправлено: 25 Сентября, 2014 - 19:04:15
Активный участник Покинул форум Сообщений всего: 11926 Дата рег-ции: Июль 2009 Откуда: Россия, Санкт-Петербург Помог: 618 раз(а)	Всецело поддерживаю мысль, что HTML регулярками парсить некорректно. teddy пишет: for($i = 0; $i < $nodeList->length; $i++){ Ммм, nodeList же реализует Traversable, зачем это? ----- PostgreSQL DBA

teddy	Отправлено: 25 Сентября, 2014 - 19:20:22
Участник Покинул форум Сообщений всего: 1462 Дата рег-ции: Апр. 2013 Помог: 91 раз(а)	Мелкий пишет: зачем это? Согласен. Через форыч будет проще. Обновил пост

Bio man	Отправлено: 25 Сентября, 2014 - 19:33:56
Постоянный участник Покинул форум Сообщений всего: 2751 Дата рег-ции: Июль 2010 Откуда: Даугавпилс, Латвия Помог: 52 раз(а)	Спасибо. Попутный вопрос. Как быстро исправить html? Типо HTMLPurifier, но он подтормаживает, а без него выкидывает ошибки Спойлер (Отобразить) Warning: DOMDocument::loadHTML(): Tag noindex invalid in Entity, line: 1261

teddy	Отправлено: 25 Сентября, 2014 - 19:53:24
Участник Покинул форум Сообщений всего: 1462 Дата рег-ции: Апр. 2013 Помог: 91 раз(а)	По сути в данном случае нам должно быть по барабану что PHP считает документ не валидным. Исправлять документ а потом снова его скармливать domdocument-у не самая лучшая идея. Можно просто вырубить ошибки которые генерит libxml(остальные ворнинги при необходимости будут сгенерированы) PHP: скопировать код в буфер обмена $dom = new DOMDocument(); libxml_use_internal_errors(true); $dom->loadHTML($str); libxml_clear_errors(); $xPath = new DOMXPath($dom); $nodeList = $xPath->query('//tr[not(@id)]/td'); (Отредактировано автором: 25 Сентября, 2014 - 19:54:16)

Поиск в теме | Версия для печати

Страниц (1): [1]

Сейчас эту тему просматривают: 0 (гостей: 0, зарегистрированных: 0)

« Регулярные выражения »

Все гости форума могут просматривать этот раздел.
Только зарегистрированные пользователи могут создавать новые темы в этом разделе.
Только зарегистрированные пользователи могут отвечать на сообщения в этом разделе.