Возникла задача парсить XLSX-файлы, которые содержат описания товаров, цены и изображения.
Вар.1: сохраняю как текстовый файл, его парсю на ура... Картинки в пролете ((((
Вар.2: сторонние парсеры - картинки они не грабят, к сожалению.
Вар.3: старый добрый хендмейд... Чтоб его... Но интересно! Пока...
Извлек я файлы из xlsx-файла. Вроде все просто, xml. Я тут набросал для себя заметки, что там к чему, но вопросов много.
**********************************************************************************
_rels\
workbook.xml.rels
Связывает workbook.xml (например, Id="rId7") с файлом
в папке worksheets (например, worksheets\sheet7.xml).
**********************************************************************************
worksheets\
Листы документа
В каких ячейках есть данные, отсутпы страницы и прочее.
sheet1.xml
sheet2.xml
...
**********************************************************************************
worksheets\
_rels\
Подключают ссылки на файлы изображений (из папки drawings)
Если какого-то листа нет, значит, там нет и фоток
sheet4.xml.rels
sheet5.xml.rels
...
Например: Target="../drawings/drawing4.xml"
**********************************************************************************
drawings\
Описывают картинки на листе (замещающий текст, имя и прочее)
drawing1.xml
drawing2.xml
drawing3.xml
Начало секции:
<xdr:twoCellAnchor editAs="oneCell">
Собственно, не хотелось бы задавать вопросы типа "а как, а что".
Главный вопрос: где можно достаточно внятно почитать про это на русском?
Второй вопрос: есть ли парсеры для интернет-магазина, чтобы картинки из xlsx извлекали? Я уверен, что есть, но что-то не нашел. Текст только...
Я сильно рискую, но что ж темнить, редко встречаюсь с регулярками ((
# - начало строки.
\d+ - целое число
- пробел
# - конец строки
s - ??? (Добавление)
LIME, я благодарен за ответ и коммент! Коммент я видел, поэтому и не понял, почему разделитель именно "цифра и пробел", когда после пробела еще и заголовок идет, а собств. текст с новой строки.
Также, посмотрите код html, который генерит скрипт. Что там? (Добавление)
Еще может быть, из-за русских символов в сравнении ($row['statrem'] === 'в работе'). Не факт, но может быть.
Вопрос в том, что содержимое текста не в той же строке, что и номер и тема. Т.е. мне считывать файл построчно, пока не встречу новую строку формата "цифра текст". Я ужасно не хочу изобретать велосипед... Я их нагородил уже столько... Знаете какое-нибудь стандартное решение?
(Добавление)
Под велосипедом я подразумеваю нечто такое: