Возникла задача парсить XLSX-файлы, которые содержат описания товаров, цены и изображения.
Вар.1: сохраняю как текстовый файл, его парсю на ура... Картинки в пролете ((((
Вар.2: сторонние парсеры - картинки они не грабят, к сожалению.
Вар.3: старый добрый хендмейд... Чтоб его... Но интересно! Пока...
Извлек я файлы из xlsx-файла. Вроде все просто, xml. Я тут набросал для себя заметки, что там к чему, но вопросов много.
Спойлер (Отобразить)
**********************************************************************************
workbook.xml
Схема документа (кол-во листов и прочее)
...
<sheet name="КАТАЛОГ" sheetId="1" r:id="rId1"/>
...
**********************************************************************************
_rels\
workbook.xml.rels
Связывает workbook.xml (например, Id="rId7") с файлом
в папке worksheets (например, worksheets\sheet7.xml).
**********************************************************************************
worksheets\
Листы документа
В каких ячейках есть данные, отсутпы страницы и прочее.
sheet1.xml
sheet2.xml
...
**********************************************************************************
worksheets\
_rels\
Подключают ссылки на файлы изображений (из папки drawings)
Если какого-то листа нет, значит, там нет и фоток
sheet4.xml.rels
sheet5.xml.rels
...
Например: Target="../drawings/drawing4.xml"
**********************************************************************************
drawings\
Описывают картинки на листе (замещающий текст, имя и прочее)
drawing1.xml
drawing2.xml
drawing3.xml
Начало секции:
<xdr:twoCellAnchor editAs="oneCell">
Интересует:
<xdr:pic>
...
<xdr:cNvPr id="5122" name="Picture 2" />
...
<a:blip r:embed="rId2" cstate="print"/>
</xdr:pic>
**********************************************************************************
drawings\
_rels\
Хранят имя файла картинки
drawing1.xml.rels
drawing2.xml.rels
drawing3.xml.rels
Интересует:
<Relationship Id="rId2" Target="../media/image10.png"/>
Собственно, не хотелось бы задавать вопросы типа "а как, а что".
Главный вопрос: где можно достаточно внятно почитать про это на русском?
Второй вопрос: есть ли парсеры для интернет-магазина, чтобы картинки из xlsx извлекали? Я уверен, что есть, но что-то не нашел. Текст только...