Проблема вот в чем. Есть у меня сайт, есть у меня канал в телеграме, есть бот который раньше просто брал последний пост с сайта, получал его короткое описание, ссылку и название, постил это все дело в телеграм в канал.
Сейчас потребовалось сделать что бы он не просто анонсы кидал в канал а полные посты, и тут то и начались проблемы.
Дело в том что wordpress хранит посты html кодом, там всякие img, p, li, ul, strong, ... etc куча всего, там может быть кнопка или еще что. API методов получить чистый текст поста без картинок и прочего нет.
Я нахожусь в затруднении, с одной стороны я могу представить как использовать explode или регулярки для типичного поста, находить всякие теги, потом дробить пост на кусочки, вычленять ненужные куски, соединять. Но все не предусмотришь, иногда на сайт видео постится, иногда реклама прямо в странице. И потом скорость будет медленной. И опять же после того как я порежу пост на куски и соединю, нет никакой гарантии что где-то не потеряется перенос строки или пробелы, с маркированным списком вообще атас, в результате пост в телеграме будет не красивым.
Вопрос такой, был ли у кого опыт в подобном парсинге по сути? Как вы решили это?
Если то что я описал выше единственный вариант, то как мне лучше сделать все это что бы было лучше.
(Добавление)
https://forum[dot]antichat[dot]ru/threads/220733/ вот нагуглил как раз тот вариант что я предполагаю, но нужен ваш совет.
|