Распарсить данные

RealKot

Проверенные
Сообщения
244
Реакции
210
Баллы
3,355
Всем привет!

Необходимо на странице вывести все ссылки (карточки организаций, путем загрузки по нажатию кнопки Show More), перейти в данные карточки и вытянуть данные из карточек - из блоков на открывшейся странице - контактные данные. В идеале бы и остальные данные (кол-во проектов, географию работы и т.п.), но не критично. Пример карточки

Подскажите, пожалуйста, какими инструментами можно это все сделать? В идеале, результат получить в виде excel-таблицы.
 
А какой случай парсинга? Один раз, ежедневно, еженедельно, ежемесячно...?

Могу предложить следующий вариант быстрого парсинга этой задачи: получить все необходимые url страниц, сэмулировав работу через браузер, в любом другом доступном языке (php, nodejs, можно через тот же браузер, C# и т.п.) скачать все страницы и последовательно парсить данные.
 
Последнее редактирование:
Alex Fair, нужно один раз. Этапы как получить все адреса страниц и массово их скачать я примерно представляю как сделать (на коленке условно говоря), а вот как это в авто-режиме сделать? Чтобы не вручную обрабатывать 1200+ карточек?
 
Alex Fair, нужно один раз. Этапы как получить все адреса страниц и массово их скачать я примерно представляю как сделать (на коленке условно говоря), а вот как это в авто-режиме сделать? Чтобы не вручную обрабатывать 1200+ карточек?
Ссылки я уже спарсил, заняло около 10 минут (на 1 запрос к сайту у меня занимал примерно 5-7 секунд). 1296 с условием дубликатов (неясно почему так получилось).
Когда есть база ссылок, то достаточно просто начать обращаться по ним и ждать полной загрузки страницы. На странице с помощью селекторов парсим.

При условии, что у нас уже есть ссылки и на каждой странице одинаковая структура, то нам понадобятся следующий селектор (для контактных данных):
.appx-extended-detail-section-consultant-secondary > div:nth-child(3)
Остальные я не стал искать, географию нужно разбирать. Там не просто iframe от google maps api.
 
Alex Fair, в целом достаточно только адрес электронной почты и веб-сайт :) Можете помочь?
 
Современный облачный хостинг провайдер | Aéza
Назад
Сверху Снизу