Универсальный Парсер Сайтов

Компания Si2 studio разработала универсальный парсер МультиПарсер для извлечения данных с большинства сайтов. Программное обеспечение состоит из браузерного расширения и серверной части, реализующей процесс парсинга. Это удобный инструмент, который позволяет вам извлекать и анализировать информацию на веб-страницах. Оно разработано, чтобы помочь вам автоматизировать процесс сбора данных и экономить время при выполнении повторяющихся задач.

С помощью нашего расширения вы можете выделить и извлечь текстовые данные с веб-страницы всего в несколько кликов. Вы также можете настроить правила парсинга, чтобы указать, какие именно данные вас интересуют, и расширение будет автоматически извлекать эти данные из анализируемых страниц.

В настоящее время парсер бесплатен с некоторыми "разумными" ограничениями на объемы извлекаемых данных.

Кроме того, наше расширение обеспечивает возможность сохранения и экспорта полученных данных в различные форматы, такие как CSV или JSON, для дальнейшей обработки и использования. Пользователь может скачать файл с извлеченными данными на свой компъютер.

С браузерным расширением для парсинга данных вы сможете повысить эффективность ваших задач, связанных с анализом информации на веб-страницах, а также сократить время, затрачиваемое на ручной сбор данных.

Браузерное расширение для браузера Google Chrome можно скачать с зтого сайта.

Последовательность действий пользователя при работе с парсером:

1. Зайти на сайт, с которого нужно собрать информацию

2. Включить наше браузерное расширение

3. Подготовить задание на парсинг, заполнив макеты на всех закладках расширения

4. Отправить задание на сервер (кнопка "Start"). Процесс парсинга может занимать много времени! После его окончания разблокируются кнопки "Start" и "Download"

5. Скачать результирующий файл (zip-архив) кнопкой "Download" на компъютер в течение 3 дней. После этого срока файл станет недоступен для скачивания.

Использовать парсер можно без регистрации. Но это неудобно: проект парсинга сайта пропадает при удалении расширения из браузера. Без регистрации можно создать не более 2-х проектов.

При регистрации на сайте создается аккаунт пользователя, где сохраняются подготовленные задания на парсинг для всех сайтов, а также результирующие файлы, которые можно скачать позднее. При регистрации можно создать 5 проектов.

Регистрация бесплатна. Необходимо указать только Имя/Логин и адрес электронной почты.

Ограничения: максимальное количество проектов без регистрации - 2, с регистрацией - 5; максимальное количество извлекаемых данных (карточек) без регистрации - 200, с регистрацией - 500.

Порядок создания проекта и подготовки заданий в расширении браузера

Запустить интересующий сайт. Включить расширение: нажать на значок расширения справа в адресной строке браузера. Максимальное количество проектов на парсинг сайтов зависит от тарифного плана: без регистрации - 2, с регистрацией - 5; максимальное количество извлекаемых данных (карточек) без регистрации - 200, с регистрацией - 500. В каждом проекте можно подготовить несколько заданий на парсинг (не лимитируется).
tab1.webp
Вкладка "Base urls".

Содержит адреса начальных страниц для парсинга.

Заполняем поля "Insert name" и "Insert link" и нажимаем кнопку "Add". Для заполнения поля "Insert link" можно нажать LeftClick на этом поле или просто скопировать в него содержимое адресной строки браузера. Обязательно в URL должен присутствовать протокол (https://)! Поле "Insert name" - "декоративное",  заполняется от руки.  В таблицу можно занести несколько базовых URL, один из них нужно выбрать в поле Active Base URL (выпадающий список) для начала парсинга. Выбрать активный базовый URL также можно кликом на нужной строке таблицы.

tab2.webp
Вкладка "Subcats".

   Если базовая категория (базовый URL) имеет подкатегории, отмечаем чекбокс "Is subcategories" и заполняем поля "Subcat 1" и "Subcat 2" на вкладке "Level 1": кликаем на поле Subcat 1 (фокус) потом по любой подкатегории CTRL + LeftClick. Поле в фокусе выделяется рамкой.

   Должны появиться строки: Href =, ClassList =, Xpath = - программа зафиксировала блок со сылкой на подкатегорию. Аналогично кликаем на поле Subcat 2, потом CTRL + LeftClick по любой другой подкатегории.

   Затем кликаем по кнопке "Subcats block", чтобы программа зафиксировала блок на странице со всеми подкатегориями. Под кнопкой появятся строчки: ClassLis t=, Xpath =, Blocks count on page =, Subcats count on page =.

   Если категории на странице также имеют подкатегории, то снова переходим на страницу любой категории, на вкладке "Subcats" выбираем вкладку "Level 2" и повторяем все действия аналогично вкладке "Level 1"

tab3.webp
Вкладка "Cards"

Если для скрапинга достаточно данных в карточке товара в общем списке карточек (не нужно раскрывать экран с подробным описанием товара), на данной вкладке ничего заполнять не нужно.

Если для скрапинга нужно перейти по ссылке на страницу детального описания объекта (карточки), отмечаем чекбокс "Follow links". 

Заполняем поля "Card link 1" и "Card link 2" : кликаем на поле "Card link 1" (фокус - поле выделяется рамкой.), потом по любой карточке CTRL + LeftClick. Должны появиться строки: Href =, ClassList =, Xpath =, Cards count on page =  - программа зафиксировала блок со ссылкой на карточку. Аналогично кликаем на поле "Card link 2", потом CTRL + LeftClick по любой другой карточке.

   Затем кликаем по кнопке "Cards block", чтобы программа зафиксировала блок на странице со всеми карточками. Под кнопкой появятся строчки: ClassList=, Xpath =, Blocks count on page =, Cards count on page =.

tab4.webp
Вкладка "Details"

Содержит список характеристик объектов (карточек товаров), подлежащих скрапингу. Возможны 2 варианта.

При переходе на страницу детального описания объекта (карточки): Для заполнения таблицы последовательно кликаем (CTRL + LeftClick) на полях-характеристиках объекта (карточки) - заполняется поле "Insert Xpath", вручную вписываем название этого поля/характеристики в поле "Insert name" и нажимаем кнопку "Add".

Возможен вариант, когда некоторые характеристики размещаются на доп. экранах, которые открываются по ссылке. Например, подробное описание товара. Этот вариант тоже реализован: переходим на вкладку "Additional page 2", кликаем по полю "Insert link title",  нажимаем CTRL + LeftClick на ссылке. Открывается доп. экран и заполняем доп. характеристики аналогично основному экрану. Возможны 2 доп. экрана.

Без перехода на страницу детального описания объекта (карточки) , когда достаточно характеристик объектов на странице со списком (карточками), например нам достаточно "снять" только наименование товара, бренд и цену. В этом случае заполняем таблицу аналогично предыдущему пункту, но перед запоминанием характеристики нужно внести изменение в Xpath. Поскольку все карточки на странице имеют один шаблон Xpath для характеристики объекта (например, наименование), они будут отличаться лишь одним числом в шаблоне Xpath! Нужно определить это место в шаблоне и заменить число на последовательность "???" (без кавычек). Например, в Xpath ".../div[1]/div[4]/div[1]/div[1]/div/article[14]/div/div[3]/h2[1]/span[1]/span[2]" нужно заменить "article[14]" на "article[???]". 

tab5.webp
Вкладка "Pagination"

Обрабатываются 3 варианта пагинации:

  • Page range - задать диапазон страниц. На странице с перечнем карточек найти строку с пагинацией (обычно внизу страницы). Заполнить поля "First page" и "Last page", кликнуть (CTRL + LeftClick) на любом поле с номером страницы или "Следующая страница" для заполнения поля "Pattern", нажать кнопку "Save".
  • Button like "More" - на странице с перечнем карточек внизу найти кнопку "More" или аналогичную по смыслу, нажать на ней CTRL + LeftClick. Заполнятся поля Title, Id, Classlist (какие заполнены на странице).
  • Infinite scroll - бесконечный скролл на странице. 

 

Нужно выбрать один из вариантов, заполнить поля и нажать кнопку "Save".

tab6.webp
Вкладка "Settings"

Выбрать формат сохраняемых данных и нажать "Save"

Для отправки задания парсинга на сервер нажать кнопку "Start". При этом кнопки "Start" и "Download" станут неактивными до окончания процесса парсинга. После окончания парсинга кнопки станут активными и можно будет скачать результирующий файл по кнопке "Download" в течение 5 дней.
Чтобы убрать окно расширения с экрана - нажать кнопку "Hide". Чтобы вернуть окно расширения, нажать на значок расширения справа в адресной строке браузера.
Данный проект будет сохраняться в браузере пока расширение не будет удалено из списка расширений (см. "Управление расширениями"). Также можно удалить проект по кнопке "Remove".

Предлагаем услуги по парсингу сайтов без лимитных ограничений на объем данных и парсинг сайтов на регулярной основе.

Свяжитесь с нами по email si2pars@gmail.com