48
Это мощный и гибкий инструмент для парсинга веб-страниц, написанный на Ruby. Парсер предоставляет широкий набор функций для извлечения и анализа данных из HTML и XML документов.
Основные возможности
Извлечение заголовка страницы
Парсинг ссылок (URL и текст)
Извлечение заголовков (h1, h2, h3)
Работа с изображениями
Парсинг мета-тегов
Извлечение таблиц с данными
Парсинг форм и их полей
Работа со списками (маркированными и нумерованными)
Извлечение скриптов и стилей
Поиск по CSS селекторам
Парсинг JSON-LD
Извлечение микроданных
Работа с HTML комментариями
Парсинг iframe элементов
Определение используемых технологий (jQuery, Bootstrap, React, Vue)
Извлечение цветов из CSS
Анализ кодировки страницы
Поиск email адресов
Многопоточный парсинг нескольких URL
Поддержка прокси-серверов
Автоматическое определение кодировки
Сохранение результатов в различных форматах (JSON, YAML, CSV)
Интеграция с базами данных
REST API для удаленного парсинга
Исходный код: https://github.com/timcore1/HTML-XML-Parser.git