jsoup: Java HTML Scrapper - Преглед на Semalt

jsoup е складиште на Јава што извршува HTML. Опремено е со ефикасно и ефикасно API што собира, анализира и управува со податоци, користејќи ги потребните ДОМ, CSS и методи слични на џакери.

Со jsoup програмерите и веб-дизајнерите можат да развијат документи од датотеки со веб-извори без да ја нарушат структурата на изворните датотеки. Со преземање на датотеките, корисниците на jsoup можат да ги реинфигурираат или редизајн сите елементи на структурата или компонентите на елементите со додавање или модифицирање на елементите или содржината или и двете.

Алатката е изградена со широка агилност за да обезбеди флексибилен и стандарден програмски интерфејс на корисниците во рамките на широката разновидност на веб-околината и апликациите. Ова му дава на својот корисник потребен пристап за промена, бришење или додавање компоненти на нивните изводи.

jsoup може да ги дешифрира и раствори податоците во помали состојки за лесно преведување во други формати. Влезните податоци се минирани во форма на алгоритмичка прогресија која е составена од код на упатства вграден во дрво за собирање или деривација. Таа е изградена за да ги разбере и интегрира HTML компонентите така што ќе може да ги поврати состојките на датотеката со таква флексибилност во зависност од структурата за кодирање. Како го прави тоа? Ја ползи и ја гребе целата веб-страница за пристап и шема за снимање на податоци. Ако е можно деривација на податоци, ќе продолжи со:

Навигација и анализа на анализираното дрво од највисоко ниво преку конфигурациската структура до најниско ниво со оглед на секоја единствена компонента на податоците. Овој пристап се нарекува метод за парсирање од горе надолу.

Разбивање на податоци од најниското ниво на структурата, анализирање на секоја компонента на податоците, преку средните композиции до горниот дел од дрвото за парсирање или деривација.

jsoup е ефикасно решение што се подложува на мноштво сложени операции за време на сплит секунди, заради неговиот врвен дизајн. Процесот обично вклучува сукцесија на три основни фази од:

1. Фрагментација на извлечените знаци и податоци во помали поедноставни пакети и анализа на овие битови на карактери и податоци што треба да се создадат.

2. Интерпретација што може да се прочита и да се состави од машинскиот јазик кој е во состојба да ги стави елементите на податоци по избор и може да се користи за производство

3. Електронски изрази кои формираат делови од информации што се од потребната конфигурација, вредност и важност за корисникот.

jsoup е компатибилен со и е во состојба да изврши огромна структура на HTML скрипти, јазичен интерфејс, програми и стил на документи, вклучувајќи ги и барањата WhatWG HTML5. Тие се подеднакво способни да ги решат структурите на HTML на истиот Модел на предмети на документи, како веб-софтверски апликации што се користат за извлекување, навигација и презентирање на извори на податоци и информации на World Wide Web.

jsoup има можност:

  • избришете и анализирајте HTML од URL, датотека или низа
  • лоцирајте ги и извлечете ги податоците, користејќи ги DOM traversal или CSS селекторите
  • подобрете ги елементите на HTML, атрибутите и текстот
  • избришете ја содржината доставена од корисникот против безбеден бел список, за да спречите XSS напади
  • испорача уредно HTML

Софтверот е изграден за да ги реши сите типови HTML без оглед на конфигурацијата: од чиста и валидација, до невалидна супа со ознаки: jsoup ќе ја создаде посакуваната структура за парсирање.