JSoup是現在比較火的爬取數據的技術,因為其簡單有效,對于學習過JS,JQuery的開發人員比較容易。現在爬蟲技術一般都是通過HTTPClient進行獲取頁面源碼,然后通過JSoup進行解析HTML頁面。
JSoup是一款Java的HTML解析器,主要用來對HTML解析。
JSoup的特點?
JSoup可以對Html頁面字符串,文件,URL進行爬取并解析HTML。
JSoup可以利用DOM或則CSS選擇器來查找標簽進行獲取數據
JSoup可以通過attr進行標簽屬性的更改
JSoup可以通過白名單來清理用戶提交的內容,防止XSS攻擊。