今天我們來學習如何使用Java爬取網(wǎng)頁上的圖片和網(wǎng)友信息。
import java.io.IOException; import java.io.InputStream; import java.net.URL; import java.util.Scanner; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; public class Spider { public static void main(String[] args) throws IOException { // 定義要爬取的網(wǎng)址 String url = "http://www.example.com"; Document doc = Jsoup.connect(url).get(); // 爬取網(wǎng)友信息 Elements users = doc.select(".user-info"); for (Element user : users) { System.out.println(user.text()); } // 爬取圖片 Elements images = doc.select("img[src~=(?i)\\.(png|jpe?g|gif)]"); for (Element image : images) { String imageUrl = image.attr("src"); InputStream is = new URL(imageUrl).openStream(); // 處理圖片流 } } }
上面的代碼使用了Jsoup庫來獲取網(wǎng)頁內(nèi)容,然后通過CSS選擇器來定位網(wǎng)友信息和圖片。需要注意的是,由于涉及瀏覽器安全策略,需要處理圖片流才能直接獲取圖片。
使用Java來爬取信息和圖片可以為我們的數(shù)據(jù)分析和業(yè)務需求提供非常便捷的數(shù)據(jù)獲取方式。但需要注意的是,我們需要遵守相關(guān)爬蟲規(guī)范,尊重網(wǎng)站的合法權(quán)益。