Scrapy是一個強大的Python爬蟲框架,它使用CSS選擇器語法來提取網頁中的數據。CSS選擇器是一種簡單而強大的方式,可以通過標簽名稱、類、ID和屬性等來選取網頁元素,從而實現對網頁的解析。
# 示例代碼 import scrapy class MySpider(scrapy.Spider): name = 'myspider' def start_requests(self): urls = ['http://www.example.com/page1', 'http://www.example.com/page2'] for url in urls: yield scrapy.Request(url=url, callback=self.parse) def parse(self, response): for quote in response.css('div.quote'): yield { 'text': quote.css('span.text::text').get(), 'author': quote.css('span small::text').get(), 'tags': quote.css('div.tags a.tag::text').getall(), }
在該示例代碼中,我們使用了response.css函數來選取網頁中所有的div標簽,并通過一個Python字典來存儲我們想要提取的文本數據。需要注意的是,在CSS選擇器語法中,雙冒號(::)是用來指定屬性的偽元素,單冒號(:)是用來指定偽類。
Scrappy還提供了很多其他的方法來處理數據,例如XPath表達式、正則表達式和JSON解析等等。開發者可以根據自己的需求選擇合適的方法來提取數據。