用 ChatGPT 寫爬蟲
ChatGPT 對話#
- 🤡:用 Python 寫爬蟲,可輸入 URL
- 🤖:畀咗一個 Beautiful Soup 嘅例子
- 🤡:有咩方法可抓取 JS 動態生成嘅內容
- 🤖:可使用 Selenium、Scrapy + Splash
- 🤡:使用 Scrapy + Splash 嘅方法
- 🤖:以下係使用 Scrapy 嘅腳本示例
跑咗一下,發現日誌全打喺屏幕上,於是去官網睇咗一下配置,發現可以指定日誌文件、抓取深度、優先級等等。
再問一下 GPT 讓佢畀啲配置嘅例子同註釋,最後整理優化一下,得出咗下面最終嘅輸入。
ChatGPT 回答#
下面係 ChatGPT 嘅回答,但我做咗啲修改同優化。
安裝 Splash#
安裝 Scrapy-Splash 以及 Splash 服務:
創建 Scrapy 項目#
首先,喺命令行中創建一個新嘅 Scrapy 項目:
Docker 運行 Splash#
修改 settings.py#
創建爬蟲#
喺 mycrawler/spiders
目錄中創建一個新嘅爬蟲文件 my_spider.py
,內容如下:
運行爬蟲#
使用命令行運行爬蟲:
呢個腳本會根據輸入參數抓取網頁,匹配關鍵字並輸出匹配嘅 URL。
ChatGPT 更似係一個引導嘅角色。
有時你需要一個工具,可能你並唔知道呢個工具最後長咩樣。
但只要通過不斷對話,一步步打磨,佢總能畀出你想要嘅答案。
呢個過程仲可以學到唔少嘢,只要你懂得點樣提問。