Table of Contents

最近我剛好有個需要用 Python 寫爬蟲的需求,於是就找到了 Scrapy 這個好用的工具。在進行資料挖掘或 web 資料抓取時,Scrapy 是一個非常方便的 Python 工具。它是一個高效又好用的網頁抓取框架,能讓你輕鬆從網站提取資料,並整理成有用的資訊。在這篇文章中,我會帶你一步步了解如何在 Windows 上安裝 Scrapy,幫助你順利開始資料挖掘。

Windows 上安裝 Scrapy 所需的工具

這次我們要在 Windows 上安裝 Scrapy,過程可能稍微有點小繁瑣,但只要跟著步驟來就能成功安裝:

1. 安裝 Python

首先你需要安裝 Python。可以從 Python 官方網站 下載最新的安裝檔,然後進行安裝。建議在安裝的過程中,勾選 "Add Python to PATH",這樣就能更方便在cmd中使用 Python。

安裝完成後,可以打開命令提示字元 (cmd),輸入 python 來驗證是否安裝成功。

2. 安裝相關套件

Scrapy 需要一些其他的 Python modules 來正常運作,所以在安裝 Scrapy 前,我們需要先安裝這些 dependencies:

  • setuptools:可以使用以下指令安裝 pip install setuptools 來安裝。
  • Twisted:要把 Scrapy 跑起來所必需的 web 框架,可以使用 pip install twisted 來安裝。
  • w3liblxml:可以幫助 Scrapy 把網頁結構處理得更好的兩個 modules,可以使用 pip install w3lib lxml 來安裝。
  • pyOpenSSL:這是用來處理 HTTPS 請求和加密連線的工具,可以用 pip install pyopenssl 安裝。

3. 安裝 Scrapy

當上面這些都安裝好後,就可以安裝 Scrapy 了。只需要在命令提示字元中輸入:

pip install scrapy

安裝過程中,可能需要一些時間,要看當下使用的網路速度和系統配置怎麼樣。安裝完成後,可以輸入 scrapy 來檢查是否已經安裝成功。

開始使用 Scrapy

安裝完成後,就可以開始使用 Scrapy 來撰寫你的第一個爬蟲程式了。在這裡先簡單介紹一些概念,詳細我們再另開文章細講。

  • Items:在 scrapy 當中,item 可以用來從一些不太具有結構化的來源抓取到想要的資料。比如我們可以從網頁上抓到一些產品的名稱、價格之類的資訊。
  • Spiders:我們也可以在scrapy裡使用爬蟲,這樣就可以再一些指定的URL規則下面爬到不同的網址下找出一些想要的資料
  • Link Extractors:我們還可以利用Link Extractor,把目標網頁當中的所有連結都設法找出來

大部分情況下,使用 Scrapy 內附的初階指令就可以處理到很多不同的網頁抓取場景了。除此之外, Scrapy 還有很多進階的用法、各種extension、遠端控制、還提供各種API,如果經常有爬蟲需求、競品分析、市場資訊蒐集、網路風向熱度調研等,學會scrapy都非常實用!

•     •     •
系列文章