Scrapy：便於web資料挖掘的python工具

Table of Contents

最近我剛好有個需要用 Python 寫爬蟲的需求，於是就找到了 Scrapy 這個好用的工具。在進行資料挖掘或 web 資料抓取時，Scrapy 是一個非常方便的 Python 工具。它是一個高效又好用的網頁抓取框架，能讓你輕鬆從網站提取資料，並整理成有用的資訊。在這篇文章中，我會帶你一步步了解如何在 Windows 上安裝 Scrapy，幫助你順利開始資料挖掘。

Windows 上安裝 Scrapy 所需的工具

這次我們要在 Windows 上安裝 Scrapy，過程可能稍微有點小繁瑣，但只要跟著步驟來就能成功安裝：

1. 安裝 Python

首先你需要安裝 Python。可以從 Python 官方網站下載最新的安裝檔，然後進行安裝。建議在安裝的過程中，勾選 "Add Python to PATH"，這樣就能更方便在cmd中使用 Python。

安裝完成後，可以打開命令提示字元 (cmd)，輸入 python 來驗證是否安裝成功。

2. 安裝相關套件

Scrapy 需要一些其他的 Python modules 來正常運作，所以在安裝 Scrapy 前，我們需要先安裝這些 dependencies：

setuptools：可以使用以下指令安裝 pip install setuptools 來安裝。
Twisted：要把 Scrapy 跑起來所必需的 web 框架，可以使用 pip install twisted 來安裝。
w3lib 和 lxml：可以幫助 Scrapy 把網頁結構處理得更好的兩個 modules，可以使用 pip install w3lib lxml 來安裝。
pyOpenSSL：這是用來處理 HTTPS 請求和加密連線的工具，可以用 pip install pyopenssl 安裝。

3. 安裝 Scrapy

當上面這些都安裝好後，就可以安裝 Scrapy 了。只需要在命令提示字元中輸入：

pip install scrapy

安裝過程中，可能需要一些時間，要看當下使用的網路速度和系統配置怎麼樣。安裝完成後，可以輸入 scrapy 來檢查是否已經安裝成功。

開始使用 Scrapy

安裝完成後，就可以開始使用 Scrapy 來撰寫你的第一個爬蟲程式了。在這裡先簡單介紹一些概念，詳細我們再另開文章細講。

Items：在 scrapy 當中，item 可以用來從一些不太具有結構化的來源抓取到想要的資料。比如我們可以從網頁上抓到一些產品的名稱、價格之類的資訊。
Spiders：我們也可以在scrapy裡使用爬蟲，這樣就可以再一些指定的URL規則下面爬到不同的網址下找出一些想要的資料
Link Extractors：我們還可以利用Link Extractor，把目標網頁當中的所有連結都設法找出來

大部分情況下，使用 Scrapy 內附的初階指令就可以處理到很多不同的網頁抓取場景了。除此之外， Scrapy 還有很多進階的用法、各種extension、遠端控制、還提供各種API，如果經常有爬蟲需求、競品分析、市場資訊蒐集、網路風向熱度調研等，學會scrapy都非常實用！

• • •

系列文章