Python 爬蟲系列閱讀:
- 爬蟲第一步:認識網頁的基本架構
- 爬蟲第二步:解析網頁
- 爬蟲第三步:坐而言不如起而行
- 爬蟲第四步:偽裝一個headers吧!
- 爬蟲第五步:如何使用python 帶 cookie 去網站?
- 爬蟲第六步:用 Python 爬蟲整理上市股票清單
- 爬蟲第七步:用 Python 爬蟲取得 ETF 配息歷史
- 爬蟲第八步:用 Python 爬蟲取得股票除權息歷史
因為我們使用的是 Python 去實作這部分,所以如果不確定應該怎麼開始 Python 沒關係,筆者我也是先東抄抄西寫寫,拼拼湊湊把東西做出來後,久了就會漸漸對於正在做的事情有感覺,進而漸漸學習起來的。
如果對於網頁架構不熟悉的朋友,可以先參考看看「第一篇:認識網頁的基本架構」的文章哦!而如果不知道解析出來的網頁怎麼看得朋友,也可以先看看 「 第二篇:解析網頁」。
所以不要怕做錯或是不知道怎麼做,直接動手就是最正確的,讓我們直接開始吧!
第一步:安裝Python Coding環境
工欲善其事,必先利其器!
這邊我們使用 Pycharm 來當作 coding 工具哦!
第二步:認識爬蟲初步套件
1. Request
把它想成網路世界的的自己,所有需要跟網路上任何對象互動的動作,基本上都可以藉由這個套件來完成,隨著未來課程越來越深,這工具的使用也會越來越多元哦!
2. BeautifulSoup
可以快速解析網頁 HTML 碼,基本上算是特別針對爬蟲所設計的套件,所以功能當然會是以解析網頁內容為主囉!
第三步:留下自己想要的內容
將爬蟲爬下來的網站內容,經由 BeautifulSoup 的篩選功能只留下自己想要的部分內容後,藉著python 存成 list 或是甚至轉成 dictionary 後,將其資料去蕪存菁,整理成自己想要的格式就完成第三步囉!
第四步:儲存自己想要的資料
最後再將整理好的格式,看是要使用 csv 套件逐行儲存不用管內容,或是用pandas.to_csv 去將整份表格資料依序存進去。
無論是那種,抓好的資料先存起來,都可以讓未來想要使用時不用重新抓囉!
量化通粉絲社群,一起討論程式交易!
程式交易課程推薦
📣 Python 程式交易系列線上課程,手把手開始用程式交易打造自己的被動收入!