爬蟲實戰，台股證交所、公開資訊觀測站、鉅亨網－從零開始的Python股票爬蟲教學（三）

python_crawler1_101112141203 — 爬蟲實戰，台股證交所/公開資訊觀測站/鉅亨網－從零開始的Python股票爬蟲教學（三）

目錄 Content 隱藏

前言

結論

前言

這個章節來到Python的最強功能【網頁爬蟲】，這也是數據分析最重要的前菜，大家想想看，要進行數據分析前最重要的是什麼?

當然就是要有數據，而數據的來源通常就是網路上公開的資料，但有些網站沒有提供下載的按鍵，這時候就要解析網頁結構去爬取我們想要的數據，最後將爬蟲寫成每日自動爬取，如此一來就可以進行數據分析的部分囉！

點我了解更多資訊

一、爬蟲技巧SOP

二、證交所爬蟲

證交所網站連結：https://www.twse.com.tw/zh/

data為表格型態 ➨ pd.read

import pandas as pd
import requests
import io

# 將json改為csv

url = 'https://www.twse.com.tw/exchangeReport/MI_INDEX?response=csv&date=20220412&type=ALLBUT0999&_=1649743235999'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/111.25 (KHTML, like Gecko) Chrome/99.0.2345.81 Safari/123.36'}

res = requests.get(url,headers=headers)

# 去除指數價格
lines = [l for l in res.text.split('\n') if len(l.split(',"'))>=10]
# 將list轉為txt方便用csv讀取
df = pd.read_csv(io.StringIO(','.join(lines)))
# 將不必要的符號去除
df = df.applymap(lambda s:(str(s).replace('=','').replace(',','').replace('"',''))).set_index('證券代號')
# 將數字轉為數值型態
df = df.applymap(lambda s:pd.to_numeric(str(s),errors='coerce')).dropna(how='all',axis=1)
df

三、公開資訊觀測站爬蟲

公開資訊觀測站網站連結：https://mops.twse.com.tw/mops/web/index

data為表格型態 ➨ pd.read

點選按鈕 ➨ payload

import pandas as pd
import requests
import io

url = 'https://mops.twse.com.tw/server-java/FileDownLoad'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/111.25 (KHTML, like Gecko) Chrome/99.0.2345.81 Safari/123.36'}
payload = {
    'step': '9',
    'functionName': 'show_file2',
    'filePath': '/t21/sii/', # otc
    'fileName': 't21sc03_110_1.csv'
}

res = requests.post(url,data=payload,headers=headers)

res.encoding = 'utf8'
df = pd.read_csv(io.StringIO(res.text))
# 將不必要的符號去除
df = df.applymap(lambda s:str(s).replace(',','')).set_index('公司代號')
# 將數字轉為數值型態
df = df.applymap(lambda s:pd.to_numeric(str(s),errors='coerce')).dropna(how='all',axis=1)
df

四、鉅亨網爬蟲

鉅亨網網站連結：https://www.cnyes.com/

data為表格型態 ➨ pd.read

點選按鈕 ➨ payload

import pandas as pd
import requests
import io

dfs = pd.DataFrame()
# 將所有頁面的df組合
for page in range(1,50):
    url = f"https://www.cnyes.com/twstock/financial2.aspx?pi={page}&param=2021%E5%B9%B412%E6%9C%88&datetype=ALL&market=T"
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/111.25 (KHTML, like Gecko) Chrome/99.0.2345.81 Safari/123.36'}
    payload = {
        'pi': page,
        'param': '2021年12月',
        'datetype': 'ALL',
        'market': 'T'
    }
    res = requests.post(url,data=payload,headers=headers)
    df = pd.read_html(res.text,header=0)[0]
    if df['代碼'][0] == '無相關資料':
        break
    dfs = dfs.append(df)

# 去除不必要的符號
dfs = dfs.applymap(lambda s:str(s).replace(',','')).set_index('代碼')
# 將數字轉為數值型態
dfs = dfs.applymap(lambda s:pd.to_numeric(str(s),errors='coerce')).dropna(how='all',axis=1)
dfs

結論

網頁爬蟲實戰的上半篇我們爬的網頁資料大多屬於表格（DataFrame）的形式，這代表通常我們只需要到 Network 內尋找向網站 requests 的 url 和 payload 就可以使用 pandas 套件內的功能去成功索取 data，但有些網站的資料看似使用表格去顯示但卻怎麼爬都爬不到怎麼辦呢?

這就代表我們需要解析網頁原始碼來一筆一筆 data 去做整理，想知道如何去爬這些惱人的網站嗎? 那就不要錯過爬蟲實戰，TradingView/CMoney/Yahoo finance－從零開始的Python股票爬蟲教學（四） !

從零開始的Python股票爬蟲教學系列文：

加入LINE社群「量化交易討論群」無壓力討論與分享！

加入Discord 「量化交易討論群」即時獲取實用的資源！

Oscar

具備多年量化經驗，現於外商基金公司擔任量化交易工程師，研究臺股、期貨、加密貨幣等交易策略及回測系統。擅長使用Python網站爬蟲、資料處理、建構回測系統、風險分析，及資料統計視覺化。曾受邀至國立臺北商業大學擔任業師授課。未來將著重在機器學習、神經網路於投資交易上的應用。

文章: 5

爬蟲實戰，台股證交所、公開資訊觀測站、鉅亨網－從零開始的Python股票爬蟲教學（三）

前言

一、爬蟲技巧SOP

二、證交所爬蟲

三、公開資訊觀測站爬蟲

四、鉅亨網爬蟲

結論

從零開始的Python股票爬蟲教學系列文：

Oscar

加密貨幣教學懶人包，手把手帶你搞懂虛擬貨幣如何投資｜比特幣新手入門

MultiCharts教學懶人包，5 步驟無痛上手程式交易｜新手入門

Python程式交易教學懶人包，學Python量化交易必須知道的5件事｜新手入門

MT4 教學懶人包，避開詐騙，小白也能看懂的EA資源分享｜新手入門

受保護的內容: 零基礎入門 Python 自動化投資－程式碼下載與修訂

【MultiCharts 程式交易】｜台指全方位高階班｜量化交易從零到專業，最完整的課程一次入手！

Multicharts費用與各版功能比較，原廠版/專業版/券商版(元大群益等)

【Multicharts 課程】程式交易者必學軟體－MultiCharts｜入門初階班｜輕鬆開啟量化交易之旅！

如何打造自己的第一支EA－MT4 EA語法教學(一)

發佈留言取消回覆

前言

一、爬蟲技巧SOP

二、證交所爬蟲

三、公開資訊觀測站爬蟲

四、鉅亨網爬蟲

結論

從零開始的Python股票爬蟲教學系列文：

Oscar

相關文章

發佈留言取消回覆