今天的內容會帶大家了解
1. 機器學習中資料的切分
2. 為何要進行訓練/測試集切分
3. 不同的切分方法以及意義
為什麼需要切分:機器學習模型需要資料才能訓練
若將手上所有資料都送進模型訓練,這樣就沒有額外資料來評估模型訓練情形!
機器學習模型可能會有過擬合 (Over-fitting) 的情形發生
需透過驗證/測試集評估模型是否過擬合
使用 Python Scikit-learn 進行資料切分
在使用 K-fold Cross-validation 讓結果更加穩定~
有了大概的理解之後,我們開始今天的學習吧!!!