今天的內容會帶大家了解
1. 決策樹的原理、定義與其使用限制
2. 使用 Gini-index、Entropy 來衡量資料相似程度
3. 決策樹是如何對一筆資料做決策
決策樹 (Decision Tree):透過一系列的是非問題,幫助我們將資料進行切分
可視覺化每個決策的過程,是個具有非常高解釋性的模型
訊息增益 (Information Gain):決策樹模型會用 features 切分資料,
該選用哪個 feature 來切分則是由訊息增益的大小決定的。
希望切分後的資料相似程度很高,通常使用吉尼係數來衡量相似程度
我們可以從構建樹的過程中,透過 feature 被用來切分的次數,來得知哪些 features 是相對有用的
所有 feature importance 的總和為 1,實務上可以使用 feature importance 來了解模型如何進行分類
有了大概的理解之後,我們開始今天的學習吧!!!