加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權(quán)保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 1.信息增益是什么意思
    • 2.信息增益計算公式
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

信息增益

2022/12/13
7659
閱讀需 4 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

信息增益是信息熵理論中的一個重要概念。在決策樹算法中,通過計算不同特征對于樣本分類的貢獻程度,來確定哪些特征可以被選擇用于構(gòu)建決策樹。具體來說,信息增益表示某個特征在得知它的取值后,可以讓樣本集合的信息熵下降的程度。

1.信息增益是什么意思

信息增益是衡量使用某個特征劃分數(shù)據(jù)集所能獲得的收益大小。在決策樹算法的訓練過程中,通常從根節(jié)點開始,遞歸地選取當前節(jié)點分支出去的最優(yōu)特征,以此構(gòu)建一棵子樹。進行特征選擇時,通常會計算每個候選特征的信息增益,選取其中信息增益最大的特征作為當前節(jié)點的分裂標準。

2.信息增益計算公式

信息增益的計算涉及到熵的概念,熵可以度量樣本集合的不確定性程度。假設(shè)$D$表示總的樣本集合,$C_k$表示樣本集合的第$k$個類別,$D_k$表示屬于類別$C_k$的樣本子集,$p_k=|D_k|/|D|$ 表示樣本屬于類別$C_k$的概率,則總體熵可以表示為:

$$Ent(D)=-sum_{k=1}^{|y|}p_klog_2p_k$$

在當前節(jié)點分裂后,樣本會被劃分到不同的子節(jié)點中,設(shè)一個特征屬性$A$有$V$個可能取值${a_1,a_2,dots,a_V}$,令$D^v$表示劃分后落入屬性$A$第$v$個取值的子集合,則使用該特征劃分數(shù)據(jù)的信息增益可以表示為:

$$Gain(D,A)=Ent(D)-sum_{v=1}^V frac{|D^v|}{|D|} Ent(D^v)$$

其中的權(quán)重$frac{|D^v|}{|D|}$表示第$v$個屬性值對應(yīng)的樣本占總樣本數(shù)的比例,$Ent(D^v)$表示子集中的樣本的信息熵。

相關(guān)推薦

電子產(chǎn)業(yè)圖譜