概要

決定木(モデル)では、「重要度」という各説明変数に対する指標があります。
下記で詳細を説明しますが、「重要度」は、対象の説明変数について、「作成したモデルにおいて、データ分割の判断基準としての利用・効果の度合い」を数値化したものです。
なので、モデルにおける役割の大きさを表す指標という見方ができ、言い換えると、「重要度で、”目的変数(分類)における対象(説明)変数の影響度合い”が分かる」ので、予測以外の分析でも活用できます。
※決定木については、以下の記事をご参照ください。

詳細

重要度の算出

重要度は、「不純度」を間接的に用いて算出されます。
また、(そのまま使うのではなく、少し加工しますが、)「情報利得」も関連します。
概要として、重要度は「”対象変数の重み付き情報利得”の全体(変数)割合」をです。
※「不純度」、「情報利得」は以下の記事をご参照ください。

重要度

下記で説明する「”重み付き”情報利得」を用いて、下記の通りに算出されます。

学習データの全体件数をN、説明変数の数をlとする。\\\\
また、説明変数kにおける\\\\
["重み付き"情報利得]をIG'_kとする。\\\\
この時、説明変数kにおける[重要度]は下記の通り。\\\\
 \\\\
[重要度] = \frac{IG'_k}{\sum^{l}_{j=1}IG'_j}\\\\
 \\\\
=\frac{[説明変数kの"重み付き"情報利得]}{[全説明変数の"重み付き"情報利得の和]}

重み付き情報利得

「”重み付き”情報利得」は、下式の通り、「”対象ノードのデータ件数を重み付けした不純度“を用いて算出した情報利得」です。

学習データの全体件数をNとし、\\\\
ノードDのデータ件数をn(D)、不純度をI(D)とする。\\\\
※親ノードをD、子ノードがD_1,...D_mの時、\\\\
 n(D)= \sum^{m}_{j=1}n(D_{j})になる。\\\\
 \\\\
この時、\\\\
説明変数kの["重み付き"情報利得]IG'_kは\\\\
下記の通り。\\\\
 \\\\
IG'_k = \sum_{\substack{説明変数kが \\ 分割基準時の \\ 親ノードD \\ と \\ 子ノードD_j \\ (j=1,...m)}}\{n(D)I(D)-\sum^{m}_{j=1}n(D_{j})I(D_{j})\}

By clear

データエンジニア・機械学習・分析等を主とし、Webアプリ開発も行っているフリーランスです。