今回は次回の記事で重要になる結合エントロピーについて考えます。
結合エントロピーの展開
結合エントロピーは次式によって求めることが出来ます。
$$ H(x_1,x_2,...,x_D) = \sum_{i=1}^D H(x_i) - \sum_{i=1}^D \sum_{j=i+1}^D I(x_i, x_{j}|x_{j+1},x_{j+2},...,x_D)\quad (1) $$ ここで$I(A,B|C)=H(A|C)+H(B|C)-H(A,B|C)$は条件付き相互情報量です。
証明には次の公式を使います。
・公式1 $H(A,B)=H(A|B)+H(B)\Leftrightarrow H(A|B)=H(A,B)-H(B)$
・公式2 $H(A,B)=H(A)+H(B) - I(A,B)$
チェーンルール $$ H(x_1,x_2,...,x_D)=H(x_1) + \sum_{i=2}^D H(x_i|x_1,...,x_{i-1}) $$ チェーンルールは次のように書き換えることが出来ます。
・公式3 $$ H(x_D,x_{D-1},...,x_1)=H(x_D) + \sum_{i=1}^{D-1} H(x_{D-i}|x_{D-i+1},...,x_D) $$ 先に次の等式を証明します。 $$ H(x_i|x_{i+1},..,x_D) = H(x_i) - \sum_{j=1}^D I(x_i, x_{i+j}|x_{i+j+1},x_{i+j+2},...,x_D)\quad (2) $$ 証明 $$ \begin{align} f_i(j) := H(x_i|x_{i+j},..,x_D) &= H(x_i,x_{i+j},..,x_D) - H(x_{i+j},..,x_D) \\ &= H(x_i,x_{i+j},...,x_{D-1}|x_D) + H(x_D) - H(x_{i+j},..,x_D) \\ &= H(x_i,x_{i+j},...,x_{D-2}|x_{D-1},x_D) + H(x_{D-1}|x_D) + H(x_D) - H(x_{i+j},..,x_D) \end{align} $$ 第1項に立て続けに公式1を適用すると $$ \begin{align} & H(x_i,x_{i+j},...,x_{D-2}|x_{D-1},x_D) + H(x_{D-1}|x_D) + H(x_D) - H(x_{i+j},..,x_D) & \\ & = H(x_i,x_{i+j}|x_{i+j+1},..,x_D) + H(x_D) + \sum_{k=i+j+1}^{D-1} H(x_{D-k}|x_{D-k+1},...,x_D) - H(x_{i+j},..,x_D) & \\ \end{align} $$ 公式3を適用し $$ \begin{align} & = H(x_i,x_{i+j}|x_{i+j+1},..,x_D) + H(x_{i+j+1},...,x_D) - H(x_{i+j},..,x_D)\quad (3) & \end{align} $$ 第1項について、公式2より $$ H(x_i,x_{i+j}|x_{i+j+1},..,x_D) = H(x_i|x_{i+j+1},..,x_D) + H(x_{i+j}|x_{i+j+1},..,x_D) - I(x_i, x_{i+j}|x_{i+j+1},..,x_D) $$ 上式の第2項について、 $$ H(x_{i+j}|x_{i+j+1},..,x_D) = H(x_{i+j},..,x_D) - H(x_{i+j+1},..,x_D) $$ 従って式(3)は、 $$ \begin{align} & H(x_i,x_{i+j}|x_{i+j+1},..,x_D) + H(x_{i+j+1},...,x_D) - H(x_{i+j},..,x_D) & \\ & = H(x_i|x_{i+j+1},..,x_D) + H(x_{i+j},..,x_D) - H(x_{i+j+1},..,x_D) - I(x_i, x_{i+j}|x_{i+j+1},..,x_D) + H(x_{i+j+1},...,x_D) - H(x_{i+j},..,x_D) & \\ & = H(x_i|x_{i+j+1},..,x_D) - I(x_i, x_{i+j}|x_{i+j+1},..,x_D) \end{align} $$ すなわち $$ f_i(j) = f_i(j+1) - I(x_i, x_{i+j}|x_{i+j+1},..,x_D) $$ となり、条件となる変数を一つづつ減らしながら再帰的に展開していくことが出来、$j=D$については、 $$ \begin{align} f_i(D) &= H(x_i|x_D) = H(x_i,x_D)-H(x_D)\\ &= H(x_i)+ H(x_D)-I(x_i,x_D)-H(x_D) \\ &= H(x_i)-I(x_i,x_D) \end{align} $$ となるため式(2)は成り立ちます。
式(1)についても公式3と式(2)を適用することで証明することが出来ます。
$x_i$に正規性の仮定をおくと、$H(A)$は分散に帰着され[1]、$I(A,B|C)$は偏相関に帰着されます[2]。偏相関の計算は回帰分析の残差を使う方法が提案されています[3]。
多変量正規分布のエントロピーの計算には式(1)を使う方法以外にも分散共分散行列の行列式を使って求める方法[4]があります。
結合エントロピーと分散の和の関係
独立な多変量正規分布$P(X_1, X_2,...,X_D)=\Pi_i^D N(\mu_i, \sigma_i^2)$に従う確率変数の結合エントロピーは分散の合計値だけで決まるわけではなく、それぞれの分散のバランス状態によっても変わります。
多変数の独立性から
$$ H(X_1,X_2,...,X_D)=\sum_i^D H(X_i)=\frac{D}{2}\{1+log(2\pi)\}+\frac{1}{2}log(\Pi_i^D \sigma_i^2)$$
ここで$\sum_i^D \sigma_i^2=a$の制約の下で$H(X_1,...,X_D)$が最大化する$\sigma^2$を考えたとき、最適化に影響しない定数及び単調関数を除くと目的関数は$\Pi_i^D \sigma_i^2$となり、相加相乗平均の不等式と累乗根の単調性から、$\sigma_1^2=\sigma_2^2=...=\sigma_D^2$となるときのみ結合エントロピーが最大化することが分ります。
説明変数の結合エントロピー
回帰分析において、平均が0になるよう中心化した説明変数の結合エントロピーはその説明変数の分散共分散行列との関連性が認められるため、そのエントロピーの増大が意味するところは、多重共線性の問題が発生しにくい望ましい状態になる確率が高まることと言えます。
ここで次の線形重回帰モデルを考えます。 $$ y_i = w_1x_{i1} + w_2x_{i2} + \varepsilon_i,\quad \varepsilon_i \sim N(0, \sigma^2),\quad i=1,2,...,n$$ $x$と$y$は中心化されているとします。$w$の最尤推定量は $$ w=(x^Tx)^{-1}x^Ty $$ となります。$x$が中心化されているため、$(x^Tx)$は分散共分散行列を$n$倍したものになります。$(x^Tx)_{ij}=n a_{ij}$とし、上式に基づいて$w_1$を求める式を計算すると、次式になります。 $$ \begin{align} w_1 &= \sum_{i=1}^n y_i \frac{n(x_{i1}a_{22} - x_{i2}a_{12})}{n^2(a_{11}a_{22} - a_{12}a_{21})} \\ &= \frac{1}{n}\sum_{i=1}^n y_i \frac{x_{i1}a_{22} - x_{i2}a_{12}}{a_{11}a_{22} - a_{12}^2} \quad (4) \end{align} $$ $a_{12}$が大きくなれば$(x^T)_1$と$y$との関連性の高さに関係なく$w_1$が大きくなってしまい本来の意味を持ちません。一方$a_{12}=0$とした場合、上式は$x, y$が中心化されていることに留意して $$ \frac{1}{n}\sum_{i=1}^n y_i \frac{x_{i1}a_{22} - x_{i2}a_{12}}{a_{11}a_{22} - a_{12}^2} = \frac{1}{n}\sum_{i=1}^n \frac{y_i x_{i1}}{a_{11}} = \rho_{y,1}\frac{\sigma_y}{\sigma_{x,1}} $$ となり、本来の意味を持ちます。$\rho_{y,j}$は$y$と$(x^T)_j$との相関係数で、$\sigma_{x,j}$、$\sigma_y$はそれぞれ$(x^T)_j$及び$y$の標準偏差です。
また、$a_{22}$を大きくしても相対的に$a_{12}$が回帰分析に与える影響を小さくすることが出来、本来の意味を持ちます。加えて、式(4)を分散$a_{jj}$の関数として見たとき、分母は2次式、分子は1次式となるため、分散の合計が回帰係数に影響を与えます。さらに言うと$a_{11}+a_{22}=b$の制約下で分母の$a_{11}a_{22}$が最大の値を取るのは前節で解説した通り、結合エントロピーと同じく、$a_{11}=a_{22}$となる時であることが分かります。以上をまとめると、説明変数同士の相関の小ささ、分散の合計、分散のバランス性の3つが回帰係数に影響を与えるため、式(1)及び前節での結論を踏まえると説明変数の結合エントロピーが増加すると、解がスパースになる傾向がうかがえます。このことから、汎化能力の観点から、説明変数のエントロピーの重要性を認識することが出来ます。
参考文献
- 正規分布のエントロピーを丁寧に計算する
- 正規分布に従う連続確率変数の相互情報量の推定は相関係数の推定に帰着される
- Partial correlation - Wikipedia
- Entropy of the multivariate Gaussian