联合熵、条件熵、散度与互信息

AI2

联合熵(Joint Entropy)

联合熵是衡量一组(两个)随机变量的不确定性。

对于两个离散随机变量 ,其联合熵定义为:

其中 的联合概率密度函数。

上述公式的计算是通过将 的所有可能取值组成的信息熵的期望值。

条件熵(Conditional Entropy)

条件熵量化一个随机变量 的结果与另一个随机变量 的结果之间的不确定性

对于离散随机变量 ,其条件熵定义为:

其中 在给定 的情况下的概率密度函数。

考虑是随机变量,因此有 Naive Bayes:

如果做更多改写,则有:

因此我们可以得出

通过类似运算,我们可以获得如下韦恩图:

[https://commons.wikimedia.org/w/index.php?curid=11245361]

相对熵(Relative Entropy)

相对熵又叫 KL 散度,是衡量两个概率分布之间的差异性(或者说距离)。

我们假定两个相对于离散随机变量 的概率分布 , 。对于这两个概率分布,每一个概率都有 ,且

其相对熵定义为:

考虑是对两个概率比值的期望值,因此有:

当且仅当两个概率密度相等时,相对熵为 0。

需要注意的是由于过程中是 的比值,且存在 函数,因此相对熵不是对称的。即

而为了解决不对称的问题,我们可以使用 JSD 散度:

其中 。这一节将不会详细讨论 JSD 散度。

互信息(Mutual Information)

衡量 X 和 Y 共享的信息量

对于随机变量 ,其互信息定义为:

考虑 KL 散度的定义:

如果我们将 替换为 替换为 则有:

因此我们可以认为互信息是 之间的距离。因此如果 相互独立,,则互信息为 0。即:

互信息也可以通过条件熵来表示:

考虑 Naive Bayes:

因此我们获得了

因此我们可以通过多种方式表达互信息:

[https://commons.wikimedia.org/w/index.php?curid=11245361]

互信息的一些性质包括:

  • 非负性:
  • 对称性:
  • 衡量依赖于
    • 当且仅当 相互独立(记为 ),
    • 不仅随 的依赖性而增加,而且随 的依赖性而增加