网站开源模板网络seo营销推广

当前位置: 首页 > news >正文

网站开源模板,网络seo营销推广,桐乡网站二次开发,网站开发方案怎么写文章目录 一、自信息 I(X)二、信息熵#xff1a;衡量系统的混乱程度信息熵 H(X)联合熵 H(X,Y) 三、条件熵H(Y|X) 联合熵H(X,Y) - 信息熵H(X)四、互信息 I(X,Y)五、总结References 一、自信息 I(X) 自信息(Self-information) 是由香农提出的#xff0c;用来衡量单一事件发生… 文章目录 一、自信息 I(X)二、信息熵衡量系统的混乱程度信息熵 H(X)联合熵 H(X,Y) 三、条件熵H(Y|X) 联合熵H(X,Y) - 信息熵H(X)四、互信息 I(X,Y)五、总结References 一、自信息 I(X) 自信息(Self-information) 是由香农提出的用来衡量单一事件发生时所包含的信息量的多寡单位是bit或nats。 就是说自信息表示某一事件发生时所带来的信息量的多少当事件发生的概率越大其自信息就越小反之亦然。 数学定义
自信息定义为时间发生的概率的负对数。 具体来说设事件 x i x_i xi​ 发生的概率为 p ( x i ) p(x_i) p(xi​)则该事件的自信息量 I ( x i ) I(x_i) I(xi​) 定义为 I ( x i ) − log ⁡ 2 p ( x i ) I(x_i) - \log_2 p(xi) I(xi​)−log2​p(xi​) 函数对应的图像表示如下图所示其中 p p p 表示事件发生的概率。 自信息的含义、性质和应用
小概率事件提供更多的信息小概率事件发生时提供的信息量较大大概率事件发生时提供的信息量较小。不确定性与信息量自信息表示事件发生前的不确定性和事件发生后提供的信息量。小概率事件发生前的不确定性大发生后提供的信息量大大概率事件则相反。自信息与互信息的关系互信息是已知一个事件后另一个事件的不确定性减少的量。互信息可以表示为两个事件的自信息之差。 二、信息熵衡量系统的混乱程度 自信息描述的是随机变量的某个事件发生所带来的的信息量而信息熵通常用来描述整个随机分布所带来的信息量更具有统计特性。 信息熵也叫香农熵代表一个系统中信息量的总和。信息量总和越大表明这个系统的不确定性就越大。 信息熵 H(X) 信息熵定义为对所有可能事件所带来的信息量求期望。 一个随机变量 X X X 的熵 H ( x ) H(x) H(x) 定义为 H ( X ) E x ∼ p [ I ( x ) ] − E x ∼ p [ log ⁡ p ( x ) ] − ∑ x p ( x ) log ⁡ p ( x ) − ∫ x p ( x ) log ⁡ p ( x ) d x \begin{aligned} H(X) E
{x \sim p}[I(x)]-E_{x \sim p}[\log p(x)]\ -\sum_x p(x)\log p(x)\ -\intx p(x) \log p(x)dx \end{aligned} H(X)​Ex∼p​[I(x)]−Ex∼p​[logp(x)]−x∑​p(x)logp(x)−∫x​p(x)logp(x)dx​ 信息熵是各项自信息的累加值。在同样的定义域内熵的关系为脉冲分布信息熵高斯分布信息熵均匀分布信息熵。可以通过数学证明当随机变量分布为均匀分布时即状态数最多时熵最大。熵代表了随机分布的混乱程度。 联合熵 H(X,Y) 推广至多维随机变量的联合分布对于服从联合分布为 p ( x , y ) p(x,y) p(x,y) 的一对离散随机变量 ( X , Y ) (X,Y) (X,Y)其联合信息熵为 H ( X , Y ) − ∑ x , y p ( x , y ) log ⁡ p ( x , y ) H(X,Y)-\sum{x,y} p(x,y) \log p(x,y) H(X,Y)−x,y∑​p(x,y)logp(x,y) 三、条件熵H(Y|X) 联合熵H(X,Y) - 信息熵H(X) 条件熵的定义为在 X X X 给定条件下 Y Y Y 的条件概率分布的熵对 X X X 的数学期望。 H ( Y ∣ X ) E x ∼ p [ H ( Y ∣ X x ) ] ∑ x p ( x ) H ( Y ∣ X x ) − ∑ x p ( x ) ∑ y p ( y ∣ x ) log ⁡ p ( y ∣ x ) − ∑ x ∑ y p ( x , y ) log ⁡ ( y ∣ x ) − ∑ x , y p ( x , y ) log ⁡ p ( y ∣ x ) \begin{aligned} H(Y|X)E{x \sim p}[H(Y|Xx)]\ \sum{x} p(x) H(Y|Xx)\ -\sum_x p(x) \sum_y p(y|x) \log p(y|x)\ -\sum_x \sumy p(x,y) \log(y|x)\ -\sum{x,y} p(x,y) \log p(y|x) \end{aligned} H(Y∣X)​Ex∼p​[H(Y∣Xx)]x∑​p(x)H(Y∣Xx)−x∑​p(x)y∑​p(y∣x)logp(y∣x)−x∑​y∑​p(x,y)log(y∣x)−x,y∑​p(x,y)logp(y∣x)​ 条件熵 H ( Y ∣ X ) H(Y|X) H(Y∣X) 等于联合熵 H ( X , Y ) H(X,Y) H(X,Y) 捡去信息熵 H ( X ) H(X) H(X)即 H ( Y ∣ X ) H ( X , Y ) − H ( X ) H(Y|X) H(X,Y) - H(X) H(Y∣X)H(X,Y)−H(X)。 证明如下 H ( X , Y ) − ∑ x , y p ( x , y ) log ⁡ p ( x , y ) − ∑ x , y p ( x , y ) log ⁡ ( p ( y ∣ x ) p ( x ) ) − ∑ x , y p ( x , y ) log ⁡ p ( y ∣ x ) − ∑ x , y p ( x , y ) log ⁡ p ( x ) H ( Y ∣ X ) − ∑ x , y p ( x , y ) log ⁡ p ( x ) H ( Y ∣ X ) − ∑ x ∑ y p ( x , y ) log ⁡ p ( x ) H ( Y ∣ X ) − ∑ x log ⁡ p ( x ) ∑ y p ( x , y ) H ( Y ∣ X ) − ∑ x p ( x ) log ⁡ p ( x ) H ( Y ∣ X ) − H ( X ) \begin{aligned} H(X,Y) -\sum{x,y} p(x,y) \log p(x,y)\ -\sum{x,y} p(x,y) \log (p(y|x)p(x))\ -\sum{x,y}p(x,y) \log p(y|x)-\sum{x,y} p(x,y) \log p(x)\ H(Y|X) - \sum_{x,y} p(x,y) \log p(x)\ H(Y|X) - \sum_x \sum_y p(x,y) \log p(x)\ H(Y|X) - \sum_x \log p(x) \sum_y p(x,y)\ H(Y|X) - \sum_x p(x) \log p(x)\ H(Y|X) - H(X) \end{aligned} H(X,Y)​−x,y∑​p(x,y)logp(x,y)−x,y∑​p(x,y)log(p(y∣x)p(x))−x,y∑​p(x,y)logp(y∣x)−x,y∑​p(x,y)logp(x)H(Y∣X)−x,y∑​p(x,y)logp(x)H(Y∣X)−x∑​y∑​p(x,y)logp(x)H(Y∣X)−x∑​logp(x)y∑​p(x,y)H(Y∣X)−x∑​p(x)logp(x)H(Y∣X)−H(X)​ 四、互信息 I(X,Y) 互信息定义为一个随机变量由于已知另一个随机变量而减少的不确定性或者说从贝叶斯角度考虑由于新的观测数据y到来而导致x分布的不确定性下降程度。 假设两个离散随机变量 X X X 和 Y Y Y他们的联合概率分布函数为 p ( x , y ) p(x,y) p(x,y)边缘概率分布函数分别为 p ( x ) p(x) p(x) 和 p ( y ) p(y) p(y)。那么互信息 I ( X , Y ) I(X,Y) I(X,Y) 为联合分布 p ( x , y ) p(x,y) p(x,y) 和 p ( x ) p ( y ) p(x)p(y) p(x)p(y) 之间的相对熵即 I ( X , Y ) ∑ x ∑ y p ( x , y ) log ⁡ p ( x , y ) p ( x ) p ( y ) I(X,Y) \sum_x \sum_y p(x,y)\log \frac{p(x,y)}{p(x)p(y)} I(X,Y)x∑​y∑​p(x,y)logp(x)p(y)p(x,y)​ 在连续随机变量的情形下求和被替换成二重定积分 I ( X , Y ) ∫ Y ∫ X p ( x , y ) log ⁡ ( p ( x , y ) p ( x ) p ( y ) ) d x d y I(X,Y) \int_Y \int_X p(x,y) \log(\frac{p(x,y)}{p(x)p(y)})dx dy I(X,Y)∫Y​∫X​p(x,y)log(p(x)p(y)p(x,y)​)dxdy 其中 p ( x , y ) p(x,y) p(x,y) 为 X X X 和 Y Y Y 的联合概率密度函数而 p ( x ) p(x) p(x) 和 p ( y ) p(y) p(y) 分别是 X X X 和 Y Y Y 的边缘概率密度函数。 经过推导互信息可以等价的表示成 I ( X , Y ) H ( X ) − H ( X ∣ Y ) H ( Y ) − H ( Y ∣ X ) H ( X ) H ( Y ) − H ( X , Y ) H ( X , Y ) − H ( X ∣ Y ) − H ( Y ∣ X ) \begin{aligned} I(X,Y) H(X) - H(X|Y)\ H(Y) - H(Y|X) \ H(X) H(Y) - H(X,Y)\ H(X,Y)-H(X|Y) - H(Y|X) \end{aligned} I(X,Y)​H(X)−H(X∣Y)H(Y)−H(Y∣X)H(X)H(Y)−H(X,Y)H(X,Y)−H(X∣Y)−H(Y∣X)​ 直观上互信息度量 X 和 Y 共享的信息它度量知道这两个变量其中一个对另一个不确定度减少的程度。例如如果 X 和 Y 相互独立则知道 X 不对 Y 提供任何信息反之亦然所以它们的互信息为零。在另一个极端如果 X 是 Y 的一个确定性函数且 Y 也是 X 的一个确定性函数那么传递的所有信息被 X 和 Y 共享知道 X 决定 Y 的值反之亦然。因此在此情形互信息与 Y或 X单独包含的不确定度相同称作 Y或 X的熵。而且这个互信息与 X 的熵和 Y 的熵相同。这种情形的一个非常特殊的情况是当 X 和 Y 为相同随机变量时。 此外互信息是非负的而且是对称的即 I ( X , Y ) I ( Y , X ) I(X,Y) I(Y,X) I(X,Y)I(Y,X)。 五、总结 对于随机变量 X X X 和 Y Y Y 他们的熵、联合熵、条件熵以及互信息之间的关系如图所示。 References 什么是「互信息」自信息和互信息、信息熵