Діаграма Венна , що показує адитивні та різницеві відношення серед різних мір інформації , пов'язаних із корельованими змінними X {\displaystyle X} та Y {\displaystyle Y} . Область, яка міститься в обох колах, є спільною ентропією H ( X , Y ) {\displaystyle \mathrm {H} (X,Y)} . Коло ліворуч (червоний і фіолетовий) є особистою ентропією H ( X ) {\displaystyle \mathrm {H} (X)} , в якому червоне є умовною ентропією H ( X | Y ) {\displaystyle \mathrm {H} (X|Y)} . Коло праворуч (синій та фіолетовий) є H ( Y ) {\displaystyle \mathrm {H} (Y)} , а синє в ньому є H ( Y | X ) {\displaystyle \mathrm {H} (Y|X)} . Фіолетове є взаємною інформацією I ( X ; Y ) {\displaystyle \operatorname {I} (X;Y)} . В теорії інформації умо́вна ентропі́я (або ухи́льність , англ. conditional entropy, equivocation ) — це оцінка кількості інформації, необхідної, щоб описати вихід випадкової змінної Y {\displaystyle Y} , враховуючи, що значення іншої випадкової змінної X {\displaystyle X} є відомим. Тут інформація вимірюється в шеннонах , натах або гартлі . Ентропія Y {\displaystyle Y} , обумовлена X {\displaystyle X} записується як H ( Y | X ) {\displaystyle \mathrm {H} (Y|X)} .
Нехай H ( Y | X = x ) {\displaystyle \mathrm {H} (Y|X=x)} є ентропією дискретної випадкової змінної Y {\displaystyle Y} , обумовленою набуванням дискретною випадковою змінною X {\displaystyle X} певного значення x {\displaystyle x} . Нехай Y {\displaystyle Y} має функцію маси ймовірності p Y ( y ) {\displaystyle p_{Y}{(y)}} . Безумовна ентропія Y {\displaystyle Y} обчислюється як H ( Y ) := E [ I ( Y ) ] {\displaystyle \mathrm {H} (Y):=\mathbb {E} [\operatorname {I} (Y)]} , тобто,
H ( Y ) = ∑ i = 1 n P r ( Y = y i ) I ( y i ) = − ∑ i = 1 n p Y ( y i ) log 2 p Y ( y i ) , {\displaystyle \mathrm {H} (Y)=\sum _{i=1}^{n}{\mathrm {Pr} (Y=y_{i})\,\mathrm {I} (y_{i})}=-\sum _{i=1}^{n}{p_{Y}(y_{i})\log _{2}{p_{Y}(y_{i})}},} де I ( y i ) {\displaystyle \operatorname {I} (y_{i})} є інформаційним вмістом набування результатом [en] Y {\displaystyle Y} значення y i {\displaystyle y_{i}} . Ентропію Y {\displaystyle Y} , обумовлену набуванням випадковою змінною X {\displaystyle X} значення x {\displaystyle x} , визначено аналогічно до умовного математичного сподівання :
H ( Y | X = x ) = E [ I ( Y ) | X = x ] = − ∑ i = 1 n Pr ( Y = y i | X = x ) log 2 Pr ( Y = y i | X = x ) . {\displaystyle \mathrm {H} (Y|X=x)=\mathbb {E} [\operatorname {I} (Y)|X=x]=-\sum _{i=1}^{n}{\Pr(Y=y_{i}|X=x)\log _{2}{\Pr(Y=y_{i}|X=x)}}.} H ( Y | X ) {\displaystyle \mathrm {H} (Y|X)} є результатом усереднювання H ( Y | X = x ) {\displaystyle \mathrm {H} (Y|X=x)} над усіма можливими значеннями x {\displaystyle x} , що їх може набувати X {\displaystyle X} .
Для заданих дискретних випадкових змінних X {\displaystyle X} з носієм X {\displaystyle {\mathcal {X}}} та Y {\displaystyle Y} з носієм Y {\displaystyle {\mathcal {Y}}} умовну ентропію Y {\displaystyle Y} відносно X {\displaystyle X} визначають як зважену суму H ( Y | X = x ) {\displaystyle \mathrm {H} (Y|X=x)} для кожного з можливих значень x {\displaystyle x} із застосуванням p ( x ) {\displaystyle p(x)} як вагових коефіцієнтів:[1] :15
H ( Y | X ) ≡ ∑ x ∈ X p ( x ) H ( Y | X = x ) = − ∑ x ∈ X p ( x ) ∑ y ∈ Y p ( y | x ) log p ( y | x ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log p ( y | x ) = − ∑ x ∈ X , y ∈ Y p ( x , y ) log p ( y | x ) = − ∑ x ∈ X , y ∈ Y p ( x , y ) log p ( x , y ) p ( x ) . = ∑ x ∈ X , y ∈ Y p ( x , y ) log p ( x ) p ( x , y ) . {\displaystyle {\begin{aligned}\mathrm {H} (Y|X)\ &\equiv \sum _{x\in {\mathcal {X}}}\,p(x)\,\mathrm {H} (Y|X=x)\\&=-\sum _{x\in {\mathcal {X}}}p(x)\sum _{y\in {\mathcal {Y}}}\,p(y|x)\,\log \,p(y|x)\\&=-\sum _{x\in {\mathcal {X}}}\sum _{y\in {\mathcal {Y}}}\,p(x,y)\,\log \,p(y|x)\\&=-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log \,p(y|x)\\&=-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log {\frac {p(x,y)}{p(x)}}.\\&=\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log {\frac {p(x)}{p(x,y)}}.\\\end{aligned}}} Примітка: Зрозуміло, що вирази 0 log 0 {\displaystyle 0\log 0} та 0 log c / 0 {\displaystyle 0\log c/0} для фіксованих c > 0 {\displaystyle c>0} слід вважати рівними нулеві.
Нульова умовна ентропія [ ред. | ред. код ] H ( Y | X ) = 0 {\displaystyle \mathrm {H} (Y|X)=0} якщо і лише якщо значення Y {\displaystyle Y} повністю визначається значенням X {\displaystyle X} .
Умовна ентропія незалежних випадкових змінних [ ред. | ред. код ] І навпаки, H ( Y | X ) = H ( Y ) {\displaystyle \mathrm {H} (Y|X)=\mathrm {H} (Y)} якщо і лише якщо Y {\displaystyle Y} та X {\displaystyle X} є незалежними випадковими змінними .
Припустімо, що об'єднана система, яку визначають дві випадкові змінні X {\displaystyle X} та Y {\displaystyle Y} , має спільну ентропію H ( X , Y ) {\displaystyle \mathrm {H} (X,Y)} , тобто, нам потрібно в середньому H ( X , Y ) {\displaystyle \mathrm {H} (X,Y)} біт інформації, щоби описати її точний стан. Тепер, якщо ми спочатку дізналися значення X {\displaystyle X} , ми отримали H ( X ) {\displaystyle \mathrm {H} (X)} біт інформації. Щойно X {\displaystyle X} стало відомим, нам потрібно лише H ( X , Y ) − H ( X ) {\displaystyle \mathrm {H} (X,Y)-\mathrm {H} (X)} біт, щоб описати стан системи в цілому. Ця величина в точності дорівнює H ( Y | X ) {\displaystyle \mathrm {H} (Y|X)} , що дає нам ланцюгове правило умовної ентропії:
H ( Y | X ) = H ( X , Y ) − H ( X ) . {\displaystyle \mathrm {H} (Y|X)\,=\,\mathrm {H} (X,Y)-\mathrm {H} (X).} [1] :17 Ланцюгове правило випливає з вищенаведеного означення умовної ентропії:
H ( Y | X ) = ∑ x ∈ X , y ∈ Y p ( x , y ) log ( p ( x ) p ( x , y ) ) = − ∑ x ∈ X , y ∈ Y p ( x , y ) log ( p ( x , y ) ) + ∑ x ∈ X , y ∈ Y p ( x , y ) log ( p ( x ) ) = H ( X , Y ) + ∑ x ∈ X p ( x ) log ( p ( x ) ) = H ( X , Y ) − H ( X ) . {\displaystyle {\begin{aligned}\mathrm {H} (Y|X)&=\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log \left({\frac {p(x)}{p(x,y)}}\right)\\[4pt]&=-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log(p(x,y))+\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}{p(x,y)\log(p(x))}\\[4pt]&=\mathrm {H} (X,Y)+\sum _{x\in {\mathcal {X}}}p(x)\log(p(x))\\[4pt]&=\mathrm {H} (X,Y)-\mathrm {H} (X).\end{aligned}}} В загальному випадку ланцюгове правило для декількох випадкових змінних стверджує, що
H ( X 1 , X 2 , … , X n ) = ∑ i = 1 n H ( X i | X 1 , … , X i − 1 ) {\displaystyle \mathrm {H} (X_{1},X_{2},\ldots ,X_{n})=\sum _{i=1}^{n}\mathrm {H} (X_{i}|X_{1},\ldots ,X_{i-1})} [1] :22 Воно має вигляд, подібний до ланцюгового правила в теорії ймовірностей, за винятком того, що замість множення використовується додавання.
Правило Баєса для умовної ентропії стверджує, що
H ( Y | X ) = H ( X | Y ) − H ( X ) + H ( Y ) . {\displaystyle \mathrm {H} (Y|X)\,=\,\mathrm {H} (X|Y)-\mathrm {H} (X)+\mathrm {H} (Y).} Доведення. H ( Y | X ) = H ( X , Y ) − H ( X ) {\displaystyle \mathrm {H} (Y|X)=\mathrm {H} (X,Y)-\mathrm {H} (X)} і H ( X | Y ) = H ( Y , X ) − H ( Y ) {\displaystyle \mathrm {H} (X|Y)=\mathrm {H} (Y,X)-\mathrm {H} (Y)} . Через симетрію, H ( X , Y ) = H ( Y , X ) {\displaystyle \mathrm {H} (X,Y)=\mathrm {H} (Y,X)} . Віднімання цих двох рівнянь має наслідком правило Баєса.
Якщо Y {\displaystyle Y} є умовно незалежною [en] від Z {\displaystyle Z} за заданої X {\displaystyle X} , то ми маємо
H ( Y | X , Z ) = H ( Y | X ) . {\displaystyle \mathrm {H} (Y|X,Z)\,=\,\mathrm {H} (Y|X).} Для будь-яких X {\displaystyle X} та Y {\displaystyle Y}
H ( Y | X ) ≤ H ( Y ) H ( X , Y ) = H ( X | Y ) + H ( Y | X ) + I ( X ; Y ) , H ( X , Y ) = H ( X ) + H ( Y ) − I ( X ; Y ) , I ( X ; Y ) ≤ H ( X ) , {\displaystyle {\begin{aligned}\mathrm {H} (Y|X)&\leq \mathrm {H} (Y)\,\\\mathrm {H} (X,Y)&=\mathrm {H} (X|Y)+\mathrm {H} (Y|X)+\operatorname {I} (X;Y),\qquad \\\mathrm {H} (X,Y)&=\mathrm {H} (X)+\mathrm {H} (Y)-\operatorname {I} (X;Y),\,\\\operatorname {I} (X;Y)&\leq \mathrm {H} (X),\,\end{aligned}}} де I ( X ; Y ) {\displaystyle \operatorname {I} (X;Y)} є взаємною інформацією X {\displaystyle X} та Y {\displaystyle Y} .
Для незалежних X {\displaystyle X} та Y {\displaystyle Y}
H ( Y | X ) = H ( Y ) {\displaystyle \mathrm {H} (Y|X)=\mathrm {H} (Y)} та H ( X | Y ) = H ( X ) {\displaystyle \mathrm {H} (X|Y)=\mathrm {H} (X)\,} Хоча конкретно-умовна ентропія H ( X | Y = y ) {\displaystyle \mathrm {H} (X|Y=y)} і може бути або меншою, або більшою за H ( X ) {\displaystyle \mathrm {H} (X)} для заданої випадкової варіати [en] y {\displaystyle y} змінної Y {\displaystyle Y} , але H ( X | Y ) {\displaystyle \mathrm {H} (X|Y)} ніколи не може перевищувати H ( X ) {\displaystyle \mathrm {H} (X)} .
Умовна диференціальна ентропія [ ред. | ред. код ] Наведене вище означення є для дискретних випадкових змінних, але в випадку неперервних випадкових змінних воно чинним не є. Неперервну версію дискретної умовної ентропії називають умовною диференціальною (або неперервною) ентропією (англ. conditional differential (continuous) entropy ). Нехай X {\displaystyle X} та Y {\displaystyle Y} є неперервними випадковими змінними з функцією густини спільної ймовірності [en] f ( x , y ) {\displaystyle f(x,y)} . Диференціальну умовну ентропію h ( X | Y ) {\displaystyle h(X|Y)} означують як
h ( X | Y ) = − ∫ X , Y f ( x , y ) log f ( x | y ) d x d y {\displaystyle h(X|Y)=-\int _{{\mathcal {X}},{\mathcal {Y}}}f(x,y)\log f(x|y)\,dxdy} .[1] :249 На противагу до умовної ентропії дискретних випадкових змінних, умовна диференціальна ентропія може бути від'ємною.
Як і в дискретному випадку, для диференціальної ентропії існує ланцюгове правило:
h ( Y | X ) = h ( X , Y ) − h ( X ) {\displaystyle h(Y|X)\,=\,h(X,Y)-h(X)} [1] :253 Зауважте, проте, що це правило може не виконуватися, якщо залучені диференціальні ентропії не існують, або є нескінченними.
Спільну диференціальну ентропію також використано в означенні взаємної інформації між неперервними випадковими змінними:
I ( X , Y ) = h ( X ) − h ( X | Y ) = h ( Y ) − h ( Y | X ) {\displaystyle \operatorname {I} (X,Y)=h(X)-h(X|Y)=h(Y)-h(Y|X)} h ( X | Y ) ≤ h ( X ) {\displaystyle h(X|Y)\leq h(X)} , з рівністю якщо і лише якщо X {\displaystyle X} та Y {\displaystyle Y} є незалежними.[1] :253
Стосунок до похибки оцінювача [ ред. | ред. код ] Умовна диференціальна ентропія дає нижню межу математичного сподівання квадратичної похибки оцінювача . Для будь-якої випадкової змінної X {\displaystyle X} , спостереження Y {\displaystyle Y} та оцінювача X ^ {\displaystyle {\widehat {X}}} виконується наступне:[1] :255
E [ ( X − X ^ ( Y ) ) 2 ] ≥ 1 2 π e e 2 h ( X | Y ) {\displaystyle \mathbb {E} \left[{\bigl (}X-{\widehat {X}}{(Y)}{\bigr )}^{2}\right]\geq {\frac {1}{2\pi e}}e^{2h(X|Y)}} Це стосується принципу невизначеності в квантовій механіці .
Узагальнення до квантової теорії [ ред. | ред. код ] У квантовій теорії інформації умовна ентропія узагальнюється до умовної квантової ентропії [en] . Остання, на відміну від свого класичного аналога, може набувати від'ємних значень.