Власна інформація

В теорії інформації вла́сна інформ́ація (англ. self-information), або несподі́ваність (англ. surprisal), — це міра кількості інформації, пов'язаної з подією в імовірнісному просторі, або зі значенням дискретної випадкової величини. Вона виражається в одиницях інформації, наприклад, в бітах, натах або гартлі, залежно від основи логарифма, який застосовується в обчисленнях.

Термін власна інформація іноді використовують як синонім такого пов'язаного поняття теорії інформації, як ентропія. Ці два значення не тотожні, і ця стаття описує лише перший сенс.

Визначення

[ред. | ред. код]

За визначенням, кількість власної інформації, яка міститься в імовірнісній події, залежить лише від імовірності цієї події: що меншою є її ймовірність, то більшою є власна інформація, пов'язана з отриманням інформації про те, що ця подія дійсно відбулася.

Далі, за визначенням, міра власної інформації є додатною та адитивною. Якщо подія є перетином двох незалежних подій та , то кількість інформації при оголошенні про те, що подія сталася, дорівнює сумі кількостей інформації в оголошеннях про подію та подію відповідно:

.

Із врахуванням цих властивостей, власною інформацією , пов'язаною з виходом з імовірністю , є

Це визначення відповідає наведеним вище умовам. У наведеному визначенні не вказано основу логарифма: при застосуванні основи 2 одиницями будуть біти. При застосуванні логарифма за основою одиницею буде нат. Для логарифма за основою 10 одиницею буде гартлі.

Як швидке пояснення, кількістю інформації, пов'язаною з випадінням 4 аверсів (або будь-якого конкретного виходу) в 4 послідовних підкиданнях монети, буде 4 біти (ймовірність 1/16), а кількістю інформації, пов'язаною з отриманням результату, відмінного від вказаного, буде 0.09 біт (імовірність 15/16). Див. докладніші приклади нижче.

Інформаційна ентропія випадкової події — це математичне сподівання її власної інформації.

Власна інформація є прикладом власного оцінювального правила[en].

Приклади

[ред. | ред. код]
  • При підкиданні монети шансом «реверсу» є 0.5. Коли проголошується, що справді випав «реверс», то це дає кількість
I(«реверс») = log2 (1/0.5) = log2 2 = 1 біт інформації.
  • При викиданні правильного грального кубика ймовірність «четвірки» становить 1/6. Коли проголошується, що випала «четвірка», то кількістю власної інформації є
I(«четвірка») = log2 (1/(1/6)) = log2 (6) = 2.585 бітів власної інформації.
  • При незалежному викиданні двох гральних кубиків кількість інформації, пов'язаної з {викидання 1 = «два» і викидання 2 = «чотири»}, дорівнює
I(«викиданням 1 є два і викиданням 2 є чотири») = log2 (1/P(викидання 1 = «два» і викидання 2 = «чотири»)) = log2 (1/(1/36)) = log2 (36) = 5.170 біт.
Цей вихід дорівнює сумі окремих кількостей власної інформації, пов'язаних із {викидання 1 = «два»} і {викидання 2 = «чотири»}; а саме, 2.585 + 2.585 = 5.170 біт.
  • В тій самій ситуації з двома гральними кубиками ми можемо розглядати інформацію, присутню в твердженні «Сумою двох гральних кубиків є п'ять»
I(«Сумою викидів 1 та 2 є п'ять») = log2 (1/P(«викиди 1 та 2 дають у сумі п'ять»)) = log2 (1/(4/36)) = 3.17 біт. Причиною (4/36) є те, що існує чотири варіанти з 36 можливих, щоби два кубики давали в сумі 5. Це показує, що складніші або неоднозначніші події теж можуть давати інформацію.

Власна інформація розбиття

[ред. | ред. код]

Власною інформацією розбиття елементів у межах множини (або кластерування) є математичне сподівання інформації перевірного об'єкту; якщо ми обираємо елемент навмання, і спостерігаємо, в якому розділі/кластері він перебуває, то яку кількість інформації ми сподіваємося отримати? Інформацією розбиття , в якому позначає частку елементів у межах розділу , є[1]

Відношення до ентропії

[ред. | ред. код]

Ентропія — це математичне сподівання власної інформації значень дискретної випадкової величини. Іноді й саму ентропію називають «власною інформацією» випадкової величини, можливо, тому, що ентропія задовольняє , де є взаємною інформацією із самою собою.[2]

Примітки

[ред. | ред. код]
  1. Marina Meilă; Comparing clusterings—an information based distance; Journal of Multivariate Analysis, Volume 98, Issue 5, May 2007 (англ.)
  2. Thomas M. Cover, Joy A. Thomas; Elements of Information Theory; p. 20; 1991. (англ.)

Література

[ред. | ред. код]
  • C.E. Shannon, A Mathematical Theory of Communication, Bell Syst. Techn. J., Vol. 27, pp 379–423, (Part I), 1948. (англ.)
  • Підручник «Теорія Інформації та Кодування» В. М. Плотніков

Посилання

[ред. | ред. код]