Entropie condiționată - Conditional entropy

Diagrama Venn care prezintă relații aditive și subtractive diverse măsuri de informații asociate cu variabile corelate și . Zona conținută de ambele cercuri este entropia articulară . Cercul din stânga (roșu și violet) este entropia individuală , roșu fiind entropia condiționată . Cercul din dreapta (albastru și violet) este , cu ființa albastră . Violeta este informația reciprocă .

{\ displaystyle X}

{\ displaystyle Y}

{\ displaystyle \ mathrm {H} (X, Y)}

{\ displaystyle \ mathrm {H} (X)}

{\ displaystyle \ mathrm {H} (X | Y)}

{\ displaystyle \ mathrm {H} (Y)}

{\ displaystyle \ mathrm {H} (Y | X)}

{\ displaystyle \ operatorname {I} (X; Y)}

În teoria informației , entropia condițională cuantifică cantitatea de informații necesare pentru a descrie rezultatul unei variabile aleatorii, având în vedere că valoarea unei alte variabile aleatoare este cunoscută. Aici, informațiile se măsoară în Shannons , TAN , sau hartleys . Entropia condiționată este scris ca . ${\ displaystyle Y}$ ${\ displaystyle X}$ ${\ displaystyle Y}$ ${\ displaystyle X}$ ${\ displaystyle \ mathrm {H} (Y | X)}$

Definiție

Entropia condiționată a GIVEN este definită ca ${\ displaystyle Y}$ ${\ displaystyle X}$

{\ displaystyle \ mathrm {H} (Y | X) \ = - \ sum _ {x \ in {\ mathcal {X}}, y \ in {\ mathcal {Y}}} p (x, y) \ log {\ frac {p (x, y)} {p (x)}}}

( Ec. 1 )

unde și denotă seturile de suport ale și . ${\ displaystyle {\ mathcal {X}}}$ ${\ displaystyle {\ mathcal {Y}}}$ ${\ displaystyle X}$ ${\ displaystyle Y}$

Notă: Este convențional ca expresiile și pentru fix să fie tratate ca fiind egale cu zero. Acest lucru se datorează faptului că și ${\ displaystyle 0 \ log 0}$ ${\ displaystyle 0 \ log c / 0}$ ${\ displaystyle c> 0}$ ${\ displaystyle \ lim _ {\ theta \ to 0 ^ {+}} \ theta \, \ log \, c / \ theta = 0}$ ${\ displaystyle \ lim _ {\ theta \ to 0 ^ {+}} \ theta \, \ log \ theta = 0}$

Explicație intuitivă a definiției: Conform definiției, în cazul în care asociază conținutul informațional al date , care este cantitatea de informații necesare pentru a descrie evenimentul dat . Conform legii numerelor mari, este media aritmetică a unui număr mare de realizări independente ale . ${\ displaystyle \ displaystyle H (Y | X) = \ mathbb {E} (\ f (X, Y) \)}$ ${\ displaystyle \ displaystyle f: (x, y) \ \ rightarrow - \ log (\ p (y | x) \).}$ ${\ displaystyle \ displaystyle f}$ ${\ displaystyle \ displaystyle (x, y)}$ ${\ displaystyle \ displaystyle (Y = y)}$ ${\ displaystyle \ displaystyle (X = x)}$ ${\ displaystyle \ displaystyle (Y = y)}$ ${\ displaystyle (X = x)}$ ${\ displaystyle \ displaystyle H (Y | X)}$ ${\ displaystyle \ displaystyle f (X, Y)}$

Motivație

Să fie entropia variabilei aleatoare discrete condiționată variabila aleatoare discretă de a lua o anumită valoare . Indicați seturile de suport ale și de și . Să aibă funcția de masă de probabilitate . Entropia necondiționată a este calculată ca , adică ${\ displaystyle \ mathrm {H} (Y | X = x)}$ ${\ displaystyle Y}$ ${\ displaystyle X}$ ${\ displaystyle x}$ ${\ displaystyle X}$ ${\ displaystyle Y}$ ${\ displaystyle {\ mathcal {X}}}$ ${\ displaystyle {\ mathcal {Y}}}$ ${\ displaystyle Y}$ ${\ displaystyle p_ {Y} {(y)}}$ ${\ displaystyle Y}$ ${\ displaystyle \ mathrm {H} (Y): = \ mathbb {E} [\ operatorname {I} (Y)]}$

{\ displaystyle \ mathrm {H} (Y) = \ sum _ {y \ in {\ mathcal {Y}}} {\ mathrm {Pr} (Y = y) \, \ mathrm {I} (y)} = - \ sum _ {y \ in {\ mathcal {Y}}} {p_ {Y} (y) \ log _ {2} {p_ {Y} (y)}},}

în cazul în care este conținutul de informații al rezultatului de a lua valoarea . Entropia condiționată de luarea valorii este definită în mod analog de așteptarea condiționată : ${\ displaystyle \ operatorname {I} (y_ {i})}$ ${\ displaystyle Y}$ ${\ displaystyle y_ {i}}$ ${\ displaystyle Y}$ ${\ displaystyle X}$ ${\ displaystyle x}$

{\ displaystyle \ mathrm {H} (Y | X = x) = - \ sum _ {y \ in {\ mathcal {Y}}} {\ Pr (Y = y | X = x) \ log _ {2} {\ Pr (Y = y | X = x)}}.}

Rețineți că este rezultatul medierii asupra tuturor valorilor posibile care pot fi luate. De asemenea, dacă suma de mai sus este preluată asupra unui eșantion , valoarea așteptată este cunoscută în unele domenii ca echivocare . ${\ displaystyle \ mathrm {H} (Y | X)}$ ${\ displaystyle \ mathrm {H} (Y | X = x)}$ ${\ displaystyle x}$ ${\ displaystyle X}$ ${\ displaystyle y_ {1}, \ dots, y_ {n}}$ ${\ displaystyle E_ {X} [\ mathrm {H} (y_ {1}, \ dots, y_ {n} \ mid X = x)]}$

Avand in vedere variabile aleatoare discrete cu imagini și cu imagine , entropia condiționată a GIVEN este definită ca suma ponderată a pentru fiecare valoare posibilă a , folosind ca ponderilor: ${\ displaystyle X}$ ${\ displaystyle {\ mathcal {X}}}$ ${\ displaystyle Y}$ ${\ displaystyle {\ mathcal {Y}}}$ ${\ displaystyle Y}$ ${\ displaystyle X}$ ${\ displaystyle \ mathrm {H} (Y | X = x)}$ ${\ displaystyle x}$ ${\ displaystyle p (x)}$

{\ displaystyle {\ begin {align} \ mathrm {H} (Y | X) \ & \ equiv \ sum _ {x \ in {\ mathcal {X}}} \, p (x) \, \ mathrm {H } (Y | X = x) \\ & = - \ sum _ {x \ in {\ mathcal {X}}} p (x) \ sum _ {y \ in {\ mathcal {Y}}} \, p (y | x) \, \ log \, p (y | x) \\ & = - \ sum _ {x \ in {\ mathcal {X}}} \ sum _ {y \ in {\ mathcal {Y} }} \, p (x, y) \, \ log \, p (y | x) \\ & = - \ sum _ {x \ in {\ mathcal {X}}, y \ in {\ mathcal {Y }}} p (x, y) \ log \, p (y | x) \\ & = - \ sum _ {x \ in {\ mathcal {X}}, y \ in {\ mathcal {Y}}} p (x, y) \ log {\ frac {p (x, y)} {p (x)}}. \\ & = \ sum _ {x \ in {\ mathcal {X}}, y \ in { \ mathcal {Y}}} p (x, y) \ log {\ frac {p (x)} {p (x, y)}}. \\\ end {align}}}

Proprietăți

Entropia condițională este egală cu zero

${\ displaystyle \ mathrm {H} (Y | X) = 0}$ dacă și numai dacă valoarea lui este complet determinată de valoarea lui . ${\ displaystyle Y}$ ${\ displaystyle X}$

Entropia condiționată a variabilelor aleatoare independente

În schimb, dacă și numai dacă și sunt variabile aleatoare independente . ${\ displaystyle \ mathrm {H} (Y | X) = \ mathrm {H} (Y)}$ ${\ displaystyle Y}$ ${\ displaystyle X}$

Regula lanțului

Să presupunem că sistemul combinat determinat de două variabile aleatorii și are entropie comună , adică avem nevoie de biți de informații în medie pentru a descrie starea exactă a acestuia. Acum, dacă învățăm prima dată valoarea , am câștigat informații. Odată cunoscut, avem nevoie doar de biți pentru a descrie starea întregului sistem. Această cantitate este exact , ceea ce dă regula lanțului entropiei condiționate: ${\ displaystyle X}$ ${\ displaystyle Y}$ ${\ displaystyle \ mathrm {H} (X, Y)}$ ${\ displaystyle \ mathrm {H} (X, Y)}$ ${\ displaystyle X}$ ${\ displaystyle \ mathrm {H} (X)}$ ${\ displaystyle X}$ ${\ displaystyle \ mathrm {H} (X, Y) - \ mathrm {H} (X)}$ ${\ displaystyle \ mathrm {H} (Y | X)}$

{\ displaystyle \ mathrm {H} (Y | X) \, = \, \ mathrm {H} (X, Y) - \ mathrm {H} (X).}

Regula lanțului rezultă din definiția de mai sus a entropiei condiționate:

{\ displaystyle {\ begin {align} \ mathrm {H} (Y | X) & = \ sum _ {x \ in {\ mathcal {X}}, y \ in {\ mathcal {Y}}} p (x , y) \ log \ left ({\ frac {p (x)} {p (x, y)}} \ right) \\ [4pt] & = \ sum _ {x \ in {\ mathcal {X}} , y \ in {\ mathcal {Y}}} p (x, y) (\ log (p (x)) - \ log (p (x, y))) \\ [4pt] & = - \ sum _ {x \ in {\ mathcal {X}}, y \ in {\ mathcal {Y}}} p (x, y) \ log (p (x, y)) + \ sum _ {x \ in {\ mathcal {X}}, y \ in {\ mathcal {Y}}} {p (x, y) \ log (p (x))} \\ [4pt] & = \ mathrm {H} (X, Y) + \ sum _ {x \ in {\ mathcal {X}}} p (x) \ log (p (x)) \\ [4pt] & = \ mathrm {H} (X, Y) - \ mathrm {H} (X). \ End {align}}}

În general, o regulă de lanț pentru mai multe variabile aleatoare conține:

{\ displaystyle \ mathrm {H} (X_ {1}, X_ {2}, \ ldots, X_ {n}) = \ sum _ {i = 1} ^ {n} \ mathrm {H} (X_ {i} | X_ {1}, \ ldots, X_ {i-1})}

Are o formă similară cu regula lanțului în teoria probabilității, cu excepția faptului că se folosește adunarea în loc de multiplicare.

Regula lui Bayes

Regula lui Bayes pentru stările de entropie condiționată

{\ displaystyle \ mathrm {H} (Y | X) \, = \, \ mathrm {H} (X | Y) - \ mathrm {H} (X) + \ mathrm {H} (Y).}

Dovadă. și . Simetria presupune . Scăderea celor două ecuații implică regula lui Bayes. ${\ displaystyle \ mathrm {H} (Y | X) = \ mathrm {H} (X, Y) - \ mathrm {H} (X)}$ ${\ displaystyle \ mathrm {H} (X | Y) = \ mathrm {H} (Y, X) - \ mathrm {H} (Y)}$ ${\ displaystyle \ mathrm {H} (X, Y) = \ mathrm {H} (Y, X)}$

Dacă este condiționat independent de dat, avem: ${\ displaystyle Y}$ ${\ displaystyle Z}$ ${\ displaystyle X}$

{\ displaystyle \ mathrm {H} (Y | X, Z) \, = \, \ mathrm {H} (Y | X).}

Alte proprietăți

Pentru orice și : ${\ displaystyle X}$ ${\ displaystyle Y}$

{\ displaystyle {\ begin {align} \ mathrm {H} (Y | X) & \ leq \ mathrm {H} (Y) \, \\\ mathrm {H} (X, Y) & = \ mathrm {H } (X | Y) + \ mathrm {H} (Y | X) + \ operatorname {I} (X; Y), \ qquad \\\ mathrm {H} (X, Y) & = \ mathrm {H} (X) + \ mathrm {H} (Y) - \ operatorname {I} (X; Y), \, \\\ operatorname {I} (X; Y) & \ leq \ mathrm {H} (X), \, \ end {align}}}

unde este informația reciprocă între și . ${\ displaystyle \ operatorname {I} (X; Y)}$ ${\ displaystyle X}$ ${\ displaystyle Y}$

Pentru independent și : ${\ displaystyle X}$ ${\ displaystyle Y}$

{\ displaystyle \ mathrm {H} (Y | X) = \ mathrm {H} (Y)}

și

{\ displaystyle \ mathrm {H} (X | Y) = \ mathrm {H} (X) \,}

Deși entropia specific-condițională poate fi mai mică sau mai mare decât pentru o anumită variabilă aleatorie a , nu poate depăși niciodată . ${\ displaystyle \ mathrm {H} (X | Y = y)}$ ${\ displaystyle \ mathrm {H} (X)}$ ${\ displaystyle y}$ ${\ displaystyle Y}$ ${\ displaystyle \ mathrm {H} (X | Y)}$ ${\ displaystyle \ mathrm {H} (X)}$

Entropie diferențială condiționată

Definiție

Definiția de mai sus este pentru variabile aleatorii discrete. Versiunea continuă a entropiei condiționale discrete se numește entropie condițională diferențială (sau continuă) . Fie și să fie o variabilă continuă aleatorie cu o funcție de densitate a probabilității comune . Entropia condițională diferențială este definită ca ${\ displaystyle X}$ ${\ displaystyle Y}$ ${\ displaystyle f (x, y)}$ ${\ displaystyle h (X | Y)}$

{\ displaystyle h (X | Y) = - \ int _ {{\ mathcal {X}}, {\ mathcal {Y}}} f (x, y) \ log f (x | y) \, dxdy}

( Ec. 2 )

Proprietăți

Spre deosebire de entropia condițională pentru variabilele aleatorii discrete, entropia diferențială condițională poate fi negativă.

Ca și în cazul discret, există o regulă de lanț pentru entropia diferențială:

{\ displaystyle h (Y | X) \, = \, h (X, Y) -h (X)}

Observați totuși că această regulă poate să nu fie adevărată dacă entropiile diferențiale implicate nu există sau sunt infinite.

Entropia diferențială comună este, de asemenea, utilizată în definirea informațiilor reciproce între variabilele aleatoare continue:

{\ displaystyle \ operatorname {I} (X, Y) = h (X) -h (X | Y) = h (Y) -h (Y | X)}

${\ displaystyle h (X | Y) \ leq h (X)}$ cu egalitate dacă și numai dacă și sunt independenți. ${\ displaystyle X}$ ${\ displaystyle Y}$

Relația cu eroarea estimatorului

Entropia diferențială condițională produce o limită inferioară a erorii pătrate așteptate a unui estimator . Pentru orice variabilă aleatorie , observare și estimator, se aplică următoarele: ${\ displaystyle X}$ ${\ displaystyle Y}$ ${\ displaystyle {\ widehat {X}}}$

{\ displaystyle \ mathbb {E} \ left [{\ bigl (} X - {\ widehat {X}} {(Y)} {\ bigr)} ^ {2} \ right] \ geq {\ frac {1} {2 \ pi e}} e ^ {2h (X | Y)}}

Acest lucru este legat de principiul incertitudinii din mecanica cuantică .

Generalizarea la teoria cuantică

În teoria informației cuantice , entropia condițională este generalizată la entropia cuantică condițională . Acesta din urmă poate lua valori negative, spre deosebire de omologul său clasic.

Languages

In other projects

Entropie condiționată - Conditional entropy

Cuprins

Definiție

Motivație

Proprietăți

Entropia condițională este egală cu zero

Entropia condiționată a variabilelor aleatoare independente

Regula lanțului

Regula lui Bayes

Alte proprietăți

Entropie diferențială condiționată

Definiție

Proprietăți

Relația cu eroarea estimatorului

Generalizarea la teoria cuantică

Vezi si

Referințe