Nel 1948
Shnannon compiva un grande
progresso per la matematica: gli riusciva di definire in maniera rigorosa il concetto di
informazione.
Un'introduzione informaleCosa intende Shannon con il termine informazione? Egli intende l'informazione che si ottiene osservando una grandezza casuale. Cerchiamo di spiegarci meglio: supponiamo di lanciare un dado a 8 facce e di nasconderne il risultato. Quanta informazione otteniamo scoprendolo? La risposta sembra ovvia: 3 bit, dato che 2³=8. L'ipotesi nascosta in questa risposta intuitiva è il fatto che noi sappiamo che tutti risultati del dado sono ugualmente probabili.
Supponiamo allora che il dado sia truccato. Molto truccato: ogni volta che lo si lancia, si ottiene un 8. Qual'è l'informazione che noi otteniamo scoprendolo? Ovviamente 0 bit, dato che sapevamo già dall'inizio che avremmo avuto un 8.
Ovviamente sono possibili vie di mezzo: se l'8 è un po' più probabile di 1/8, l'informazione sarà un po' meno di 3 bit, ma comunque maggiore di 0. Quindi la difficoltà sta nel "quantificare questa via di mezzo".
Gli assiomiSi trovano nella sezione 6 dell'articolo di Shannon. La nostra ipotesi è quella di avere a che fare con una variabile casuale discreta. Per essere più specifici: la grandezza X assume i suoi N valori x(i) con probabilità p(i).
Nell'esempio precedente: X=dado, N=8, x(i)=i, p(i)=1/8.
Per prima cosa desideriamo che cambiando p(i) di poco, il contenuto di informazione, che chiameremo d'ora in poi I, cambi di poco. Se il dato è poco truccato, vogliamo che l'informazione sia solo un po' meno di 3 bit.
Assioma 1I è una funzione continua rispetto a tutte le p(i)
Ovviamente, la maggiore quantità di informazione deve essere presente quando tutti gli esiti sono ugualmente possibili: quando il dado, insomma, non è truccato
Assioma 2I ha il suo massimo per p=(1/N, ..., 1/N).
L'ultimo assioma è quello più difficile da spiegare: ma è anche esattamente quello che rende la scoperta di Shannon così fondamentale. Partiamo dall'esempio. Supponiamo di dividere la nostra osservazione in due parti. Prima osserviamo se il risultato è pari o dispari, e poi il risultato della divisione del risultato per 2, arrotondato per eccesso. Cioè: 7 o 8 danno 4, 5 o 6 danno 3 e così via. È chiaro che queste due osservazioni sono equivalenti all'osservazione del risulato: non si perde niente e non si guadagna niente. Noi chiediamo che l'informazione contenuta nell'osservazione del risultato del lancio del dado sia la somma delle informazioni che si ottiene dalle singole osservazioni. Vediamo se funziona nel nostro caso ragionando in maniera intuitivia. Osservare se il numero è pari o dispari ci da 1 bit. Osservare il risultato della divisione per 2 ci da 2 bit, perchè sono 4 possibili risultati equalmente probabili e 2²=4. Dato che 1+2=3 sembra che il contare in bit funzioni.
Assioma 3I è uguale alla somma delle informazioni contenute in una suddivisione equivalente dell'osservazione originaria, pesate con la probabilità con cui le suddivisioni hanno luogo.
Mettendo insieme tutte queste informazioni è facendo un po' di conti (sempre nella sezione 6 dell'articolo), si ottiene che l'unica funzione soddisfacente queste proprietà è
I = - [p(1) log(p(1)) + p(2) log(p(2)) + ... + p(N) log(p(N))]
Informazione ed entropiaSi può anche notare come l'informazione sia anche una misura del disordine presente nel sistema prima della sua osservazione. Più disordinato un sistema, più informazione ci porterà la sua osservazione. Queste è più che un'analogia:
è possibile basare tutta la fisica statistica sul concetto di entropia di Shannon.
PS:
qua il motivo per cui sono interessato a questo problema...