lunedì, dicembre 15, 2008

L'alchimista I

Quando lessi questo post di Dario Bressanini rimasi molto affascinato, e decisi immediatamente di fare alcuni esperimenti culinari.

I primi, a dire il vero, furono abbastanza deludenti, ma questo fine settimana, approfitando della visita di un'amica della mia ragazza, ho deciso di provarci ancora.

Così sabato sera ho deciso di estendere il mio risotto radicchio e gorgonzola con qualche sapore un po' fuori dai canoni. Foodpairing sentenziò: salsa di soya.

Ecco come procedere: imbiondite una cipolla e buttateci il radicchio perchè cacci l'acqua (io di solito ci aggiungo un po' di sale, così mi illudo di velocizzare il tutto tramite osmosi). Quando è rimasta c'è un po' d'acqua del radicchio, aggiungeteci una spruzzata abbondante di salsa di soia. Procedete poi col risotto vero e proprio secondo manuale.

Il risultato non è stato affatto male, anzi!

Oggi invece, ho fatto una crema di carote col burro d'arachidi, che normalmente odio con tutta la mia anima. Accettabile secondo me (non ci posso fare niente, non lo sopporto il burro d'arachidi), buona secondo la mia ragazza.

To come: uno studio sistematico sulla parmigiana.

Che domenica non mi è venuta bene e ho deciso di aggredire il problema da un punto di vista scientifico.

domenica, dicembre 14, 2008

MCCN VIII

Giovedì abbiamo trattato il problema delle correlazioni fra variabili casuali - come al solito, la dispensa è qui.

Una famiglia di variabili casuali è detta indipendente se la distribuzione di probabilità si lascia fattorizzare nel prodotto delle probabilità marginali. Evidentemente, se X eY sono indipendenti, allora EXY=EXEY. In questo caso, si dice che X e Y non sono correlate.

Un errore che avviene molto spesso è quello di confondere correlazione e causalità. Cioè, dall'osservazione di una correlazione non nulla fra due variabili si deduce che una relazione causale fra le due variabili è presente. In realtà, ci sono vari effetti che possono indurre correlazioni.

1) Causalità diretta: ovviamente se X è la causa di Y, allora X e Y saranno correlate. In termini matematici: se Y=f(X), allora le due variabili non sono indipendenti; in genere, dunque, la covarianza delle due variabili, che è una possibile misura della loro correlazione, sarà non nulla.

2) Causalità comune: se X e Y sono due effetti della stessa causa, allora X e Y saranno correlate, in genere. Cioè, se Z è una variabile casuale, e f e g sono due funzioni non invertibili tali che X=f(Z) e Y=g(Z), allora, in generale, X e Y saranno correlate.

3) Dinamiche di reti: supponiamo adesso che X e Y siano immerse in una rete di interazioni. Allora, anche se X e Y non sono causalmente collegate, ne' hanno un input comune, di solito saranno correlate.

Qui trovate un breve script in python che mostra come 1) e 2) sono due effetti di dimensioni comparabili. Vengono create tre reti neurali elementari con delle dinamiche neuronali molto semplici. Ogni neurone può essere attivo o meno; se è attivo, ha una certa probabilità di emettere un potenziale d'azione che può cambiare il livello di attività degli altri neuroni.

La prima rete neurale è formata da un neurone di input e uno di output. Viene misurata il coefficiente di correlazione fra l'input e l'output.
La seconda rete (di controllo) è formata da due copie di reti I/O. Viene misurata il coefficiente di correlazione fra i due output.
La terza rete è formata da un input collegato a due diversi neuroni di output. Viene misurata il coefficiente di correlazione fra i due output.

Si può osservare che nel secondo caso il coefficiente di correlazione è 0 come atteso. Nel primo caso è tipicamente di un ordine di grandezza superiore al terzo caso; dato che però, a seconda dei parametri, le grandezza in gioco variano di più di un ordine di grandezza, non è possibile distinguere 1) da 3) a priori.

PS: ovviamente consiglio di installare python. Se l'avete fatto, per far funzionare lo script copiate il file in una cartella, entrate nella cartella e digitate in una console

'run mininetwork.py'

Dopo qualche secondo appariranno i risultati della simulazione. Se dovesse impiegare troppo tempo, aprite il file dello script e diminuite il numero degli steps della simulazione, si spiega da solo come farlo.

martedì, dicembre 09, 2008

MCCN VII

Giovedì scorso abbiamo incominciato ad occuparci di reti. La prima cosa che abbiamo discusso è il principio di autoconsistenza.

Il principio di autoconsistenza per reti è in qualche maniera simile al principio di autoconsistenza di Novikov per la risoluzione del viaggio nel tempo. Lì si richiede che l'effetto di un'azione sia consistente con la sua causa, in quello per reti si richiede che l'output di un'unità sia consistente col suo input.

Il p.d.a. si può formulare nella maniera seguente. Per prima cosa ci serve il concetto di rete computazionale. Questo è un oggetto costruito nella seguente maniera. I nodi sono delle funzioni che trasformano una variabile di stato (che consideriamo essere nello stesso spazio per tutti i nodi) in un output, eventualmente in maniera probabilistica. L'output è sempre nello stesso spazio per tutti i nodi.

I lati e i loro pesi sono specificati da una certa matrice di connessione. Ogni nodo possiede anche una funzione di input che trasforma gli output di altre unità in una variazione della propria variabile di stato.

Poniamo le variabili di stato in uno stato iniziale. Procediamo quindi per tempi discreti. Al tempo 1 questo viene trasformato in un output, che diventa un input per le altre unità. Questo input viene utilizzato per aggiornare le variabili di stato. A questo punto siamo pronti per il tempo 2 e così via iterando.

Esistono stati stazionari di una rete computazionale? Come si trovano?

Si noti che l'output al tempo n+1 è una funzione dell'input al tempo n, che a sua volta una funzione dell'output al tempo n. In formule

O[n+1]=F(I[n])=G(O[n])

Se input e output sono stazionari otteniamo il sistema

O=F(I), I=G(0)

Questa è la prima equazione di autoconsistenza, dove I e O sono vettori. Si noti che abbiamo soppresso (barando) la dipendenza dalla variabile di stato, e quindi l'equazione non aiuta molto, di solito. Supponiamo adesso che la rete sia omogenea, cioè che le funzioni di input e output e le connessioni siano tutte uguali fra loro, o, alternativamente, scelte in maniera indipendente dalla stessa distribuzione. Allora l'equazione vettoriale precedente si riduce ad una equazione scalare, eventualmente per i valori attesi nel caso probabilistico. Inoltre si ha che l'input è identico all'output e quindi si ottiene la seconda equazione di autoconsistenza

O=F(X,O)

dove abbiamo ripristinato la dipendenza dalla variabile di stato.

domenica, dicembre 07, 2008

Operazioni senza riporto

Questo fine settimana l'ho passato ad insegnare matematica alla cugina della mia ragazza. E mentre le spiegavo in ancora un'altra maniera la divisone polinomiale, ho capito a cosa servono i polinomi, e anche perchè i polinomi sono meglio dei numeri.

Consideriamo un numero N. Evidentemente, N si può scrivere come

a_n10^n+ a_{n-1} 10^{n-1} + \ldots + a_0

dove gli a_n altro non sono che le cifre del numero in base 10. Si noti ch la decomposizione è unica, dato che i coefficienti devono essere naturali fra 1 e 10. In efftti, contando in base 10,

N=a_na_{n-1}\ldots a_0

Ovviamente si può fare lo stesso sostituendo 10 con 2 (notazione binaria) o con qualsiasi altro naturale venga in mente.

A cosa serve? Per quale motivo lo scrivere i numeri in questa maniera è stata una delle più grandi conquiste dell'umanità? Principalmente a questo: se abbiamo fissato una base, è possibile addizionare, moltiplicare o dividere numeri fra loro semplicemente applicando degli algoritmi alla sequenza di cifre che lo rappresentano.

Il problema di tutti questi algoritmi è il riporto. Sia sommando, che moltiplicando, che dividendo numeri fra loro, è possibile che i coefficienti di una certa potenza di 10 (o di 2, o della base scelta) si sommino in maniera tale da portare ad un cambio di potenza.

Mi spiego con un esempio. Nella somma di 5 e 5, ognuno dei due sommandi e una potenza zeresima di 10, mentre il risultato è una potenza prima di 10. Le potenze della base si sono mischiate! Per tenere conto di questo fatto è necessario "fare il riporto", cioè tenere conto di come le potenze di un certo grado si sono sommate per dare origine ad una potenza di grado superiore.

Nei polinomi tutto questo non esiste! Per prima cosa notiamo che scrivere un polinomio mi da una rappresentazione parametrica dei numeri, in cui la base scelta è un parametro. Per capire cosa voglio dire, si osservi che la forma di un polinomio

a_nx^n+ a_{n-1} x^{n-1} + \ldots + a_0

e analoga alla rappresentazione di un numero in somme di potenze di 10, se sostitutiamo i coefficienti interi fra 0 e 9 con coefficienti reali e 10 con x.

Il grande vantaggio dei polinomi è che le potenze della variabile non possono sommarsi per ottenere un elemento di grado maggiore! Quello che voglio dire è che

ax +bx \quad \mbox{differisce da} \quad x^2

per ogni scelta dei valori a e b. Nel senso che il primo polinomio non è mai uguale al secondo nel senso dell'uguaglianza di funzioni, anche se possono assumere lo stesso valore per un certo valore di x.

A rigore, dunque, addizione, moltiplicazione e divisione di polinomi sono più facili di quelle fra numeri, dato che possono essere eseguite senza riporto. Un esempio? Voglio eseguire la moltiplicazione

(x^3 + 3x^2 + 5)(2x^2 -5 x)

A scuola avreste insultato l'insegnate, dato che sono un trinomio e un binomio: fanno sei termini da sommare appropriatamente! Eseguiamo invece la moltiplicazione dei coefficienti senza riporto

\begin{array}{ccccccc}&&1& 3 & 0& 5 & \times \\&&&2&-5& 0 & =\\\hline\\&&0& 0 & 0& 0\\& -5& -15& 0& -25 & - \\ 2 & 6& 0 & 10& -&\\\hline\\ 2 & 1& -15& 10& -25& 0\end{array}

Il risultato della moltiplicazione dei polinomi è dunque

 2x^5 + x^4 -15x^3 +10x^2 -25x

Eseguire la moltiplicazione nella maniera convenzionale porta, ovviamente, allo stesso risultato.

C'è un prezzo da pagare per questa semplicità: il problema dell'unicità della rappresentazione di un numero è molto più complesso che nel caso delle basi fisse.

giovedì, dicembre 04, 2008

Giovedì

Oggi riflettevo che per qualche motivo esoterico ed astrale, da quando sono venuto in Germania, il giovedì è sempre il giorno in cui più ho da fare.

mercoledì, dicembre 03, 2008

Processi puntuali con interazioni

Giovedì scorso ho tenuto la mia prima presentazione al BCCN.

Ciò su cui lavoro al momento è un'estensione non-lineare del modello di Hawkes per famiglie di processi puntuali che si influenzano a vicenda.

Un processo puntuale è una successione di tempi: se stiamo trattando un neurone, il processo puntuale sarà un modello dei tempi ai quali il neurone emette un potenziale d'azione. In un processo puntuale singolo la grandezza più significativa è l'intensità condizionata.

L'intensità condizionata è la probabilità al tempo t di avere un evento, dato che l'ultimo evento si sia verificato a t-T. Nel modello lineare di Hawkes, eventi di un processo puntuale producono un aumento nell'intensità condizionata di un altro processo puntuale, che poi ritorna lentamente alla sua intensità condizionata originale. Ovviamente, il primo processo influenza il secondo nella stessa maniera.

Il problema è che questo modello non permette interazioni inibitorie fra processi. Se il primo processo abbassasse di un certo livello l'intensità condizionata del secondo, allora si correrrebbe il rischio di un'intensità condizionata minore di 0, che è assurdo, dato che è una probabilità.

La soluzione, allora, è quella di far si che l'abbassamento dell'intensità condizionata dipenda dal livello attuale, in maniera da evitare che vada sotto zero. La maniera più semplice di realizzare questo meccanismo è una regola moltiplicativa. Questo è esattamente quello che faccio io: processi puntuali che interagiscono moltiplicativamente.

martedì, dicembre 02, 2008

MCCN VI

L'ultima volta ci siamo occupati di derivare l'equazione di Fokker-Planck.

Più che spiegare la derivazione, che, come al solito, si trova qua, e forse più interessare spiegare cosa descrive.

Il punto di partenza è una particella singola che si muova sotto l'azione di un'equazione differenziale


\dot{u}(t)= F(t,u(t)) + s(t)


Ovviamente, supponiamo che lo stato iniziale u(0) sia noto. Nell'equazione, s(t) è un segnale casuale che "disturba" il movimento della particella. Supponiamo adesso di avere un insieme di particelle identiche, tutte sottoposte alla stessa dinamica, e che NON interagiscono.

Chiamiando p(t,x) la distribuzione degli stati di queste particelle, possiamo supporre che p(t,x) sarà sottoposta ad una equazione dinamica che sia in qualche maniera derivabile dall'espressione di F e dalle statistiche di s.

Non è sembre possibile farlo, ma in alcuni casi si. Per esempio se s(t) è un rumore bianco e F=0, allora otteniamo un moto browniano, e la corrispondente equazione di Fokker-Planck è l'equazione di diffusione.

Se invece s(t) è un rumore bianco e F(u)=-Cu è una funzione lineare, allora otteniamo un processo di Ornstein–Uhlenbeck. L'equazione di Fokker-Planck è un'equazione di diffusione con un termine di primo grado.

Le cose diventano più complicate se s(t) non è un rumore bianco. Ma questi argomenti sono ben al di la di quanto possiamo trattare su un blog.

lunedì, dicembre 01, 2008

Frustrazione

Nell'ultima settimana sono falliti altri due tentativi per calcolare la distribuzione asintotica delle intensità del mio integratore stocastico.

Le corna che tiene!

giovedì, novembre 27, 2008

Respiro

Tre settimane fa: EURANDOM ad Eindhoven.

Due settimane fa: preparazione di due workshop.

Sabato scorso: Molloy a Tübingen per i 35 anni dell'AGFA.

Oggi: seminario a Friburgo.

Nel frattempo: esercitazioni di neuroscienze computazionali.

Speriamo che da domani riesca a mettermi a fare un po' di ricerca attiva, prima di dimenticarmi la matematica.

martedì, novembre 25, 2008

MCCN V

Sono un po' in ritardo con gli aggiornamenti dalla lezione. La settimana scorsa abbiamo spiegato due cose fondamentali: il teorema del limite centrale e il processo di Wiener. Parliamo un po' del primo.

Il teorema del limite centrale è quella legge che afferma che la somma di variabili casuali i.i.d. converge ad una distribuzione normale. La dimostrazione si può trovare dappertutto: non è difficile, e sono richiesti alcuni ingredienti.

Uno lo voglio spiegare oggi.

Ingrediente 1: la funzione caratteristica e i momenti di una variabile casuale

La funzione caratteristica di una variabile casuale X è definita tramite

\phi_X(t) := {\mathbb E}(e^{itX})

Se X ha una densità, allora la funzione caratteristica altro non è che la trasformata di Fourier della densità. Sfruttando il fatto che si possono scambiare integrale e derivata facciamo questo piccolo calcolo:

\left.\frac{d}{dt}\int e^{itx} f(x)dx \right|_{t=0} = \int ix f(x) dx = i {\mathbb E}(X)

Si vede che il valore atteso di X è la derivata in 0 della funzione caratteristica moltiplicato per -i. Integrando analogamente e inducendo, si ottiene la famosa formula

i^{-n}\left.\frac{d^n}{dt^n}\int e^{itx} f(x)dx \right|_{t=0} = {\mathbb E}(X^n)


Per completezza elenco gli ingredienti necessari a comprendere la dimostrazione classica del teorema del limite centrale.

Ingrediente 2: la formula di Eulero per la definizione di e. Cioè la prima caratterizzazione qui.

Ingrediente 3: lo sviluppo in serie di Taylor di una funzione.

Ingrediente 4: il fatto che la distribuzione normale è invariante sotto l'azione della trasformata di Fourier. Questo è un mistero che ricorre in tutte le parti della matematica.

domenica, novembre 23, 2008

PISA

Quando parlo a miei amici di ciò che mi da fastidio dell'Italia, uno dei miei esempi preferiti è la mancanza di considerazione per il lavoro intellettuale, ed, in genere per la cultura.

Un esempio evidente è quello della reazione agli studi studi PISA,
una indagine internazionale promossa dall'OCSE nata con lo scopo di valutare con periodicità triennale il livello di istruzione degli adolescenti dei principali paesi industrializzati,
per citare Wikipedia.

Quando arrivarono i risultati della prima tornata, nel 2000, in Germania si aprì un grande dibattito perchè i risultati degli studenti tedeschi non corrispondevano a quello che ci si immaginava, essi erano circa al 20° posto su 40 nazioni. Obiettivo del dibattito: trovare una soluzione per migliorare la qualità dell'insegnamento, magari prendendo ad esempio paesi come la Finlandia risultati ai vertici della graduatoria. Ovviamente non ci sono state soluzioni condivise o grandi azioni politche, ma per lo meno c'era un interesse pubblico alla qualità dell'istruzione. Fatto sta che la Germania ha ottenuto dei notevoli miglioramenti fra il 2000 e il 2006, guadagnando quasi una decina di posizioni, soprattutto nelle discipline scientifiche.

E in Italia? Data la scarsa risonanza avuta dallo studio in Italia, si sarebbe portati a pensare che l'Italia è uscita alla grande da questi test; d'altra parte, è diffusa in Italia la convinzione di possedere un sistema scolastico d'eccellenza.

La verità è ben altra: nella prima valutazione, quella del 2000, l'Italia si è piazzata intorno al 24° posto, con una posizione più o meno a seconda della disciplina. C'è stato un dibattito? No. Che io sappia, la maggior parte degli italiani ignora l'esistenza di tale valutazione internazionale.

E l'effetto di questa scarsa considerazione è che l'Italia non ha migliorato i propri punteggi. In "Matematica" e "Scienze" è rimasta sostanzialmente stabile. Nella categoria "Lettura" ha perso circa 20 punti; se si pensa che un anno scolastico corrisponde a circa 25-30 punti, la cosa è inquietante.

giovedì, novembre 20, 2008

Una cosa poco nota...

Tutti conoscono il teorema del limite centrale: media di una sequenza di variabili i.i.d. con media 0 converge a N(0,n), dove N è la distribuzione normale, in formule

\frac{X_1 + \ldots + X_n}{n} \to {\mathcal N}(0,n),\quad n \to \infty

Meno nota è una sua semplice applicazione. Supponiamo che la nostra sequenza i.i.d. abbia 1 come valore atteso. Invece di considerare la media aritmetica, consideriamone la media geometrica data da

\sqrt[n]{X_1 \times \ldots \times X_n}

Il logaritmo della media geometrica è dato da

\frac{\log X_1 + \ldots + \log X_n}{n}

Queste sono variabili indipendenti, e quindi convergono a una distribuzione normale.
Esponenziando tutto quello che c'era all'inizio otteniamo: il prodotto di variabili i.i.d. con media 1 converge ad una distribuzione logonormale.

PS: tutto quello che ho detto vale a meno di qualche normalizzazione opportuna...

lunedì, novembre 17, 2008

MCCN0809 - III & IV

Per una settimana sono mancato e la lezione l'ha tenuta un collega.

Giovedì abbiamo introdotto i processi puntuali. Secondo la mia personale opinione, la maniera più elegante per descrivere un processo puntuale è quella tramite l'hazard function che è spiegata nella terza parte dell'1.5 della dispensa.

L'idea (banale) è quella di considerare un processo puntuale come una funzione indicatrice con supporto casuale, e poi determinare la probabilità infinitesimale che ogni punto della retta reale cada nel supporto (casuale) di tale indicatrice.

(Nella precedente lezione si era fatto solo un po' di trasformata di Fourier, nulla di grandioso).

domenica, novembre 16, 2008

Bernoulli

Spesso mi piace pensarlo: uno dei piaceri più sottili della matematica è scoprire banalità di cui non ci si era mai accorti.

Consideriamo, a mo' d'esempio, una variabile casuale di Bernoulli (non so quante volte ho già linkato la pagina di Wiki sulle variabili casuali...). Essa vale 1 con probabilità 1/2 e vale -1 con probabilità 1/2. Nel caso di una famiglia composta da due variabili di Bernoulli indipendenti è semplice capire come faremo ad assegnare le probabilità: ognuno dei quattro valori possibili, cioè


(1,1), (1,-1), (-1,1), (-1,-1)


è assunto dalla nostra famiglia di variabili casuali con probabilità 1/4.

Ugualmente si prosegue per una famiglia composta da N variabili di Bernoulli indipendenti. Ognuno dei 2^N valori ha probabilità 2^-N e siamo tutti contenti.

Ma che succede se consideriamo infinite variabili indipendenti di Bernoulli? Succedono due cose gravi. La prima è che se divido 1 per 2^N ottengo 0 e quindi non è chiaro che misura debba avere ognuna delle successioni del tipo (1,1,-1,1,-1,...) nel nostro spazio di probabilità.

Più che grave, questa faccenda sarebbe solo un po' ironica, perchè se mi è richiesto di simulare una tale sequenza, scrivo rapidamente un programmo in pseudocodice

while 0<1:
print random in {0,1}

e mi cavo d'impiccio. Quindi sono ina situazione in cui so esattamente di cosa parlo, ma non so scriverlo in matematica.

Allora potrebbe venirmi in mente di usare una qualche variante della NSA e assegnare ad ogni successione un valore infinitesimo pari 1/|2^N|.

E qua arriva la seconda cosa grave: quel numero infinito |2^N| è un mostro, perchè è più che numerabile!

Non so perchè, ma quando mi sono accorto di questo inghippo sono rimasto un po' basito.

martedì, novembre 11, 2008

Ferrovie

L'altro giorno ero in treno e pensavo al fatto che anche la ferrovia tedesca fa ritardi. O tempora, o mores! dicevo fra me e me. Tanto vale me ne rimanevo in Italia.

Ma come mai allora ho l'impressione che in Germania sia connessi meglio col treno?

Perchè Bochum-Freiburg (501 km su google maps) viene compiuta, con un cambio, in 4h10', alla signora media oraria di 120 Km/h.

Mentre in Italia Bari-Roma (455 km, diretto) viene compiuta in 4h37', alla media oraria di 98 Km/h. E il treno tedesco fa anche 10 stazioni intermedie, una ogni 50 Km, quello italiano 4, una ogni 110 Km.

Opperbacco, potenza dei numeri!

sabato, novembre 01, 2008

EURANDOM

Da domani sono qua per una settimana. Se avrò internet, proverò ad aggiornare un po' il blog con i contenuti della conferenza. Altrimenti starò una settimana in silenzio.

La conferenza è organizzata da EURANDOM, una fondazione finanziata dall'NWO e dall'università di Eindhoven che spiega così il suo obiettivo.

The mission of EURANDOM is to foster research in the stochastic sciences and their applications. It achieves this mission:

* by recruiting and training talented young researchers and helping them to find their way to tenured positions in academia and industry

* by carrying out and facilitating research through postdoctoral and graduate appointments, visitor exchange and workshops

* by taking initiatives for collaborative research at the European level.


Faccio notare che l'NWO è un'agenzia statale olandese. Forse bisogna spiegare a Brunetta che risultati nell'ambito della ricerca e della formazione non si ottengono tagliando i fondi...

giovedì, ottobre 30, 2008

MCCN0809 - II

Today, the first exercises about real neuroscience models are coming.

lunedì, ottobre 27, 2008

Sprechi

Ci sono i baroni universitari, i corsi universitari per appena 10 studenti e cosi' via

Renato Brunetta sugli sprechi all'università


Vorrei far presente al ministro che in tutti i corsi avanzati che ho seguito all'università, in Germania, i professori facevano i salti di gioia se arrivavano a 10 studenti.

D'altra parte voglio vedere come si fa ad avere più di 10 studenti per "Teoria spettrale" o "Teoria dell'informazione", se l'intera facoltà ha 100 immatricolati all'anno...

domenica, ottobre 26, 2008

Sulle origini del monopolio maschile della violenza

Ieri sera, dopo il secondo bicchiere di vino rosso, io e la mia ragazza abbiamo elaborato una teoria sul perchè in quasi tutte le società del mondo gli uomini hanno il monopolio della violenza e delle armi.

1. Lemma
La detenzione di un'arma rende più probabile la morte violenta del detentore.

Questo pensiamo sia vero per vari motivi: il motivo principale è che in una società molto primitiva gli scontri per l'accesso alle risorse erano probabilmente molto comuni. In questo caso, i detentori d'arma erano coloro che tendevano a combattere con altri detentori d'arma, dato che i non detentori si astenevano per paura, accontentandosi degli avanzi; probabilmente l'effetto netto di tale abitudine era l'aumento del tasso di mortalità degli armati. Probabilmente anche la partecipazione alla caccia era fonte di rischio per i detentori d'armi.

2. Generazione casuale di tradizioni
Per motivi puramente statistici, ci saranno state delle società e culture in cui ambo i sessi avevano accesso alle armi, altre in cui erano riservate agli uomini e altre in cui erano riservate alle donne.

3. Selezione
Quale società o cultura avrà avuto il maggior successo? Ovviamente quelle in cui l'accesso alle armi era riservato agli uomini! Le altre, infatti, erano demograficamente svantaggiate; infatti il tasso di nascita massimo annuale di una popolazione è, per motivi evidenti, approssimativamente uguale alla percentuale di donne. In tale maniera, si sono imposte e perpetuate società in cui le donne non avevano accesso alle armi.

giovedì, ottobre 23, 2008

MCCN0809 - I

Da oggi comincerò ad aggiornare il compendio di matematica per il corso di Neuroscienze Computazionali di cui curo le esercitazioni.

L'esercizio più divertente di oggi riguarda il fatto che sistemi dinamici discreti lineari possono essere "sensibili" ad alcuni sottospazi.

Soluzioni lineari a problemi non lineari

Fissiamo una retta R e un vettore v di C^n. C'è una maniera algoritmica, iterativa che permetta di calcolare il vettore u su R che sia più vicino a v?

Ecco la soluzione "dinamica": si costruisca una matrice M che abbia come autospazio per l'autovalore 1 esattamente la retta R e tale che tutti gli altri autovalori siano in valore assoluto minori di 1. Allora non è difficile far vedere che le potenze M^n applicate a v convergono esattamente ad u.

Ovviamente il problema sta nel trovare una M con le proprietà richieste. Altrettanto ovviamente, risolvere questo problema è, purtroppo, esattamente equivalente al problema di trovare u direttamente...

mercoledì, ottobre 22, 2008

Appunti

Da un po' di tempo ho preso l'abitudine di prendere appunti su internet, quando leggo un articolo o un libro, invece che sui solito fogli volanti.

Qua i risultati.

martedì, ottobre 21, 2008

Statistiche

Leggendo le opere di alcuni scienziati, si rimane impressionati dalla disarmante semplicità delle loro spiegazioni. Uno di questi è sicuramente Feller, di cui Introduction to the probability theory and its applications è sicuramente un'opera magistrale.

Se doveste aver tempo e doveste essere in possesso della terza edizione, apritelo al secondo capitolo, alla sezione 5, paragrafo (a) e leggetevi la spiegazione delle distinzioni fra le statistiche di Maxwell-Boltzmann, di Bose-Einstein e di Fermi-Dirac.

L'idea è la seguente: si devono suddividere K oggetti in N stati, ed è necessario specificare qual è la probabilità che le particelle vengano suddivise in una certa maniera.

Distribuzione di Maxwell-Boltzmann
Ogni suddivisione è ugualmente probabile.

Distribuzione di Fermi-Dirac
Ogni suddivisione con al massimo 1 oggetto in ognuno degli N stati è ugualmente probabile.
Non sono ammesse suddivisioni con più di una particella per stato.

Distribuzione di Bose-Einstein
Le suddivisioni si possono distinguere solo per il numero di oggetti in ognuno degli stati.
Ognuna di queste classi di suddivisione è ugualmente probabile.

La differenza fra la Maxwell-Boltzmann è la Bose-Einstein è sottile ed è dovuta al fatto che le diverse classi contengono differenti quantità di suddivisioni, per cui suddivisioni corrispondenti a classi con molte possibili suddivisioni sono meno probabili che nella distribuzione di Maxwell-Boltzmann.

Se avete il libro, confrontate la spiegazione cristallina di Feller con le spiegazioni confuse e barocche di Wikipedia (qui, qui e qui), che non mettono in evidenza come il problema chiave sia essenzialmente di natura combinatoria e non abbia nulla a che vedere con il significato fisico delle distribuzioni.

mercoledì, ottobre 15, 2008

Time rescaling

Leggendo un articolo su Neural Computation mi sono accorto che gli autori utilizzano un trucco molto interessante.

Supponiamo di avere un sistema S che ad ogni input i associa un output S(i).
Supponiamo ulteriormente che i che si evolva a causa della legge di/dt= F(i(t)).

Sarebbe interessante scrivere S direttamente in funzione del tempo, cioè passare dalla variabile i(t) ad una variabile u che abbia la stessa dimensione del tempo reale, in maniera da poter scrivere S(u) come se u fosse la variabile indipendente temporale.

Detto in altre parole, quello che voglio fare è trovare una trasformazione T dell'input, tale che u=T(i(t)) e du/dt=1. A quel punto, se scrivo formalmente S(u) posso trattare u direttamente come un parametro temporale, dato che la derivata temporale di u è costantemente uguale a 1.

È difficile da fare? Beh no... basta osservare che da una parte

du/dt = T'(i(t)) di/dt = T'(i(t)) F(i(t))

ma dall'altra

du/dt=1

per cui

T'(i(t))= 1/F(i(t))

Cioè la trasformazione T è semplicemente un integrale indefinito di 1/F!

lunedì, ottobre 13, 2008

Sedici pietre

Tornato da una conferenza a Monaco ho riletto oggi un pezzo decisamente surreale di Beckett preso da Molloy, in cui lui cerca di succhiare ordinatamente 16 pietruzze... qui l'unico riferimento su internet che sono riuscito a trovare.

Il problema che assilla Molloy è basato sulla seguente considerazione matematica.

Definizione

Per ogni k in N, il gruppo Nk è il gruppo quoziente di N rispetto alla relazione di equivalenza definita dalla divisibilità per k

Esempio

Teniamoci sul semplice: N3={0,1,2} e l'addizione in N3 è definita ponendo 0 come elemento neutro, e poi definendo 1+1=2, 2+1=3 e 2+2=1. Cioè N3 è l'insieme dei naturali N, dove però gli elementi degli insiemi {0,3,6,...}, {1,4,7,...}, {2,5,8,...} sono identificati fra loro.

Proprietà

Si noti che nell'insieme N3 vale 0+1=1, 1+1=2, e 2+1=0. Quindi il sistema dinamico discreto su N3 definito da f(n)=n+1 è periodico in N3. Una delle tre possibili orbite è {0,1,2,0,1,...} e le altre sono facili da immaginare.

Prima o poi, spero, spiego cosa c'entra con Beckett...

giovedì, ottobre 02, 2008

Canone inverso con scambio non standard

Algebricamente chiuso è il campo razionale
differisce solo un poco dal corpo dei reali.
Si completi il primo, infatti, topologicamente,
secondo la teoria del sommo Bourbaki.
Allargando, allargando, ora logicamente,
e aumentando solo un poco il corpo dei reali,
otteniamo, meraviglia!, il campo iperreale.


Letture suggerite

N. Bourbaki, Topologie générale
D. Hofstadter, Gödel, Escher, Bach: an Eternal Golden Braid
A. Robinson, Nonstandard Analysis

mercoledì, ottobre 01, 2008

Simmetrie di gauge (III)

Scrivo per consigliare la lettura di questo bell'articolo di Terence Tao sulle simmetrie di gauge. Lui sceglie di introdurre le invarianze di Gauge a partire da un punto di vista geometrico.

È un po' complicato, ma vale la pena di leggerlo con calma.

giovedì, settembre 25, 2008

Servizio Pubblico - Trasformata di Fourier (III)

Oggi parliamo di trasformata di Fourier.

Incomincio col rimandare ad una introduzione di Terence Tao al problema: qui il post del suo blog dove annuncia l'articolo. La prima volta che la lessi non ho trovato l'introduzione particolarmente entusiasmante, ma leggendola ieri mi è piaciuta molto di più. È da leggere, soprattutto se si è interessati ad un punto di vista più astratto sull'argomento.

Definizione

Data una funzione f, la sua trasformata di Fourier, che denotiamo Ff, è definita tramite

(Ff)(\omega) = \int_{-\infty}^{\infty} f(t) e^{- i \omega t} dt

Ci sono varie possibilità di aggiungere la radice di 2 pi greca in varie parti dell'espressione, ma non ha molta importanza.

Interpretazione

Cosa fa la trasformata di Fourier? La maniera più semplice di capirlo è pensare ad una funzione come ad un segnale elettrico: f(t) è il valore di un certo potenziale al momento t. Si può immaginare che questo potenziale sia dovuto alla sovrapposizione del campo elettrico di vari oggetti: elettroni che girano attorno al nucleo, atomi che vibrano, molecole polari che ruotano, una lacuna elettronica che si muove in un conduttore. Molti di questi fenomeni sono periodici, facendo che si che questo segnale elettrico sia la sovrapposizione di fantastiliardi di oscillazioni periodiche, ognuna con la sua determinata frequenza.

Può essere allora molto più interessante conoscere la quantità di energia del segnale ad ogni frequenza, piuttosto che il valore assoluto del potenziale ad un certo momento. Questo è esattamente ciò che fa la trasformata di Fourier: decomporre un segnale nelle diverse frequenze che partecipano a costruirlo, comprese le loro fasi.

Un breve esercizio

Dato che la trasformata di Fourier opera una decomposizione nelle frequenze, ci si aspetta che traslare una funzione non cambi il valore assoluto della trasformata di Fourier, ma solo la sua fase. Per impratichirci calcoliamo che è così. Quello che vogliamo calcolare è la trasformata di Fourier Fg della funzione definita tramite

g(t)=f(t-a)

dove a è un qualsiasi numero reale. In altre parole, dobbiamo calcolare l'integrale

(Fg)(\omega)=\int_{-\infty}^{+\infty} f(t-a) e^{-i\omega t} dt

Passando alla variabile s=t-a e utilizzando la formula per il cambio di variabili si ottiene

\int_{-\infty}^{+\infty} f(t-a) e^{-i\omega t} dt=\int_{-\infty}^{+\infty} f(s) e^{-i\omega (s+a)} ds

Adesso abbiamo finito! È sufficiente utilizzare la proprietà della funzione esponenziale ed estrarre la parte che non dipende da s dall'integrale, ottenendo

(Fg)(\omega)= e^{-i\omega a}(Ff)(\omega)

In pratica: la traslazione della funzione originaria determina un cambio di fase dipendente dalla frequenza della trasformata di Fourier. Questo vuol dire, in particolare, che il valore assoluto quadrato della trasformata di Fourier, cioè l'energia contenuta in una particolare frequenza, non dipende da eventuali traslazioni.

lunedì, settembre 22, 2008

Ammenda (II)

Cosa non si legge su New Scientist!

Una breve premessa; qualche anno fa discutevamo col mio professore di Tübingen sul perchè nel mondo accademico ci sono meno donne che uomini. In quella particolare discussione, la mia tesi era che nel mondo accademico, in particolare in quello scientifico, è necessario un forte spirito di competizione per riuscire. E, dato che, come è ben noto, le donne hanno (statisticamente) meno spirito di competizione degli uomini, questo fa una differenza sul grande numero, causando una prevalenza degli uomini in ambito accademico.

Ben noto? Il New Scientist riporta di una esperimento condotto su gruppi omosessuali di bambini. Messi in condizione di dover competere per ottenere degli orsacchiotti, la vera differenza fra i due gruppi non era nella quantità di competitività o meno, quanto nelle tattiche utilizzate per assicurarsi l'orsacchiotto.

Divertente da leggere, e di nuovo un'ammenda da fare...

venerdì, settembre 19, 2008

Steve Jay Tyrell

In questo periodo sono in vena di associazioni improbabili. Quella di oggi è fra questo articolo di Gould e Lewontin (a proposito: grazie a hronir e Blade Runner, che ho rivisto qualche giorno fa.

Più precisamente, quando Roy si reca dal dr. Tyrell per pretendere di vivere più a lungo, Tyrell (chiamato da Roy "the god of the biomechanics", uno degli epiteti più fulminanti che mi sia capitato di ascoltare) chiude la conversazione con la celebre frase "una candela che arde col doppio dello splendore, brucia per metà tempo".

Da questo, si potrebbe dedurre che Tyrell è un adattazionista, seguendo la terminologia di Gould. Sarebbe bello creare dei replicanti ancora più efficienti, ma l'equilibrio fra i diversi caratteri richiede che essi vivano di meno, se vogliono essere così efficienti.

Se, però, si ascoltano le motivazioni che Tyrell adduce precedentemente, esse sono prettamente biomeccaniche; egli stesso sembra credere nella possibilità teorica di concedere a Roy più vita, ma le condizioni al contorno di tipo strutturale non glielo permettono. Da questo punto di vista, si potrebbe dire che Tyrell è pluralista, sempre nel senso di Gould.

Ora, queste sono ovviamente speculazioni prive di fondamento; l'unica cosa interessante che solletica un po' la fantasia è che l'articolo di Gould e Lewontin è del 1979. Purtroppo, controllando le biografie degli sceneggiatori su Wikipedia, pare che ambedue non avessero alcuna conoscenza in fisica.

Però è divertente notare come, casualmente o meno, Tyrell venga fuori come un profondo pluralista, che per farsi capire da non tecnici (e se mi ricordo bene, prima del riassunto finale con la metafora della candela, Tyrell sospira e dice "but this is only academy") deve adottare un linguaggio semplificatore e adattazionista.

martedì, settembre 16, 2008

De memoris

In questo post sul blog che tengo con due miei cari amici si è sviluppata una interessante discussione sulla differenza fra la memoria procedurale e la memoria dichiarativa.

Stavo riflettendo che in matematica c'è un'interessante analogia che riguarda la definizione delle funzioni.

Cos'è una funzione? (Versione dichiarativa)

La risposta rigorosa, diciamo Bourbakistica è questa.

Definizione
Una funzione è una terna (A,B,R) dove A e B sono insiemi e R è un sottoinsieme del prodotto cartesiano A x B tale che se (a,b) e (a',b') sono in R, allora b=b'

L'idea sottesa a questa definizione è che una funzione altro non è che una lista, che accanto ad ogni valore della variabile indipendente (gli a in A) riporta uno ed un solo valore della variabile dipendente (il b in B tale che (a,b) in R).

Definire una funzione in questa maniera è rigoroso e utile. Tuttavia non corrisponde alla maniera in cui pensiamo. Quando definiamo una funzione, infatti, pensiamo a delle operazioni da eseguire, e non ad una lista di valori!

Cos'è una funzione? (Versione procedurale)

La risposta intuitiva, empirica, è quella che si dava nel 1800. Una funzione è una legge di associazione. Una funzione è definita se per ogni valore x so calcolare f(x).

Vantaggi e svantaggi

Cominciamo coi vantaggi della maniera procedurale. I vantaggi della maniera dichiarativa li sappiamo: è la maniera rigorosa con la quale si fa matematica.

Però pensiamo adesso di voler definire la funzione quadrato, cioè f(x):=x**2. Se vogliamo definirla in maniera dichiarativa, dobbiamo decidere in quali insieme tale funzione deve vivere. Dobbiamo scrivere, ad esempio, f:R-->R, f(x)=x**2 se vogliamo parlare del quadrato nei numeri reali, f:C-->C, f(x)=x**2 se vogliamo parlare del quadrato nei numeri complessi. Un po' complicato, no?

Ovviamente possiamo salvarci definendo f:A-->A, f(x)=x*x, dove A è uncampo, ma non è questo il punto. Il punto è che non possiamo dire: sia f(x)=x*x ogni qualvolta abbia senso, perchè staremmo quantificando su l'insieme totale che contiene tutte le strutture algebriche.

Fin qua è solo un problema formalistico, quasi di estesi. Un problema più grave si presenta nel caso in cui alla mia funzione definita in maniera procedurale non corrisponda nessuna funzione dichiarativa. Fissiamo una funzione continua f a valori reali. Decidiamo di definire la funzione g tramite l'operazione

g(x) = lim n(f(x+1/n)-f(x))

Ovviamente questo limite può esistere o non esistere. (O scelto di prendere il limite rispetto a n invece della definizione normale di derivata per evitare polemiche del tipo: ma guarda che non puoi definire il limite di una funzione se la funzione non è definita in maniera dichiarativa, etc...)

Il problema adesso è che non è possibile definire g in maniera dichiarativa, se non applicando una sorta di ragionamento circolare: trovo l'insieme D dove il limite esiste, e poi scrivo

g: D-->R, g(x) := lim n(f(x+1/n)-f(x))

In pratica, la definizione dichiarativa di g deve contenere la definizione procedurale di g. Poco soddisfacente.

giovedì, settembre 11, 2008

Telefonini

Sarà perchè adesso sto studiando teoria dell'informazione intensamente, ma questo articolo di Staglianò su Repubblica sull'importanza del cellulare per lo sviluppo economico nel terzo mondo mi ha colpito.

martedì, settembre 09, 2008

Coupled parabolic systems

The paper of Delio Mugnolo and mine "Qualitative properties of coupled parabolic systems of evolution equations" appeared some days ago in the journal Ann. Scuola Norm. Pisa.

The Laplace operator on a domain can be understood as the operator associated with the quadratic form defined by


a(f)=\int_D |\nabla f|^2 dx


In fact, it is possible to develop a theory for quadratic forms on Hilbert spaces, characterizing those forms having a "good" associated operator. We call this operator A.

It turns out that properties of the quadratic form are reflected from properties of the solution of the equation

du(t)/dt=Au(t).

Most notably, invariance of convex sets of the Hilbert space can be characterized in terms of properties of the quadratic form. To be more specific: if S is closed convex set, then there is an algebraic characterization in terms of the form of the fact that solutions that start in S also stay in S - this is known as Ouhabaz's criterion.

If the Hilbert space has a product structure and it is infinite dimensional (as C²=C x C, C³= C x C x C,... in the finite dimensional case), then it is possible to write the quadratic form as a kind of matrix of quadratic forms. More interesting: the properties of the solutions are obtained applying finite dimensional arguments to the properties of the infinite dimensional forms, and this is what we discuss in the paper.

Further readings: the preprint on arxiv, an introduction to the theory of forms, the home page of the book of Ouhabaz, my PhD thesis.

venerdì, settembre 05, 2008

Pascal applicato

Come avrete notato c'è un sacco di polemica dovuta all'appello alla commissione europea per i diritti umani di Rössler e altri per la pericolosità dell'accensione del Large Hadron Collider. Si può leggere qualche informazione su questa isteria di massa qui e qui.

Sul merito dell'argomento dirò una sola cosa: ho sentito una volta una conferenza di Rössler, e posso dire che è uno scienziato molto acuto che ama moltissimo le provocazioni.

Più interessante, per me, è la seguente osservazione: l'accensione del LHC è molto simile alla scommessa di Pascal.

Nella scommessa di Pascal si ragiona come segue: se credo in Dio, allora ci sono due possibilità. Se Dio esiste, ho vinto il paradiso e quindi ho un guadagno infinito; se Dio non esiste non ho perso niente; se proprio volete fare la domenica altro che andare in chiesa, diciamo che avete una perdita finita, che chiamiamo C. Se non credo in Dio ci sono anche due possibilità: o Dio non esiste, e non guadagno niente. O Dio esiste, e allora non guadagno comunque niente perchè non vado in paradiso. Detto in termini matematici, denotando con E il valore atteso:

E[Felicità | Fede] = P(Dio)*(infinito) + P(non Dio)*(-C) ~ infinito

mentre

E[Felicità | non Fede] = P(Dio)*0 + P(non Dio)*0 = 0

Ergo, secondo Pascal, bisogna credere in Dio per motivi probabilistici. Nel caso del LHC ragioniamo così. La nostra variabile è il sapere dell'umanità, il cui valore attuale è S. Ovviamente, se l'umanità viene distrutta da un buco nero, il suo sapere si riduce a 0. Inoltre assumiamo che il LHC aumenti il sapere dell'umanità di una quantità C >>).
Utilizziamo l'approssimazione P(Buco Nero) ~ 0 e calcoliamo:

E[Sapere Umanità | LHC acceso] = P(Buco Nero)*0 + P(non Buco Nero)*(S+C) ~ S+C

Al contrario

E[Sapere Umanità | LHC spento] = S.

Quindi se vogliamo ottimizzare il sapere dell'umanità, dobbiamo accendere il LHC. Un'altra grandezza che vorremmo poter ottimizzare è il progresso. Il progresso P(E) dovuto ad un'azione A si misura con la formula

P(A)=S(A)/S(non A)

cioè il rapporto fra il sapere prima e il sapere dopo l'evento. Calcoliamo come prima

E(P(accensione LHC)) = P(Buco Nero)*0/(S+C) + P(non Buco Nero)*(S+C)/S ~ S+C/S

mentre

E(P(non accensione LHC)) = 1.

Anche in questo caso otteniamo come risultato che conviene accendere il LHC.

Buon lavoro al CERN.

giovedì, settembre 04, 2008

Enigma

Cominciamo con la base dell'induzione:

\begin{pmatrix}1 & 1\\0&1\end{pmatrix}^2=\begin{pmatrix}1 & 2\\0&1\end{pmatrix}

Tramite il passo induttivo

\begin{pmatrix}1 & n\\0&1\end{pmatrix}\begin{pmatrix}1 & 1\\0&1\end{pmatrix}=\begin{pmatrix}1 & n+1\\0&1\end{pmatrix}

si ottiene la relazione

\begin{pmatrix}1 & 1\\0&1\end{pmatrix}^n=\begin{pmatrix}1 & n\\0&1\end{pmatrix}

Enigma

Cosa c'entra la relazione di cui sopra con le catene di Markov?

Se non doveste venirne a capo, vi basta aspettare qualche giorno: al massimo sabato.

martedì, settembre 02, 2008

Teoria alfa - assiomi numerici

Continuo la discussione iniziata qui e qui deglia assiomi della teoria alfa di Benci e Di Nasso.

Oggi parliamo degli:

ASSIOMI NUMERICI

1) Se f è una successione costante, cioè f(n)=c per ogni n, allora f(Q)=c.

2) Se f è l'identità, cioè f(n)=n per ogni n, allora f(Q)=Q; Q non è un numero naturale.

Vanno ovviamente comparati con i corrispondenti assiomi di estensioni 1) e 2).

La cosa più interessante è messa in evidenza nell'articolo stesso: l'assioma 2 è anche un esempio di una successione con la seguente proprietà: tutti gli f(n) sono in un certo insieme A, ma il valore ideale di f non è nello stesso insieme. Dato che l'insieme in questione è N, questo rende chiaro ancora una volta che f(Q) è simile al limite, ma è diverso.

Con l'assioma 1 e l'assioma di composizione si possono cominciare a fare conti scolastici:

Esempio

Si definisca f(n)=n²-1. Per l'assioma numerico 1), f(Q) = (n-->n²)(Q) - 1 = Per l'assiome di composizione, (n-->n²)(Q)=(n-->n)(Q)², e così otteniamo f(Q)=(n-->n)(Q)²-1. Per l'assioma numerico 2) (n-->n)(Q)=Q e quindi f(Q)=Q²-1. Lo stesso ragionamento vale per i polinomi.

Proposizione

Se P è un polinomio in x, allora P(Q) è il valore ottenuto sostituendo Q a x.

venerdì, agosto 29, 2008

Notazioni

Una fantastica notazione presa da questo articolo.

Sia A un insieme di numeri reali: per indicare l'insieme B definito da {1} se 1 è in A, e vuoto altrimenti, la notazione comune sarebbe

B = {1} intersecato A.

Gli autori invece scrivono

B={1: 1 in A},

come a dire B è l'insieme di tutti quegli 1 che sono in A.

Mi sembra una maniera poetica per sottolineare il principio di identità.

giovedì, agosto 28, 2008

Informazione

Nel 1948 Shnannon compiva un grande progresso per la matematica: gli riusciva di definire in maniera rigorosa il concetto di informazione.

Un'introduzione informale

Cosa intende Shannon con il termine informazione? Egli intende l'informazione che si ottiene osservando una grandezza casuale. Cerchiamo di spiegarci meglio: supponiamo di lanciare un dado a 8 facce e di nasconderne il risultato. Quanta informazione otteniamo scoprendolo? La risposta sembra ovvia: 3 bit, dato che 2³=8. L'ipotesi nascosta in questa risposta intuitiva è il fatto che noi sappiamo che tutti risultati del dado sono ugualmente probabili.

Supponiamo allora che il dado sia truccato. Molto truccato: ogni volta che lo si lancia, si ottiene un 8. Qual'è l'informazione che noi otteniamo scoprendolo? Ovviamente 0 bit, dato che sapevamo già dall'inizio che avremmo avuto un 8.

Ovviamente sono possibili vie di mezzo: se l'8 è un po' più probabile di 1/8, l'informazione sarà un po' meno di 3 bit, ma comunque maggiore di 0. Quindi la difficoltà sta nel "quantificare questa via di mezzo".

Gli assiomi

Si trovano nella sezione 6 dell'articolo di Shannon. La nostra ipotesi è quella di avere a che fare con una variabile casuale discreta. Per essere più specifici: la grandezza X assume i suoi N valori x(i) con probabilità p(i).

Nell'esempio precedente: X=dado, N=8, x(i)=i, p(i)=1/8.

Per prima cosa desideriamo che cambiando p(i) di poco, il contenuto di informazione, che chiameremo d'ora in poi I, cambi di poco. Se il dato è poco truccato, vogliamo che l'informazione sia solo un po' meno di 3 bit.

Assioma 1
I è una funzione continua rispetto a tutte le p(i)

Ovviamente, la maggiore quantità di informazione deve essere presente quando tutti gli esiti sono ugualmente possibili: quando il dado, insomma, non è truccato

Assioma 2
I ha il suo massimo per p=(1/N, ..., 1/N).

L'ultimo assioma è quello più difficile da spiegare: ma è anche esattamente quello che rende la scoperta di Shannon così fondamentale. Partiamo dall'esempio. Supponiamo di dividere la nostra osservazione in due parti. Prima osserviamo se il risultato è pari o dispari, e poi il risultato della divisione del risultato per 2, arrotondato per eccesso. Cioè: 7 o 8 danno 4, 5 o 6 danno 3 e così via. È chiaro che queste due osservazioni sono equivalenti all'osservazione del risulato: non si perde niente e non si guadagna niente. Noi chiediamo che l'informazione contenuta nell'osservazione del risultato del lancio del dado sia la somma delle informazioni che si ottiene dalle singole osservazioni. Vediamo se funziona nel nostro caso ragionando in maniera intuitivia. Osservare se il numero è pari o dispari ci da 1 bit. Osservare il risultato della divisione per 2 ci da 2 bit, perchè sono 4 possibili risultati equalmente probabili e 2²=4. Dato che 1+2=3 sembra che il contare in bit funzioni.

Assioma 3
I è uguale alla somma delle informazioni contenute in una suddivisione equivalente dell'osservazione originaria, pesate con la probabilità con cui le suddivisioni hanno luogo.

Mettendo insieme tutte queste informazioni è facendo un po' di conti (sempre nella sezione 6 dell'articolo), si ottiene che l'unica funzione soddisfacente queste proprietà è

I = - [p(1) log(p(1)) + p(2) log(p(2)) + ... + p(N) log(p(N))]


Informazione ed entropia

Si può anche notare come l'informazione sia anche una misura del disordine presente nel sistema prima della sua osservazione. Più disordinato un sistema, più informazione ci porterà la sua osservazione. Queste è più che un'analogia: è possibile basare tutta la fisica statistica sul concetto di entropia di Shannon.

PS: qua il motivo per cui sono interessato a questo problema...

martedì, agosto 26, 2008

Ammenda (I)

In numerosi dibattiti con amici e colleghi, in particolare con d.m., ho sempre sostenuto alcune tesi provocatorie: una delle mie predilette era diretta contro certi eccessi femministi che affermano che uomini e donne siano mentalmente uguali.

Uno dei miei argomenti prediletti è questo: prendiamo ad esempio la matematica; è evidente che nelle facoltà di matematica da un certo livello in poi spariscano le donne; dato che non vi sono altri argomenti scientifici e razionali che spieghino questo fenomeno, dobbiamo supporre, fino a prova contraria, che le donne siano meno portate dell'uomo per la matematica.

Se dall'università avete accesso a Science, ecco, per onestà intellettuale, una prova contraria.

lunedì, agosto 25, 2008

Cavalieri casuali

Ieri sono andato a vedere il nuovo Batman. Splendido e visionario. Per inciso: si insedia nella mia personale classifica dei migliori film dell'anno al secondo posto, dopo "Into the Wild" e prima di "Die Welle".

Un tema che torna del film è quello di decisioni lasciate al caso tramite il lancio di una moneta. E nel film è anche affermato che tale decisioni sono casuali. Da un punto di vista tecnico, non sono casuali. Il volo di una moneta, che è un corpo piuttosto semplice, è deterministico - e nemmeno troppo difficile da prevedere. E dato che la mano che lancia la moneta è guidata da un cervello, che certo non è un generatore di numeri casuali, è difficile affermare che la sequenza dei lanci di una moneta sia i.i.d..

La verità è che tali decisioni, pur essendo ben determinate, non sono prevedibili dal lanciatore, in quanto egli non può accedere alla parte necessaria della sua memoria procedurale. È simile alla differenza che c'è in fisica matematica fra un sistema dinamico ergodico e uno discontinuo.

venerdì, agosto 15, 2008

Teoria alfa - composizione

Come promesso, continuo la mia discussione sulla teoria alfa.

Oggi parliamo della composizione di funzioni.

ASSIOMA DI COMPOSIZIONE

Siano f e g due successioni di reali e sia F una funzione tale che esistono F(f)(n) e F(g)(n). Allora f(Q)=g(Q) implica F(f)(Q)=F(g)(Q).

Qualche commento. Il primo: l'assioma afferma che F(f)(Q) dipende solo dal valore in Q di f. Quindi si può candidamente scrivere F(f(Q)) senza sbagliare.

Secondo commento: il nostro obiettivo è quello di scrivere e usare espressioni del tipo sin(Q²). Se si interpretasse sin(Q²) come il limite di sin(n²), allora il tutto non avrebbe senso, in quanto il limite si sin(n²) non esiste.

Con l'assioma di composizione possiamo dare un'ulteriore spiegazione del fatto che f(Q) non è il limite di f. Consideriamo le due successioni f(n)=(4n+1)p/2 e g(n)=4np/2. Evidentemente, sia f che g vanno ad infinito. Quindi se interpretassimo sin(Q) semplicemente come il valore di sin all'infinito, si dovrebbe avere sin(f(Q))=sin(g(Q)).

Tuttavia sin(f(n))=1 differisce da sin(g(n))=0 per ogni n. Quindi, per il secondo assioma di estensione, sin(f)(Q) deve essere diverso da sin(g)(Q).

Tutto questo accade perchè f(Q) non è Q, come accadrebbe se Q venisse interpretato semplicemente come un'altra maniera di dire "infinito", ma bensì f(Q)=(4Q+1)p/2, mentre g(Q)=4Qp/2. Per cui sin(f(Q))=sin((4Q+1)p/2) mentre sin(g(Q))=sin(4Qp/2) e non è nessun motivo per cui essi debbano essere uguali.

Non è difficile immaginare il valore di sin(f(Q)) e quello di sin(g(Q)), ma questo è per la prossima volta, fra 10 giorni.

giovedì, agosto 14, 2008

Punto sella

Se vi chiedete che fine abbia fatto: sono appena tornato dalla Scozia, pronto a partire per il Salento.

Prima di partire: un altro po' di teoria-alpha.

Ma questo domani, oggi si legge "Caos calmo", che a me, fino ad ora, è piaciuto moltissimo.

martedì, luglio 29, 2008

Adulti irrecuperabili

In realtà questo post era un commento a questo post di un adulto irrecuperabile, che afferma che la tesi di questo libro sia

capiscono che dio è una presa in giro inventata da chi vuole che il mondo sia impaurito. in effetti, la tesi non è molto lontana da quella di un blasfemo di de andré, ma la germania del 2008 è molto diversa dall’italia del 1971.

Dato che i commenti sul suo blog non funzionano, mi vedo costretto a rispondere sul blog...

Vediamo quello che dice l'autore in un intervista sul libro in questione:

Frage: Sind Sie denn wenigstens der "militante Atheist", als der Sie beschrieben werden?

Antwort: Nein, auch damit kann ich nicht dienen. Denn ich bin erstens nicht "militant", sondern ein friedliebender Vertreter der "produktiven Streitkultur der Aufklärung", der lieber falsche Ideen sterben lässt, bevor reale Menschen für Ideen sterben müssen. Und zweitens halte ich den Begriff "Atheist" für überaus nichtssagend. Mich verbindet mit dem Atheisten Stalin so wenig wie den Theisten Albert Schweitzer mit dem Theisten Osama bin Laden. Es wird Sie vielleicht ein wenig verwundern, aber es gibt durchaus Gottesvorstellungen, für die ich gewisse Sympathien hege. So habe ich etwa gegen den "Gott" Spinozas, Giordano Brunos, Meister Eckharts oder Albert Einsteins nur sehr wenig einzuwenden. Allerdings ziehe ich es vor, in meinem Sprachgebrauch auf den geschichtlich arg vorbelasteten Begriff "Gott" zu verzichten. Wenn Sie so wollen, folge ich hier einem Vorschlag Theodor W. Adornos, der einmal im Sinne einer negativen (jüdischen) Theologie forderte: "äußerste Askese jeglichem Offenbarungsglauben gegenüber, äußerste Treue zum Bilderverbot, weit über das hinaus, was es einmal an Ort und Stelle meinte.

Per i non parlanti tedesco:

Domanda: Sarebbe almeno possibile definirla un ateo militante?

Risposta: No, non è possibile arruolarmi nemmeno in questo ruolo. Primo, perchè non sono un militante, ma un pacifico rappresentante della "cultura illuminista produttiva", che preferisce far morire delle idee sbagliate, piuttosto che lasciar morire degli uomini per delle idee. Inoltre, ritengo che il concetto di ateo sia completamente privo di significato. Ciò che mi unisce all'ateo Stalin non è più di quanto unisca il teista Albert Schweitzer al teista Osama Bin Laden. Forste la stupirà sapere che ci sono alcuni concetti di divinità per i quali ho una certa affinità. Ho pochissimo in contrario al dio di Spinoza, Giordano Bruno, del maestro Eckhart o di Albert Einstein. Tuttavia preferisco rinunciare all'uso del termine dio in quanto caricato di signficati storici. La può vedere così: seguo il consiglio di Theodor Adorno, che proponeva, secondo una certa teologia ebraica negativa: una "assoluta ascesi rispetto a qualsiasi fede rivelazione, assoluta fedeltà al divieto di immagini, molto più di quanto sia stato richiesto allora.

lunedì, luglio 28, 2008

Teoria alfa - estensione

L'idea di Benci e di Di Nasso nel costruire la semplificazione dell'analisi non standard di cui parlavo precedentemente, consiste nel costruire un'estensione del campo dei numeri reali in maniera analoga a quello che si fa coi numeri complessi. In quel caso si aggiunge al campo dei reali l'unità i, che ha la proprietà i²=-1, e poi si completa il campo dichiarando le operazioni che si possono fare con questo nuovo elemento i.

Per esempio si dichiara che è possibile sommare un reale e i, o di moltiplicare un reale e i, per cui tutti i numeri del tipo a i + b i sono numeri del nostro nuovo sistema.

Nel nostro caso, chiamiamo la nuova unità Q. Il nostro campo dei numeri iperreali sarà quindi formato dai numeri reali, da Q, e da tutto quello che si ottiene applicando a Q le regole che permettono di manipolarlo.

Analogamente al caso dei numeri immaginari, dobbiamo elencare quali sono le regole con le quali Q viene manipolato. Oggi discuteremo le due prime ragole: i due assiomi di estensione.

ASSIOMI DI ESTENSIONE

1) Se f è una successione di reali, allore f può essere estesa in maniera unica nel punto Q.

Si può tenere a mente che Q è come un numero naturale, ma inifinitamente grande. Si potrebbe allora pensare che f(Q) è il limite di f. Questo non è completamente esatto, perchè vale:

2) Se f e g sono due successioni tali che f(n) differisce da g(n) per ogni n, allora f(Q) differisce da g(Q).

Facciamo adesso un esempio; consideriamo f(n)=1/n e g(n)=2/n. Per prima cosa notiamo che, per il primo assioma di estensione f(Q) e g(Q) esistono. Denotiamoli, per ovvi motivi 1/Q e 2/Q.
Per il secondo assioma di estensione, si ha che 1/Q è diverso da 2/Q.

Sarebbe interessante verificare che 2/Q=2 1/Q, ma questo è impossibile con gli assiomi scelti fino ad ora.

giovedì, luglio 24, 2008

NSA e teoria-alfa

Circa un anno fa, leggendo questo bellissimo post di Terence Tao mi ero interessato alla teoria dell'analisi non standard. Detto in soldoni, si tratta di creare una teoria robusta nella quale il calcolo inifinitesimale alla Leibniz viene realizzato senza introdurre il concetto di limite.

Per cui avevo incominciato a leggere questo libro, dove Robinson ne spiega la fondazione. Dopo due capitoli di attenta lettura sono stato sopraffatto da altri impegni e ho lasciato perdere.

Fino a quando, ieri mi sono imbattuto in questo articolo, nel cui abstract gli autori promettono di introdurre delle classi di equazioni stocastiche tramite l'analisi non standard. E dato che proprio in questi giorni io e il mio capo stiamo scervellandoci per capire come formulare in maniera rigorosa una bizzarra equazione stocastica che abbiamo per le mani, ci ho dato un'occhiata.

Quale sorpresa! Nelle prime due pagine viene spiegato tutto quello che c'è da sapere per l'utilizzo della teoria-alfa, un'utile semplificazione dell'analisi non standard che non richiede pagine e pagine di logica prima di capirci qualcosa...

PS: qui potete trovare un'esposizione più completa della teoria-alfa.

Illuminazioni

Fino a quando una mattina arrivi al lavoro canticchiando father and son e ti accorgi che l'umanità fa sempre, sempre, sempre le stesse cose.

lunedì, luglio 21, 2008

Bernoulli vs Poisson

A Bernoulli process with window h and intensity i, shortly BP[h,i] is a renewal process in discrete time.

We prove that BP[h*i,i] converges to a Poisson process with intensity i (PP[i]) if h goes to 0. More precisely, we prove that a Poisson process with intensity i can be approximated in distribution by a sequence of Bernoulli process.

I - Renewal property

Since BP[h*i,i] are renewal, it suffices to study the interevent distribution. For example, we can characterize BP[h*i,i] by their survival function

s(t):= P[Interevent > t]


II - Euler Formula

The exponential function is defined by


e^a:= \lim_{n \to \infty} (1+ \frac{a}{n})^n


III - Poisson process

The survival function of the Poisson process with intensity i is given by exp(-t*i).

IV - Limiting process

Compute

BP[h*i,i][ Waiting > t] = (1-ih)^t/h = (1+ h/t (-it))^t/h

Substituting n for t/h shows that BP[h*i,i][ Waiting > t] converges towards exp(-it) when h goes to 0. In other words, the distribution of BP[h*i,i] converges towards the one of PP[i] and the proof is complete.

venerdì, luglio 18, 2008

Palindromi

In questo periodo sto leggendo con grande piacere "Gödel, Escher, Bach" di Hofstädter.

Si spiega benissimo nel libro, che vi consiglio, nonostante consti di 700 e rotte pagine, il problema delle formule ricorsive i pericoli e vantaggi della manipolazione formale di espressioni logiche. Una cosa affascinante è che Hofstädter spiega come alcune composizioni di Bach siano una bella unione di manipolazione formale e maestria compositiva.

Tutto questo mi viene in mente per questo riassunto su Le Scienze di un articolo apparso sui Proceeding of the National Academy of Sciences, in cui si illustrano i problemi che rappresentano i palindromi per la replicazione del DNA.

Se si pensa che il palindromo è una delle forme con cui si può comporre un canone, si può vedere l'associazione mentale che mi ha portato dall'articolo al libro.

Che poi nel libro ci sono capitoli dedicati al DNA, solo che non ci sono ancora arrivato...

lunedì, luglio 14, 2008

Mongolfiere

La nostra ultima impresa cinematografica: Leergut.

È una piacevolissima commedia psicologica cecoslovacca su di un ex insegnante.

(Devo ammettere: il vivere a 10 metri da un cinema ha alcuni vantaggi...)

mercoledì, luglio 02, 2008

Una derivazione

In neuroscienze esistono una quantià senza fine di modelli neurali. Il più semplice, tuttavia, è probabilmente il neurone di tipo integrate and fire

In cosa consiste? L'idea è antica, qui Abbott ne racconta brevemente la storia.

L'idea è di trattare un neurone come un semplice condensatore; allora il voltaggio V è proporzionale alla carica Q caricata nel condensatore. L'inverso della costante di proporzionalità è detta capacità, in simboli C. Per cui

V=\frac{Q}{C}

Supponiamo adesso che il neurone A riceva un potenziale d'azione dal neurone B. Questo provoca un rilascio di neurotrasmettitori nelle sinapsi. Questo porta all´appertura di alcuni canali ionici nella membrana, cosicchè alcuni ioni fluiscono dall'interno all'esterno del neurone.

Dato che gli ioni sono cariche elettriche, quello a cui viene sottoposto il neurone è una corrente I(t) dipendente dal tempo, che ovviamente porterà ad un cambiamento del voltaggio. Derivando rispetto al tempo la relazione precedente si ottiene

\frac{dV(t)}{dt}=\frac{I(t)}{C}

che è l'equazione dei neuroni di tipo integrate and fire.

mercoledì, giugno 25, 2008

Un nuovo giocattolo

È python!

Per me che non ho mai programmato è una meraviglia: un linguaggio di programmazione semplice e meravigliosamente efficace.

In Ubuntu (una distribuzione Linux che vi consiglio di installare: ci riuscirete anche se fino ad ora avete usato solo Windows) è di solito preinstallato, altrimenti aprite l'applicazione synaptic e installate python e ipython.

Ne vedrete delle belle!

sabato, giugno 21, 2008

Processi (!?) Puntuali

Nomina sunt consequentia rerum

Giustiniano

Ieri, discutendo con una mia collega, ho realizzato che il termine processo puntuale è uno dei termini scelti peggio della storia della matematica.

(Per gli appassionati di neuroscienze, dove i processi di rinnovamento, caso speciale di quelli puntuali, sono molto usati: e qui una breve spiegazione di come il concetto viene usato in questa disciplina. Per gli appassionati di matematica: qui una breve storia del concetto nella comunità matematica.)

Cos'è un processo puntuale? In breve: è un insieme di punti casuali in uno spazio euclideo. Se lo spazio euclideo è R, allora è possibile pensare questo insieme di punti casuali come una sequenza di potenziali d'azione.

Cosa voglio dire con "un insieme di punti casuali"? Voglio dire che una realizzazione di un processo puntuale è un insieme di punti. Se rappresentiamo questo insieme di punti come la somma delle delta di dirac in detti punti, si ottiene che le realizzazione di un processo casuale sono misure su un certo spazio euclideo. Più precisamente sono misure di conteggio.

Ripeto: le realizzazioni di un processo puntuale sono misure di conteggio. Cioè: un processo puntuale è una funzione misurabile da uno spazio di probabilità allo spazio delle misure di conteggio. Cioè è una variabile casuale a valori nello spazio delle misure di conteggio.

Ma allora, se un processo puntuale è una variabile casuale, allora non è un processo stocastico.

E quindi: perchè chiamarlo processo puntuale?

martedì, giugno 17, 2008

Manipolazioni

Il mio relatore di Ulm fa sempre notare che gli ingegneri, pur non sapendo cos'è una distribuzione, maneggiano con abilità le delta di Dirac, utilizzandone abilmente le regole di manipolazione matematica.

La regola che trovo più affascinante è la formula che regola la composizione della delta di dirac con una funzione f che ha zeri semplici in x_i:

\delta(f(x))= \sum_i \frac{\delta(x-x_i)}{|f'(x_i)|}

Deriviamola. Per prima cosa, ricordiamo che è lecito usare la delta di dirac solo sotto il segno di integrale. Quindi, ciò che dobbiamo calcolare è

\int h(x) \delta(f(x))dx

per tutte le funzioni test h. Si noti che gli estremi di integrazione non contano.

Il nostro obiettivo è integrare per sostituzione tramite la sostituzione

x \mapsto f^{-1}(x)

Ci ricordiamo che la derivata della funzione inversa è il reciproco della derivata di una funzione. Utilizzando tale formula si ottiene il risultato

\int h(x) \delta(f(x))dx = \int h(f^{-1}(x)) \delta(x) \frac{1}{|f'(f^{-1}(x))|} dx

Cioè, osservando che l'inversa di f calcolata in 0 altro non è che l'insieme delle radici di f

\delta(f(x))= \sum_i \frac{\delta(x-x_i)}{|f'(x_i)|}


La cosa più affascinante è che non conoscevo questa regola: mi ci sono imbattuto leggendo Classical Electrodynamics di Jackson...

lunedì, giugno 16, 2008

Vorläufige Bescheinigung

Hiermit wird bestätigt, dass Herr Dipl.-Math. Stefano Cardanobile das Promotionsverfahren zum Dr. rer. nat. erfolgreich abgeschlossen hat.

Prof. Dr. F. Schulz


Avim n'ald dottò, uagnun!

sabato, giugno 07, 2008

Teoremi di Baire (IV)

Il teorema di Baire ha delle applicazioni sorprendenti: sapevate che esistono funzioni continue che non possiedono una derivata in nessun punto?

Ecco come si fa a dimostrarlo. Si denoti con Df(x,h) il rapporto incrementale destro della funzione f, al punto x di lunghezza h e si consideri lo spazio C delle funzioni continue sull'intervallo [0,1].

Ora definiamo una famiglia numerabile di insiemi tramite:

A_n:=\{ f \in C: \exists x \in [0,1-1/n], \forall h \in (0,1/n]: |Df(x,h)| \leq n \}

Non spaventatevi! Lo riformulo a parole:

A_n è l'insieme delle funzioni continue i cui rapporti incrementali di lunghezza massima 1/n sono limitati da n in almeno in un punto distante non più di 1/n da 1.

Dubito che sia più facile scritto in questa maniera: voglio solo far vedere che non c'è nessuna matematica esoterica nella definizione.

Si noti che unendo tutti gli A_n si ottengono le funzioni che hanno in almeno in un punto un rapporto incrementale destro limitato. In particolare, le funzioni differenziabili in almeno un punto sono contenute in questa unione.

Voglio dimostrare aesso che tutti gli A_n sono insiemi chiusi e mai densi nell'insieme delle funzioni continue.

È un po' tecnico dimostrare che gli A_n sono tutti insiemi chiusi, ma ce lo si può aspettare, osservando che appaiono solo insiemi chiusi in tutte le definizioni. Crediamo che valga e andiamo alla parte divertente.

Dimostriamo per assurdo che nessuno degli A_n contiene un intorno.

Supponiamo che per un certo A_n esista f in A_n, tale che un intera sfera di centro f e raggio r sia contenuta in A_n. Approssimiamo f con un polinomio P a distanza minore di r/2.

Ora consideriamo una funzione L, lineare a tratti (una "funzione a denti di sega"). Si osservi che possiamo far crescere arbitrariamente i rapporti incrementali di tale funzione mantenendone invariata la norma dell'estremo superiore, diciamo inferiore a r/2.

Adesso, da una parte F + L dista da f meno di r e quindi è in A_n. Dall'altro, i suoi rapporti incrementali possono essere fatti crescere indefinitamente tramite un'opportuna scelta di L, e quindi non può essere in A_n.

La nostra ipotesi era che esistesse un A_n che non fosse mai denso, e quindi abbiamo dimostrato che tutti gli A_n sono mai densi.

Concludendo, abbiamo fatto vedere che l'insieme delle funzioni differenziabili in almeno un punto sono un sottoinsieme dell'unione numerabile di insiemi mai densi. In particolare, per Baire questo insieme è esso stesso mai denso nelle funzioni continue.

Non solo ci sono funzioni continue mai differenziabili: esse sono quasi tutte le funzioni continue!

giovedì, giugno 05, 2008

Teorema spettrale

In mathematics, particularly linear algebra and functional analysis, the spectral theorem is any of a number of results about linear operators or about matrices.

Wikipedia


Ma, direte voi, fra una settimana hai l'esame di dottorato e passi tempo a scrivere sul blog?

Studiando, ho incontrato finalmente un'esposizone coincisa e comprensibile e self-contained del teorema spettrale. Grazie a chi? Grazie a Paul Halmos.

Cerco di riportare il suo argomento del paragrafo 35 di Introduction to Hilbert space: euristica spettrale.

Il ragionamento è molto semplice: consideriamo una funzione semplice sui reali e chiamiamola f.

Per definizione, allora, seguento la notazione di Wiki


f=\sum_{k=1}^n a_k 1_{A_k}= \sum_{k=1}^n a_k 1_{f^{-1}(\{a_k\})}


Ora si noti che, se al posto della funzione indicatrice f^{-1}(\{a_k\}) avessimo usato la misura di f^{-1}(\{a_k\}), allora il risultato del calcolo precedente sarebbe l'integrale di f.

Invertendo il ragionamento, consideriamo una misura (che non è proprio una misura, ma piuttosto ciò che si chiama una misura spettrale) con valori nello spazio delle funzioni indicatrici definita da

E(M)=1_{f^{-1}(M)}

e notiamo che rispetto a questa misura, l'integrale di funzioni semplici si riduce ad una combinazione lineare di funzioni indicatrici. In particolare, il calcolo precedente mostra che, per funzioni semplici vale l'identità

f=\sum_{k=1}^n a_k 1_{A_k}= \sum_{k=1}^n a_k 1_{f^{-1}(\{a_k\})} = \int \lambda dE(\lambda)

Ora dobbiamo solo trovare il modo di estendere questo ragionamento a funzioni semplici e di generalizzare alcuni concetti al caso in cui E ha valori nell'insieme delle proiezioni ortogonali di uno spazio di Hilbert, ed ecco il teorema spettrale...

giovedì, maggio 29, 2008

Confusione

È meglio essere cristiano senza dirlo, che proclamarlo senza esserlo

Lettera agli Efesini

Da una parte il Papa è felice del nuovo governo.

Dall'altra, Famiglia Cristiana si sta accorgendo che non è stato un grande affare mandare al potere Berlusconi: vedi qui e qui.

A chi credere?

mercoledì, maggio 28, 2008

Stazionarietà e processi stocastici

Uno dei concetti più interessanti in matematica è quello di sistema dinamico. Per spiegarla in maniera molto coincisa, si fissi uno spazio degli stati, diciamo R, e uno spazio dei tempi, diciamo [0,oo). Allora un sistema dinamico è una applicazione dallo spazio dei tempi allo spazio degli stati. In altre parole, un sistema dinamico su R è una funzione che ad ogni tempo t>=0 mi dice in che punto di R mi trovo.

Questo concetto ha un interessante corrispettivo probabilistico: il processo stocastico. In questo caso, il nostro spazio degli stati consiste di variabili casuali, cioè, la posizione al tempo t è un numero casuale invece di essere precisamente determinato.

Faccio un esempio banale per far vedere quante possibilità in più danno i processi stocastici. Un processo stocastico è detto debolmente stazionario se E(X(t)X(s)) è una funzione di t-s. Qui e altrove E denota il valore atteso.

Faccio notare che molti importanti processi stocastici; ad esempio il moto browniano sono stazionari. Questo per dire che la classe dei processi debolmente stazionari è ampia e importante.

Supponiamo adesso che il processo stocastico stazionario sia in realtà deterministico, cioè che per ogni ogni variabile casuale X(t) esista un numero f(t) tale che X(t)=f(t) quasi sicuramente. Allora un tale processo stocastico è quasi sicuramente un sistema dinamico.

Ora voglio far vedere che già in una dimensione i processi stocastici hanno una ricchezza molto maggiore dei sistemi dinamici.

Domanda

Quali sono i sistemi dinamici stazionari?

Cominciamo col notare che, dato che X(t) è quasi sicuramente uguale ad f(t), allora il valore atteso soddisfa E(X(t))=f(t). Quindi la condizione di stazionarietà si riduce all'equazione funzionale

f(t)f(s) = F(t-s)

per una funzione arbitraria F. Si scelga t=s. Risolvendo l'equazione funzionale si ottiene

f(t)²= F(0).

Dato che questa relazione vale per ogni t>0, si ottiene che f(t)=f(s) per ogni t ed s.

Risposta

Com'era da aspettarsi, gli unici processi stazionari deterministici sono quelli costanti...

lunedì, maggio 26, 2008

Spot

Se uno elegge Berlusconi e Alemanno deve anche mettere in conto che poi lo prendono per il culo, no?

sabato, maggio 24, 2008

Breakthrough?

Che sia la Soluzione?

Più infinito

Qualche giorno fa ho spiegato i concetti di equipotenza e di infinito. In particolare, ho mostrato che i due concetti sono strettamente legati perchè un insieme è infinito se e solo se è equipotente ad una sua parte propria.

Ad esempio, i naturali sono equipotenti ai quadrati perfetti, essi sono una parte propria dei naturali, quindi l'insieme dei naturali è infinito.

La questione fondamentale è, ripeto, se i due insiemi infiniti dei quadrati perfetti e dei naturali siano equipotenti.

Sorge spontanea la domanda:

Domanda

Ogni due insiemi infiniti sono tra loro equipotenti?

La risposta è molto semplice:

Risposta

No. Controesempio: i numeri reali sono di più dei numeri naturali.

Dimostrazione

Dato che ogni naturale è reale, è chiaro che i reali sono almeno quanto i naturali. Dobbiamo quindi dimostrare l'impossibilità di trovare una funzione suriettiva dai naturali ai reali. È sufficiente dimostrare che non esiste una funzione biettiva da N all'intervallo (0,1) che è strettamente contenuto nei reali.

Consideriamo funzione iniettiva dai naturali ai reali. Per ogni naturale n, abbiamo un reale r, che provvederemo a scrivere nella sua notazione decimale, possibilmente infinita. Adesso abbiamo una lista numerata di tutti i reali scritti in notazione decimale.

Ad esempio:

1 --> 0.333333.........
2 --> 0.25000000000....
3 --> 0.23417171717....
4 --> 0.10000000000....
5 --> 0.1245389457[...]

e così via. I punti normali ... significano che il periodo viene ripetuto per sempre, i puntini nelle parentesi [...] significano che il numero non è periodico.

Adesso costruiamo un numero c in questa maniera:
- come cifra intera prendiamo lo 0;
- come prima cifra decimale prendiamo 0, se la prima cifra decimale del primo numero della lista non è 0 e prendiamo 1 se la prima cifra decimale del primo numero della lista è 0;
- come seconda cifra decimale prendiamo 0, se la prima cifra decimale del secondo numero della lista non è 0 e prendiamo 1 se la seconda cifra decimale del secondo numero della lista è 0;
- e così via per tutti i naturali...

nel caso precedente c avrà la seguente forma

c = 0.00010[...]

Adesso notiamo che c è un numero reale fra 0 e 1, dato che ha una notazione decimale ben definita. Per verificare che la nostra lista sia suriettiva, dobbiamo verificare che c sia nella lista. Immaginiamo che c sia il 125° numero della lista. Adesso vediamo che la 125° cifra di c è 0 se la 125° cifra del 125° numero non era 0 e 1 se era 0. Quindi essi differiscono nel loro sviluppo decimale e quindi, risparmiandoci i dettagli tecnici sul fatto che due numeri diversi possano avere lo stesso sviluppo decimale, abbiamo dimostrato che c non può essere nella lista.

Riassumendo: abbiamo appena trovato un reale c che non è contenuto nella lista, cioè non è immagine di nessun numero naturale per la nostra funzione iniettiva. Quindi la funzione non è suriettiva. Q.e.d.

Quello che avete appena visto in azione è il temibile argomento diagonale di Cantor del 1891, una delle armi matematiche più terribili mai sviluppate al mondo.

La cosa più inquietante, è che fino al 1891, ripeto: milleottocentonovantuno!, non si erano accorti di questo fenomeno che adesso è possibile spiegare a chiunque...