next up previous contents index
Avanti: Indipendenza statistica Su: Teoria delle probabilità Indietro: Probabilità condizionali   Indice   Indice analitico

Teorema di Bayes

A volte, non tutti i possibili eventi sono direttamente osservabili: in tal caso la probabilità marginale Pr$ \left(\vphantom{ A}\right.$A$ \left.\vphantom{ A}\right)$ è indicata come probabilità a priori. Qualora l'evento A sia in qualche modo legato ad un secondo evento B, che invece possiamo osservare, la probabilità condizionata Pr$ \left(\vphantom{ A/B}\right.$A/B$ \left.\vphantom{ A/B}\right)$ prende il nome di probabilità a posteriori perché, a differenza di quella a priori, rappresenta un valore di probabilità valutata dopo la conoscenza di B.

0.300000
\resizebox* {0.3\columnwidth}{!}{\includegraphics{cap5/f5.2.ps}}

 

 

In generale, però, si conosce solamente Pr$ \left(\vphantom{ A}\right.$A$ \left.\vphantom{ A}\right)$ e Pr$ \left(\vphantom{ B/A}\right.$B/A$ \left.\vphantom{ B/A}\right)$ (queste ultime sono dette probabilità condizionate in avanti), e per calcolare Pr$ \left(\vphantom{ A/B}\right.$A/B$ \left.\vphantom{ A/B}\right)$ occorre conosce anche Pr$ \left(\vphantom{ B}\right.$B$ \left.\vphantom{ B}\right)$. Quest'ultima quantità si determina saturando la probabilità congiunta Pr$ \left(\vphantom{ A,B}\right.$A, B$ \left.\vphantom{ A,B}\right)$ rispetto a tutti gli eventi marginali Ai possibili:

Pr$\displaystyle \left(\vphantom{ B}\right.$B$\displaystyle \left.\vphantom{ B}\right)$ = $\displaystyle \sum_{i}^{}$Pr$\displaystyle \left(\vphantom{ B,A_{i}}\right.$B, Ai$\displaystyle \left.\vphantom{ B,A_{i}}\right)$ = $\displaystyle \sum_{i}^{}$Pr$\displaystyle \left(\vphantom{ B/A_{i}}\right.$B/Ai$\displaystyle \left.\vphantom{ B/A_{i}}\right)$Pr$\displaystyle \left(\vphantom{ A_{i}}\right.$Ai$\displaystyle \left.\vphantom{ A_{i}}\right)$

a patto che risulti Pr$ \left(\vphantom{ A_{i},A_{j}}\right.$Ai, Aj$ \left.\vphantom{ A_{i},A_{j}}\right)$ = 0 e $ \bigcup$Ai = $ \Omega$, e cioè che l'insieme degli $ \left\{\vphantom{ A_{i}}\right.$Ai$ \left.\vphantom{ A_{i}}\right\}$ costituisca una partizione dello spazio degli eventi $ \Omega$. Tale circostanza è mostrata in figura.

L'ultima relazione ci permette di enunciare il teorema preannunciato, che mostra come ottenere le probabilità a posteriori a partire da quelle a priori e da quelle condizionate in avanti:

Pr$\displaystyle \left(\vphantom{ A_{i}/B_{j}}\right.$Ai/Bj$\displaystyle \left.\vphantom{ A_{i}/B_{j}}\right)$ = $\displaystyle {\frac{Pr\left( B_{j}/A_{i}\right) Pr\left( A_{i}\right) }{\sum _{k}Pr\left( B_{j}/A_{k}\right) Pr\left( A_{k}\right) }}$

Illustriamo un caso pratico di utilizzo del teorema di Bayes nell'ambito di una sua applicazione ad un problema di telecomunicazioni: la decisione statistica.

Canale simmetrico binario

 

0.350000


\resizebox* {0.3\columnwidth}{!}{\includegraphics{cap5/f5.3.ps}}

In figura è rappresentato uno schema, che rappresenta un canale numerico, al cui ingresso si presenta uno tra due simboli a1 e a2, mentre alla sua uscita si osservano i simboli b1 e b2. Il canale è caratterizzato da due probabilità condizionate in avanti: una probabilità di errore Pe = Pr$ \left(\vphantom{ b_{2}/a_{1}}\right.$b2/a1$ \left.\vphantom{ b_{2}/a_{1}}\right)$ = Pr$ \left(\vphantom{ b_{1}/a_{2}}\right.$b1/a2$ \left.\vphantom{ b_{1}/a_{2}}\right)$ che indichiamo con q, ed una probabilità (complementare) di non-errore 1 - Pe = Pr$ \left(\vphantom{ b_{1}/a_{1}}\right.$b1/a1$ \left.\vphantom{ b_{1}/a_{1}}\right)$ = Pr$ \left(\vphantom{ b_{2}/a_{2}}\right.$b2/a2$ \left.\vphantom{ b_{2}/a_{2}}\right)$ indicata com p = 1 - q.

Qualora si osservi in uscita uno dei due valori (ad es. b1), si possono confrontare le probabilità a posteriori per le due possibili ipotesi che in ingresso fosse presente a1 od a2 (ad es. valutando il rapporto $ {\frac{Pr\left( b_{1}/a_{1}\right) }{Pr\left( b_{1}/a_{2}\right) }}$ = $ {\frac{p}{q}}$), e quindi decidere per l'ipotesi piú verosimile (es. si decide per a1 se p > q, ovvero se Pe < $ {\frac{1}{2}}$).

Se disponiamo della conoscenza delle probabilità a priori Pr$ \left(\vphantom{ a_{1}}\right.$a1$ \left.\vphantom{ a_{1}}\right)$ e Pr$ \left(\vphantom{ a_{2}}\right.$a2$ \left.\vphantom{ a_{2}}\right)$, possiamo costruire il rapporto di verosimiglianza utilizzando le probabilità a posteriori Pr$ \left(\vphantom{ a_{1}/b_{1}}\right.$a1/b1$ \left.\vphantom{ a_{1}/b_{1}}\right)$ e Pr$ \left(\vphantom{ a_{2}/b_{1}}\right.$a2/b1$ \left.\vphantom{ a_{2}/b_{1}}\right)$, calcolabili applicando il teorema di Bayes. Per fissare le idee, poniamo di aver ricevuto il simbolo b1, e pertanto il rapporto di verosimiglianza si scrive come

RV = $\displaystyle {\frac{Pr\left( a_{1}/b_{1}\right) }{Pr\left( a_{2}/b_{1}\right) }}$

RV può assumere valore > , < od = ad 1, a seconda di quale delle due probabilità a posteriori sia piú grande, portando la decisione a favore di a1, a2 o l'indifferenza - rispettivamente.

La metodologia ora descritta prende il nome di verifica di ipotesi statistica e si basa appunto sul confronto di quanto la grandezza osservata sia verosimile compatibilmente con le ipotesi possibili. Se RV utilizza solamente le probabilità in avanti, la decisione si dice di massima verosimiglianza (indicata com ML o MAXIMUM LIKELIHOOD), mentre se si impiegano le probabilità a posteriori, si sta effettuando una decisione bayesiana.

Il meccanismo con cui, nella decisione Bayesiana, le probabilità in avanti si combinano con quelle a priori, può essere analizzato mediante alcune osservazioni: innanzi tutto, a1 potrebbe essere cosí ``raro'' che, in presenza di una moderata probabilità di errore, il ricevitore potrebbe preferire di decidere sempre a2, attribuendo l'eventuale ricezione di b1 dovuta piú verosimilmente ad un errore piuttosto che all'effettiva partenza di a1. In assenza di canale inoltre, l'unico rapporto di verosimiglianza possibile sarebbe stato quello tra le probabilità a priori Pr$ \left(\vphantom{ a_{1}}\right.$a1$ \left.\vphantom{ a_{1}}\right)$ e Pr$ \left(\vphantom{ a_{2}}\right.$a2$ \left.\vphantom{ a_{2}}\right)$; la ricezione di un simbolo bi dunque ha portato un miglior livello di informazione, alterando il RV, in misura tanto maggiore quanto piú bassa è la probabilità di errore.

Verifichiamo i ragionamenti appena svolti riscrivendo per esteso una probabilità a posteriori:

Pr$\displaystyle \left(\vphantom{ a_{1}/b_{1}}\right.$a1/b1$\displaystyle \left.\vphantom{ a_{1}/b_{1}}\right)$ = $\displaystyle {\frac{Pr\left( b_{1}/a_{1}\right) Pr\left( a_{1}\right) }{Pr\lef...
...ht) Pr\left( a_{1}\right) +Pr\left( b_{1}/a_{2}\right) Pr\left( a_{2}\right) }}$ = $\displaystyle {\frac{p\cdot Pr\left( a_{1}\right) }{p\cdot Pr\left( a_{1}\right) +q\cdot Pr\left( a_{2}\right) }}$

Se p = q, il canale è inservibile e non aggiunge informazione: infatti si ottiene Pr$ \left(\vphantom{ a_{1}/b_{1}}\right.$a1/b1$ \left.\vphantom{ a_{1}/b_{1}}\right)$ = Pr$ \left(\vphantom{ a_{1}}\right.$a1$ \left.\vphantom{ a_{1}}\right)$ in quanto Pr$ \left(\vphantom{ a_{1}}\right.$a1$ \left.\vphantom{ a_{1}}\right)$ + Pr$ \left(\vphantom{ a_{2}}\right.$a2$ \left.\vphantom{ a_{2}}\right)$ = 1. D'altra parte, se q < p, risulta

Pr$\displaystyle \left(\vphantom{ a_{1}/b_{1}}\right.$a1/b1$\displaystyle \left.\vphantom{ a_{1}/b_{1}}\right)$ = $\displaystyle {\frac{Pr\left( a_{1}\right) }{Pr\left( a_{1}\right) +\frac{q}{p}Pr\left( a_{2}\right) }}$ > Pr$\displaystyle \left(\vphantom{ a_{1}}\right.$a1$\displaystyle \left.\vphantom{ a_{1}}\right)$

aumentando quindi la probabilità di a1 rispetto a quanto previsto dalla probabilità a priori; se la probabilità di errore tende a zero ( q $ \rightarrow$ 0), osserviamo che Pr$ \left(\vphantom{ a_{1}/b_{1}}\right.$a1/b1$ \left.\vphantom{ a_{1}/b_{1}}\right)$ $ \rightarrow$ 1.

Infine, nel casi in cui i simboli in ingresso abbiano uguale probabilità Pr$ \left(\vphantom{ a_{1}}\right.$a1$ \left.\vphantom{ a_{1}}\right)$ = Pr$ \left(\vphantom{ a_{2}}\right.$a2$ \left.\vphantom{ a_{2}}\right)$, la decisione Bayesiana è equivalente a quella di massima verosimiglianza. Infatti:

RV = $\displaystyle {\frac{Pr\left( a_{1}/b_{1}\right) }{Pr\left( a_{2}/b_{1}\right) }}$ = $\displaystyle {\frac{Pr\left( b_{1}/a_{1}\right) Pr\left( a_{1}\right) }{Pr\left( b_{1}\right) }}$ . $\displaystyle {\frac{Pr\left( b_{1}\right) }{Pr\left( b_{1}/a_{2}\right) Pr\left( a_{2}\right) }}$  
  = $\displaystyle {\frac{Pr\left( b_{1}/a_{1}\right) Pr\left( a_{1}\right) }{Pr\left( b_{1}/a_{2}\right) Pr\left( a_{2}\right) }}$  

Pertanto, nei casi in cui non si conosca la statistica di sorgente, è sufficiente attuare una decisione di massima verosimiglianza.



Sottosezioni
next up previous contents index
Avanti: Indipendenza statistica Su: Teoria delle probabilità Indietro: Probabilità condizionali   Indice   Indice analitico
alef@infocom.uniroma1.it
2001-06-01