La Distribuzione Normale o “Gaussiana”
In questo articolo faremo una breve trattazione della distribuzione normale o Gaussiana.
Come avrete sicuramente notato essa appare in forma stilizzata anche nel nostro logo in quanto oltre ad essere un elemento base di alcune rappresentazioni di mercato che utilizziamo (es. Volume Profile e Market Profile) costituisce soprattutto la base generale della gran parte delle ricerche statistiche sulle varie variabili di mercato che normalmente analizziamo.
Chi ha conoscenze di statistica potrà tranquillamente passare oltre e ci scuserà se la trattazione sarà sin troppo sintetica, tuttavia ritengo importante che ogni trader ed ogni studioso dei mercati abbia chiari alcuni concetti su cui si basa questa importante distribuzione.
La Gaussiana è una distribuzione di frequenza (o di probabilità) molto particolare ed importante, con la quale si possono approssimare molti fenomeni riscontrabili nella realtà quotidiana e nella ricerca in genere (viene detta anche curva degli errori accidentali); poter approssimare un fenomeno alla distribuzione normale significa poterne trarre facilmente delle conclusioni pratiche.
Nell’osservazione di molti fenomeni reali appare infatti molto spesso che i casi estremi siano i più rari, i valori centrali siano i più numerosi e man mano che si passa dai valori più estremi ai valori più vicini a quelli centrali la frequenza dei casi va crescendo (si pensi ad esempio alla distribuzione dei casi della statura in un campione sufficientemente ampio di popolazione, pochi casi di persone con altezze estremamente alte o basse e numero crescente man mano che ci avviciniamo ad i valori intorno alla media).
Prima di andare oltre ed addentrarci un pò nella teoria della distribuzione normale è bene definire gli indici di posizione e gli indici di dispersione:
a) INDICI DI POSIZIONE
MEDIA ARITMETICA (µ)
E’ la somma di tutti i valori delle variabili della popolazione diviso il numero di unità della popolazione (n).
La media aritmetica, più comunemente conosciuta semplicemente come media, di un insieme di valori numerici, è un’indice di posizione, un valore che stima il centro di un set di numeri. In parole povere: è la somma di tutti i valori divisa per il numero totale di valori. Questa la formula:
dove n è il numero totale di valori e xi (x2, x1, … ,xn) sono i rispettivi valori contenuti nell’insieme di dati.
MEDIANA (Me)
La mediana è il valore che occupa la posizione centrale in un insieme ordinato di dati. E’ una misura robusta, in quanto poco influenzata dalla presenza di dati anomali. Essa rappresenta quindi il valore per il quale il 50% dei dati sono più bassi e il 50% sono più alti. Formule per calcolare la mediana
Quando il numero di dati osservati è dispari la formula è:
Quando il numero di dati osservati è pari la formula è:
dove n rappresenta il numero totale di dati.
MODA (Mo)
La moda è il valore più frequente di una distribuzione, o meglio, la modalità più ricorrente della variabile (cioè quelle a cui corrisponde la frequenza più elevata). Ad esempio considerando questo campione di dati
962 1005 1003 768 980 965 1030 1005 975 989 955 783 1005
La moda di questo campione è 1005 in quanto compare ben 3 volte.
b) INDICI DI DISPERSIONE
DEVIAZIONE STANDARD
La deviazione standard è la radice quadrata della varianza. È uno degli indici di dispersione, cioè una misura indicativa di quanto i valori individuali possano differire dalla media.
La formula per la deviazione standard di un’intera popolazione è:
dove N rappresenta le dimensioni della popolazione e μ è la media aritmetica della popolazione.
VARIANZA
La varianza è un indice di dispersione cioè una misura di quanto i valori nel set di dati possano differire dalla media. È la media aritmetica dei quadrati delle differenze dei valori individuali dalla media. L’elevazione al quadrato assicura che differenze negative e positive non si annullino a vicenda.
La formula per la varianza di un’intera popolazione è:
dove N rappresenta la dimensione della popolazione e μ la media aritmetica della popolazione.
DEVIAZIONE MEDIA ASSOLUTA MAD
La deviazione media assoluta è un altro indice di dispersione, molto simile alla varianza, è sempre una misura di quanto i singoli valori del set possano differire dalla media. Il valore assoluto è utilizzato per evitare che le deviazioni di segno opposto si annullino a vicenda.
dove n rappresenta il numero di valori osservati, x-barrato, la media dei valori osservati, e xi i singoli valori.
RANGE
Il range è un termine comunemente usato in analisi tecnica, anche esso é un indice ben definito in statistica; si calcola semplicemente sottraendo il valore minimo da quello massimo del set di valori in considerazione.
La formula semplicemente sarà:
Range = massimo(xi) – minimo(xi)
dove xi rappresenta l’insieme dei valori.
SCARTO INTERQUARTILE (IQR – Interquartile Range)
Lo scarto interquartile (IQR) è la differenza tra il terzo quartile e il primo quartile. È un indice di
Questa semplice formula viene utilizzata per calcolare lo scarto interquartile:
Dove xU è il Terzo quartile e xL è il Primo quartile
I quartili non sono altro che una suddivisione in quattro gruppi uguali del totale del set di valori; in particolare:
Il primo quartile, o 25mo percentile xL (anche scritto Q1), è il valore per il quale 25% dei valori nel set di dati sono più piccoli di xL.
Il secondo quartile o 50mo percentile, xm (anche scritto Q2), coincide con la mediana. Esso rappresenta quel valore per il quale il 50% dei valori osservati sono più bassi e il 50% sono più alti.
Il terzo quartile o 75mo percentile, xH (Q3) è il valore tale che il 75% dei valori osservati è più basso di xH
L’IQR non è particolarmente importante ai nostri fini ma comunque è bene sapere cosa è. L’IRQ nella distribuzione normale racchiude il 50% delle frequenze.
Avendo sinteticamente definito tutti questi indici torniamo ora alla Distribuzione Normale, essa ha alcune caratteristiche peculiari:
1)E’ simmetrica intorno al valore medio (µ)
2)La media, la mediana e la moda coincidono µ=Me=Mo
3)E’ asintotica all’asse delle x in entrambi il lati (positivo e negativo)
4)Ha 2 punti di flesso µ-σ e µ+σ
5)L’area sotto la curva è=1 in quanto la probabilità del verificarsi di un valore compreso tra (-∞ e +∞) è =1
Prendendo come riferimento la distribuzione Gaussiana è possibile definire altre distribuzioni con riferimento ad essa, in modo particolare distribuzioni asimmetriche positivamente o negativamente (a destra od a sinistra) a seconda che la media rispetto a moda e mediana sia a destra o a sinistra.
Questo può essere quantificato calcolando l’asimmetria:
comodamente ricavabile in excell con la funzione: ASIMMETRIA
Quando osservando una distribuzione di frequenza, media e mediana pur non essendo coincidenti sono vicine e quando il valore dell’asimmetria è compreso tra -2 e +2 la distribuzione si può considerare approssimabile con una normale. Questo sarà anche visibile in excell rappresentando graficamente la distribuzione di frequenze che assumerà una forma assimilabile alla campana di Gauss.
L’intervallo di valori più usato ed interessante è quello che va da µ-σ e µ+σ che come si può vedere dal grafico racchiude il 68% delle frequenze (ecco da dove viene fuori nel Market Profile il concetto di Value area); Poi c’è l’altro intervallo µ-2σ e µ+2σ che racchiude addirittura il 95,44% delle frequenze quindi la quasi totalità dei casi.
Identificare facilmente questi intervalli consente di affermare in modo immediato dove si sono verificate la stragrande maggioranza delle frequenze e dove è ragionevole, a parità di altri fattori, trovarle nel futuro.
Questo ha un risvolto pratico molto importante in quanto si possono facilmente definire quelli che possono essere considerati i valori “normali” per quel fenomeno.
L’argomento trattato che ad alcuni sarà sembrato magari ostico, troppo accademico e lontano dal trading reale, rappresenta a mio avviso comunque una base teorica indispensabile per:
– comprendere la rappresentazione del mercato attraverso market profile e volume profile
– comprendere molti concetti tipici dell’Auction Market Theory e del Market Profile
– fare ricerca su qualsiasi dato di mercato utilizzando dati storici per poter definire, in un determinato lasso di tempo, quale è il valore “normale” di quel parametro ad esempio quale è il volume “normale” quale è il range “normale”, quale è la divergenza normale e così via.
Delle applicazioni pratico-operative della “gauusiana” e del volume profile puoi trovare ampia tratazione in MARKET KNOWLEDGE-2 ed ovviamente nella MASTERCLASS INDIVIDUALE.
Buon trading
Roberto Ambrogi