Correlación
En probabilidade e estatística, a correlación indica a forza e a dirección dunha relación linear e proporcionalidade entre dúas variables estatísticas. Considérase que dúas variables cuantitativas están correlacionadas cando os valores dunha delas varían sistematicamente con respecto aos valores homónimos da outra: se se teñen dúas variables (A e B) existe correlación se ao aumentaren os valores de A tamén aumentan (ou diminúen) os de B. A correlación entre dúas variables non implica, por ela mesma, ningunha relación de causalidade (cum hoc ergo propter hoc).
Forza, sentido e forma da correlación
editarA relación entre dúas variables cuantitativas queda representada mediante a liña de mellor axuste, trazada a partir da nube de puntos. Os principais compoñentes elementais dunha liña de axuste e polo tanto dunha correlación, son a forza, o sentido e a forma:
- a forza extrema segundo o caso, mide o grao no que a liña representa a nube de puntos: se a nube é estreita e alongada represéntase por unha liña recta, o que indica que a relación é forte; se a nube de puntos ten unha tendencia elíptica o circular, a relación é débil.
- o sentido mide a variación dos valores de B con respecto a A: se ao creceren os valores de A fano os de B, a relación é directa (pendente positiva); se ao creceren os valores de A diminúen os de B, a relación é inversa (pendente negativa).
- a forma establece o tipo de liña que define o mellor axuste: a liña recta, a curva monotónica ou a curva non monotónica
Coeficientes de correlación
editarExisten diversos coeficientes que miden o grao de correlación, adaptados á natureza dos datos. O máis coñecido é o coeficiente de correlación de Pearson (introducido en realidade por Francis Galton), que se obtén dividindo a covarianza de dúas variables entre o produto dos seus desvíos estándar. Outros coeficientes son:
- Coeficiente de correlación de Spearman
- Correlación canónica
- Coeficiente de correlación Intraclase
- Correlación de Kendall
- Correlación de Jaspen
Interpretación xeométrica
editarDados os valores da mostra de dúas variables aleatorias e , que poden ser consideradas como vectores nun espazo de n dimensións, poden construírse os "vectores centrados" como:
e .
O coseno do ángulo alfa entre estes vectores vén dada pola fórmula seguinte:
pois é o coeficiente de correlación da mostra de Pearson. O coeficiente de correlación é o coseno entre ambos vectores centrados:
- se r = 1, o ángulo °, ambos os vectores son colineares (paralelos).
- se r = 0, o ángulo °, ambos os vectores son ortogonais.
- se r =-1, o ángulo °, ambos os vectores son colineares de dirección oposta.
Máis xeralmente: .
Por suposto, dende o punto vista xeométrico, non se fala de correlación linear: o coeficiente de correlación ten sempre un sentido, calquera que sexa o seu valor entre -1 e 1. Informa de modo preciso, non tanto sobre o grao de dependencia entre as variables, senón sobre a súa distancia angular na hiperesfera en n dimensións.
A iconografía das correlacións é un método de análise multidimensional que está baseado nesta idea. A correlación linear dáse cando nunha nube de puntos se atopan ou se distribúen arredor dunha recta.
A fórmula de correlación para dúas series distintas con certo desfase "k", está dada pola fórmula:
Distribución do coeficiente de correlación
editarO coeficiente de correlación dunha mostra é unha variable aleatoria, o que significa que se repetimos un experimento ou consideramos diferentes mostras se obterán valores diferentes e polo tanto o coeficiente de correlación da mostra calculado a partir delas terá valores lixeiramente diferentes. Para mostras grandes a variación nese coeficiente será menor que para mostras pequenas. R. A. Fisher foi o primeiro en determinar a distribución de probabilidade para o coeficiente de correlación.
Se as dúas variables aleatorias que se trata de relacionar proceden dunha distribución gaussiana bivariante entón o coeficiente de correlación r segue unha distribución de probabilidade dada por:[1][2]
onde:
O valor esperado do coeficiente de correlación da mostra r es:
polo tanto, r é un estimador nesgado de . Pode obterse un estimador aproximado non nesgado resolvendo a ecuación:
para
Aínda que a solución:
é subóptima. Pode obterse un estimador nesgado con mínima varianza para grandes valores de n, con nesgo de orde buscando o máximo da expresión:
, i.e.
No caso especial de que , a distribución orixinal pode ser reescrita como:
onde é a función beta.
Notas
editar- ↑ Kenney, J. F. And Keeping, E. S., Mathematics of Statistics, Pt. 2, 2nd ed. Princeton, NJ: Van Nostrand, 1951.
- ↑ Correlation Coefficient - Bivariate Normal Distribution