Erro padrón

O erro padrón^[1] é o desvío típico da distribución da mostra dun estatístico.^[2] O termo refírese tamén a unha estimación do desvío típico, derivada dunha mostra particular empregada para computar a estimación.

Concepto

A media da mostra é o estimador habitual dunha media de poboación. Con todo, diferentes mostras escollidas da mesma poboación tenden en xeral a dar distintos valores das medias da mostra. O erro padrón da media (é dicir, o erro debido á estimación da media de poboación a partir das medias da mostra) é o desvío típico de todas as posibles mostras (dun tamaño dado) escollidas desa poboación. Ademais, o erro padrón da media pode referirse a unha estimación do desvío típico, calculado dende unha mostra de datos que está a ser analizada ao mesmo tempo.

En aplicacións prácticas, o verdadeiro valor do desvío típico (ou do erro) xeralmente descoñécese. Como resultado, o termo "erro padrón" emprégase ás veces para referirse a unha estimación desta cantidade descoñecida. En tales casos é importante ter claro de onde provén, xa que o erro padrón é só unha estimación. Desafortunadamente, isto non é sempre posible e pode ser mellor empregar unha aproximación que evite usar o erro padrón, por exemplo usando a estimación de máxima verosimilitude ou unha aproximación máis formal derivada dos intervalos de confianza. Un caso ben coñecido onde se pode empregar de xeito apropiado pode ser na distribución t de Student para proporcionar un intervalo de confianza para unha media estimada ou para a diferenza de medias. Noutros casos, o erro padrón pode ser empregado para prover unha indicación do tamaño da incerteza, pero o seu uso formal ou semiformal para proporcionar intervalos de confianza debe ser evitado a menos que o tamaño da mostra sexa polo menos moderadamente grande. Aquí o concepto "grande" dependerá das cantidades particulares que vaian ser analizadas.

Na análise da regresión, o termo erro padrón tamén se emprega como a media das diferenzas entre a estimación por mínimos cadrados e os valores dados da mostra.^[3]^[4]

Erro padrón da media

O erro padrón da media (chamado en inglés "standard error of the mean" (SEM)) cuantifica as oscilacións da media da mostra (media obtida nos datos) ao redor da media de poboación (verdadeiro valor da media).^[5] O SEM estímase xeralmente dividindo a desviación estándar da poboación entre a raíz cadrada do tamaño da mostra (asumindo independencia estatística dos valores na mostra):

SE_{\bar {x}}\ ={\frac {s}{\sqrt {n}}}

onde

s é o desvío típico (é dicir, a estimación baseada na mostra do desvío típico da poboación).

n é o tamaño (número de individuos da mostra)

Esta estimación pode compararse coa fórmula do desvío típico verdadeiro da media da mostra:

SD_{\bar {x}}\ ={\frac {\sigma }{\sqrt {n}}}

onde

σ é o desvío típico verdadeiro da poboación.

Esta fórmula pode conseguirse dende o que xa se coñece sobre a varianza da suma de variables independentes aleatorias.^[6]

Se $X_{1},X_{2},\ldots ,X_{n}$ son $n$ observacións independentes dunha poboación que ten unha media $\mu$ e un desvío típico $\sigma$ , entón a varianza do total $T=(X_{1}+X_{2}+\cdots +X_{n})$ é $n\sigma ^{2}$ .
A varianza de $T/n$ debe ser ${\frac {1}{n^{2}}}n\sigma ^{2}={\frac {\sigma ^{2}}{n}}$ .
O desvío típico de $T/n$ debe ser $\sigma /{\sqrt {n}}$ .
Por suposto, $T/n$ é a media da mostra ${\bar {x}}$ .

Nota: O erro padrón e o desvío típico de mostras pequenas tenden a infravalorar sistematicamente o erro padrón e o desvío típico da poboación: o erro padrón da media é un parámetro nesgado do erro padrón da poboación. Con n=2 a infravaloración pode ser do 25 %, pero para n=6 a infravaloración é só do 5 %.^[7]

Supostos e utilización

Se se asume que os datos empregados están distribuídos pola normal, os cuantís da distribución normal, a media da mostra e o erro padrón poden empregarse para calcular intervalos de confianza aproximados para a media. As seguintes expresións poden empregarse para calcular os límites de confianza por riba e por baixo do 95 %, onde ${\bar {x}}$ é igual á media da mostra, $SE$ é igual ao erro padrón para a media da mostra, e 1,96 é o cuantil 0.975 da distribución normal:

Por riba do 95 % Límite =

{\bar {x}}+(SE\cdot 1.96)

,

Por baixo do 95 % Límite =

{\bar {x}}-(SE\cdot 1.96)

.

En particular, o erro padrón dunha mostra estatística (como o é da media da mostra) é o desvío típico estimado do erro no proceso no que esta se xera. Noutras palabras, o erro padrón é o desvío típico da distribución da mostra da mostra estatística.

Os erros padrón proporcionan unha medida sobra a incerteza das medidas da mostra nun único valor que se emprega adoito porque:

Se o erro padrón de varias cantidades individuais é coñecido entón o erro padrón dalgunha función matemática desas cantidades pode ser calculado facilmente en moitos casos:
- Cando se coñece a distribución de probabilidade do valor, esta pode ser usada para calcular unha boa aproximación dun intervalo de confianza exacto.
- Cando se descoñece a distribución de probabilidade, poden empregarse relacións como a desigualdade de Chebyshev ou a desigualdade de Vysochanskiï–Petunin para calcular uns intervalos de confianza conservativos.
Como o tamaño da mostra tende a infinito, o teorema do límite central garante que a distribución da media da mostra é asintoticamente a distribución normal.

Erro padrón da regresión

O erro padrón da regresión é o valor que amosa a diferenza entre os valores reais e os estimados dunha regresión. É utilizado para valorar se existe unha correlación entre a regresión e os valores medidos. Moitos autores prefiren este dato a outros como o coeficiente de correlación linear, xa que o erro padrón se mide nas mesmas unidades que os valores que se estudan. A fórmula sería:^[8]

${\widehat {\sigma }}={\sqrt {{\frac {1}{N-2}}\sum _{i=1}^{N}(y_{i}-{\widehat {y_{i}}})^{2}}}$

Sendo:

${\widehat {y}}$ os valores estimados
$y$ os valores medidos
$N$ o tamaño da mostra

Notas

↑ Masa Vázquez, Xosé M.; Fortes López, Belén (1995). Servicio de Normalización Lingüística da Universidade de Santiago de Compostela, ed. Vocabulario de Matemáticas. Santiago de Compostela. ISBN 84-8121-369-1.
↑ Everitt, B.S. (2003) The Cambridge Dictionary of Statistics, CUP. ISBN 0-521-81099-X
↑ Kenney, J. and Keeping, E.S. (1963) Mathematics of Statistics, van Nostrand, p. 187
↑ Zwillinger D. (1995), Standard Mathematical Tables and Formulae, Chapman&Hall/CRC. ISBN 0-8493-2479-3 p. 626
↑ Abraira, V. "Desviación estándar y error estándar" (en castelán). Arquivado dende o orixinal o 13 de xullo de 2012. Consultado o 17 de novembro de 2016.
↑ T.P. Hutchinson, Essentials of statistical methods in 41 pages
↑ "A simple approximation for unbiased estimation of the standard deviation" (en inglés) (4). American Statistical Association. JSTOR 2682923. doi:10.2307/2682923.
↑ Departments of Botany and of Statistics University of Wisconsin—Madison. "Estimation and Prediction" (PDF). Arquivado dende o orixinal (PDF) o 17 de maio de 2017. Consultado o 17 de novembro de 2016.

[1] Masa Vázquez, Xosé M.; Fortes López, Belén (1995). Servicio de Normalización Lingüística da Universidade de Santiago de Compostela, ed. Vocabulario de Matemáticas. Santiago de Compostela. ISBN 84-8121-369-1.

[2] Everitt, B.S. (2003) The Cambridge Dictionary of Statistics, CUP. ISBN 0-521-81099-X

[3] Kenney, J. and Keeping, E.S. (1963) Mathematics of Statistics, van Nostrand, p. 187

[4] Zwillinger D. (1995), Standard Mathematical Tables and Formulae, Chapman&Hall/CRC. ISBN 0-8493-2479-3 p. 626

[5] Abraira, V. "Desviación estándar y error estándar" (en castelán). Arquivado dende o orixinal o 13 de xullo de 2012. Consultado o 17 de novembro de 2016.

[6] T.P. Hutchinson, Essentials of statistical methods in 41 pages

[7] "A simple approximation for unbiased estimation of the standard deviation" (en inglés) (4). American Statistical Association. JSTOR 2682923. doi:10.2307/2682923.

[8] Departments of Botany and of Statistics University of Wisconsin—Madison. "Estimation and Prediction" (PDF). Arquivado dende o orixinal (PDF) o 17 de maio de 2017. Consultado o 17 de novembro de 2016.

[1]