Índice | Valor |
---|---|
\(x_1\) | 3 |
\(x_2\) | 4 |
\(x_3\) | 5 |
\(x_4\) | 6 |
\(x_5\) | 7 |
Medidas para variáveis numéricas: medidas de dispersão I
Grupo A: 3 4 5 6 7
Grupo B: 1 3 5 7 9
Grupo C: 5 5 5 5 5
Grupo D: 3 5 5 7
A média e a mediana dos grupos é a mesma: 5 \[\bar{x}=5\]
\[md(x)=5\]
Então como podemos diferenciar esses grupos entre si?
Usando medidas de dispersão
O conceito central para compreendermos as medidas de dispersão é o “desvio”. O desvio deve ser pensado sempre em relação à média. A média é uma única medida que resume todas as observações, já o desvio é uma informação que existe para cada observação.
Para calcular o desvio basta simplesmente subtrair o valor da observação com a média do conjunto de observações.
\[desvio = x_i - \bar{x}\]
Índice | Valor |
---|---|
\(x_1\) | 3 |
\(x_2\) | 4 |
\(x_3\) | 5 |
\(x_4\) | 6 |
\(x_5\) | 7 |
Índice | Valor | Desvio |
---|---|---|
\(x_1\) | 3 | -2 |
\(x_2\) | 4 | -1 |
\(x_3\) | 5 | 0 |
\(x_4\) | 6 | 1 |
\(x_5\) | 7 | 2 |
A partir dos desvios, a gente quer calcular uma única medida para resumir todo o padrão de desvios da distribuição. Então a gente quer transformar essa medida individual de cada observação (o desvio) para uma informação de conjunto.
Como transformar os desvios em uma única medida?
\[\frac{1}{n}\sum_{i=1}^n(x_i-\bar x)\]
Mas isso tem um problema: A média dos desvios é sempre zero!
\[\frac{1}{n}\sum_{i=1}^n(x_i-\bar x)=\frac{1}{n}\sum_{i=1}^n x_i - \frac{1}{n}\sum_{i=1}^n \bar x = \bar x - \frac{n}{n}\bar x = \bar x - \bar x = 0\]
O problema são os números negativos dos desvios. A gente precisa eliminá-los. Para isso temos outras duas soluções:
\[\frac{1}{n}\sum_{i=1}^n|x_i-\bar x|\]
\[\frac{1}{n}\sum_{i=1}^n(x_i-\bar x)^2\]
\[\frac{1}{n}\sum_{i=1}^n|x_i-\bar x|\]
Isso é chamado de desvio médio
\[\frac{1}{n}\sum_{i=1}^n(x_i-\bar x)^2\]
Isso é chamado de variância
Por mais natural que seja usar o módulo dos desvio, essa operação gera complicações de cálculo depois. Então, por essa razão, costumamos utilizar a variância.
\[var(x) = \frac{1}{n}\sum_{i=1}^n(x_i-\bar x)^2\]
Entretanto, a variância, por ter números elevados ao quadrado, precisa ser “corrigida” de alguma forma para se tornar uma medida interpretável. Assim, a medida que usamos no lugar da variância é simplesmente a sua raiz quadrada. É o chamado desvio padrão, que é definido pela seguinte fórmula:
\[dp(x) = \sqrt{var}\]
\[dp(x) = \sqrt{\frac{1}{n}\sum_{i=1}^n(x_i-\bar x)^2}\]
\[\frac{1}{n}\sum_{i=1}^n(x_i-\bar x)\]
\[\frac{1}{n}\sum_{i=1}^n|x_i-\bar x|\]
\[\sqrt{\frac{1}{n}\sum_{i=1}^n(x_i-\bar x)^2}\]
Introdução à Pesquisa Jurimétrica.