Medidas

Medidas para variáveis numéricas: medidas de dispersão I

Estrutura da aula

  1. Compreender o que são medidas de dispersão em geral
  2. Aprender como se calculam as medidas de dispersão relacionadas ao “desvio”

Medidas de dispersão em geral

Por que falar em medidas de dispersão?

Qual a média e a mediana dos grupos abaixo?

Grupo A: 3 4 5 6 7

Grupo B: 1 3 5 7 9

Grupo C: 5 5 5 5 5

Grupo D: 3 5 5 7

A média e a mediana dos grupos é a mesma: 5 \[\bar{x}=5\]

\[md(x)=5\]

Então como podemos diferenciar esses grupos entre si?

Usando medidas de dispersão

Tipologia das medidas de dispersão

  1. Medidas de dispersão em torno da média (desvios)
    1. Desvio médio
    2. Variância e desvio padrão
  2. Amplitude
  3. IQR

Medidas de dispersão em torno da média

Desvio

O conceito central para compreendermos as medidas de dispersão é o “desvio”. O desvio deve ser pensado sempre em relação à média. A média é uma única medida que resume todas as observações, já o desvio é uma informação que existe para cada observação.

Para calcular o desvio basta simplesmente subtrair o valor da observação com a média do conjunto de observações.

\[desvio = x_i - \bar{x}\]

Desvio

No exemplo abaixo, quais são os desvios das observações?

Índice Valor
\(x_1\) 3
\(x_2\) 4
\(x_3\) 5
\(x_4\) 6
\(x_5\) 7

Desvio

No exemplo abaixo, quais são os desvios das observações?

Índice Valor Desvio
\(x_1\) 3 -2
\(x_2\) 4 -1
\(x_3\) 5 0
\(x_4\) 6 1
\(x_5\) 7 2

O problema

A partir dos desvios, a gente quer calcular uma única medida para resumir todo o padrão de desvios da distribuição. Então a gente quer transformar essa medida individual de cada observação (o desvio) para uma informação de conjunto.

Como transformar os desvios em uma única medida?

Soluções

Solução 1: Tirar a média dos desvios!

\[\frac{1}{n}\sum_{i=1}^n(x_i-\bar x)\]

Mas isso tem um problema: A média dos desvios é sempre zero!

\[\frac{1}{n}\sum_{i=1}^n(x_i-\bar x)=\frac{1}{n}\sum_{i=1}^n x_i - \frac{1}{n}\sum_{i=1}^n \bar x = \bar x - \frac{n}{n}\bar x = \bar x - \bar x = 0\]

O problema são os números negativos dos desvios. A gente precisa eliminá-los. Para isso temos outras duas soluções:

Soluções

Solução 2: Tirar a média do módulo dos desvios

\[\frac{1}{n}\sum_{i=1}^n|x_i-\bar x|\]


Solução 3: Tirar a média dos desvios ao quadrado

\[\frac{1}{n}\sum_{i=1}^n(x_i-\bar x)^2\]


Soluções

Solução 2: Tirar a média do módulo dos desvios

\[\frac{1}{n}\sum_{i=1}^n|x_i-\bar x|\]



Isso é chamado de desvio médio

Solução 3: Tirar a média dos desvios ao quadrado

\[\frac{1}{n}\sum_{i=1}^n(x_i-\bar x)^2\]



Isso é chamado de variância

Soluções

Variância e desvio padrão

Por mais natural que seja usar o módulo dos desvio, essa operação gera complicações de cálculo depois. Então, por essa razão, costumamos utilizar a variância.

\[var(x) = \frac{1}{n}\sum_{i=1}^n(x_i-\bar x)^2\]

Soluções

Variância e desvio padrão

Entretanto, a variância, por ter números elevados ao quadrado, precisa ser “corrigida” de alguma forma para se tornar uma medida interpretável. Assim, a medida que usamos no lugar da variância é simplesmente a sua raiz quadrada. É o chamado desvio padrão, que é definido pela seguinte fórmula:

\[dp(x) = \sqrt{var}\]

\[dp(x) = \sqrt{\frac{1}{n}\sum_{i=1}^n(x_i-\bar x)^2}\]

Soluções

Média dos desvios

\[\frac{1}{n}\sum_{i=1}^n(x_i-\bar x)\]

Variância \[\frac{1}{n}\sum_{i=1}^n(x_i-\bar x)^2\]

Desvio médio

\[\frac{1}{n}\sum_{i=1}^n|x_i-\bar x|\]

Desvio padrão

\[\sqrt{\frac{1}{n}\sum_{i=1}^n(x_i-\bar x)^2}\]