ME111 - Laboratório de Estatística

Introdução

Uma senhora toma chá

R. A. Fisher foi um dos fundadores da Estatística moderna.

Em um de seus famosos experimentos, ele testou a capacidade de uma senhora em distinguir se a xícara estava servida com o leite colocado antes ou depois do chá.

Vídeo

Uma senhora toma chá

Como planejar um experimento para testar a capacidade da pessoa distinguir se o chá foi preparado com leite primeiro ou por último?

Como lidar com variações na temperatura do chá, quantidade de açúcar, entre outras?

Quantas xícaras devem ser usadas no teste? Qual a ordem de apresentação dessas xícaras?

Qual conclusão iremos tirar caso a pessoa erre somente uma vez? Ou duas vezes?

Experimento

8 xícaras: 4 com chá colocado antes do leite e 4 com leite antes do chá.

As oito xícaras foram apresentadas em ordem aleatória para a senhora, mas a informação de que eram 4 de cada tipo foi passada a ela.

A senhora deveria provar a bebida das oito xícaras e escolher as 4 xícaras que acreditava estar com chá primeiro.

Verificou-se quantas dentre as 4 xícaras ela escolheu corretamente.

Quais os resultados possíveis do experimento?

Resultados possíveis

Tarefa da senhora: escolher as 4 xícaras com chá primeiro.

São 8 xícaras: 4 com leite primeiro e 4 com chá primeiro.

A senhora escolhe 4 dentre 8, sem reposição.

De quantas formas ela pode fazer isso, caso ela de fato não saiba distinguir e esteja fazendo tudo ao acaso?

\[\binom{8}{4}=70\]

Resultados possíveis

É possível que ela escolha as 4 corretamente: 4 com chá primeiro.

De quantas formas ela pode escolher 4 corretas?

Para escolher 4 corretas, duas coisas devem ocorrer: escolher 4 com chá primeiro (dentre 4 com chá primeiro) e não escolher nenhuma dentre as 4 com leite primeiro.

De quantas formas é possível fazer isso, caso ela de fato não saiba distinguir e esteja fazendo tudo ao acaso?

\[\binom{4}{4}\binom{4}{0}=1\]

Resultados possíveis

É possível que ela escolha 3 corretamente: 3 com chá primeiro e 1 com leite primeiro.

De quantas formas ela pode escolher 3 corretas, caso ela de fato não saiba distinguir e esteja fazendo tudo ao acaso?

\[\binom{4}{3}\binom{4}{1}=16\]

Resultados possíveis

É possível que ela escolha 2 corretamente: 2 com chá primeiro e 2 com leite primeiro.

De quantas formas ela pode escolher 2 corretas, caso ela de fato não saiba distinguir e esteja fazendo tudo ao acaso?

\[\binom{4}{2}\binom{4}{2}=36\]

Resultados possíveis

É possível que ela escolha 1 corretamente: 1 com chá primeiro e 3 com leite primeiro.

De quantas formas ela pode escolher 1 correta, caso ela de fato não saiba distinguir e esteja fazendo tudo ao acaso?

\[\binom{4}{1}\binom{4}{3}=16\]

Resultados possíveis

É possível que ela erre todas: 0 com chá primeiro e 4 com leite primeiro.

De quantas formas ela pode errar todas, caso ela de fato não saiba distinguir e esteja fazendo tudo ao acaso?

\[\binom{4}{0}\binom{4}{4}=1\]

Resultados possíveis

Teste de hipótese

\(H_0\): A senhora não consegue distinguir entre chá ou leite primeiro e escolhe ao acaso durante o experimento.

\(H_a\): A senhora consegue distinguir.

Estatística do teste: Total de acertos (\(X\))

Para decidir, precisamos primeiramente da distribuição de probabilidade da estatística do teste quando \(H_0\) é verdadeira.

Distribuição Hipergeométrica

População dividida em duas características

Extrações casuais sem reposição

\(N\) objetos

\(r\) têm a característica A

\(N-r\) têm a característica B

um grupo de \(n\) elementos é escolhido ao acaso, dentre os \(N\) possíveis, sem reposição.

Queremos calcular a probabilidade de que este grupo de \(n\) elementos contenha \(x\) elementos com a característica A.

Distribuição Hipergeométrica

Elemento escolhido	Característica \(A\)	Característica \(B\)	Total
sim	\(x\)	\(n-x\)	\(n\)
não			\(N-n\)
Total	\(r\)	\(N-r\)	\(N\)

Seja \(X\) a v.a. que representa o número de elementos com a característica A dentre os \(n\) escolhidos ao acaso.

Então dizemos que \(X\) segue uma distribuição Hipergeométrica com parâmetros \(N,n,r\), ou seja, \(X \sim Hip(N,n,r)\).

A probabilidade de se observar \(x\) é dada por: \[P(X=x)=\frac{\binom{r}{x}\binom{N-r}{n-x}}{\binom{N}{n}}\,,\quad\quad0\leq x \leq min\{r,n\}\]

Teste de hipótese

População dividida em duas características: chá primeiro, leite primeiro.
Extrações casuais sem reposição
\(N\) objetos: 8 xícaras
\(r\) têm a característica A: 4 com chá primeiro
\(N-r\) têm a característica B: 4 com leite primeiro
Um grupo de \(n\) elementos é escolhido ao acaso, dentre os \(N\) possíveis, sem reposição: a senhora escolhe 4 xícaras dentre as 8.

Teste de hipótese

Queremos calcular a probabilidade de que dentre as 4 xícaras escolhidas \(x\) tenham de fato o chá colocado primeiro.

Seja \(X\) a v.a. que representa o número de xícaras com chá primeiro dentre as 4 selecionadas.

Então dizemos que \(X\) segue uma distribuição Hipergeométrica com parâmetros \(N,n,r\), ou seja, \(X \sim Hip(N=8,n=4,r=4)\).

A probabilidade de se observar \(x\) é dada por: \[P(X=x)=\frac{\binom{4}{x}\binom{4}{n-x}}{\binom{8}{4}}, \qquad 0\leq x \leq 4\]

Teste de hipótese

\(H_0\): A senhora não consegue distinguir entre chá ou leite primeiro e escolhe ao acaso durante o experimento.
Estatística do teste: Total de acertos (\(X\))
Distribuição de probabilidade da estatística do teste, quando \(H_0\) é verdadeira.

\[P(X=x)=\frac{\binom{4}{x}\binom{4}{4-x}}{\binom{8}{4}}, \qquad 0\leq x \leq 4\]

Teste de Hipótese

Distribuição da Estatística do Teste sob \(H_0\)

Teste de Hipótese

Como decidir se rejeitamos ou não \(H_0\) de acordo com a estatística do teste observada?

Como decidir se rejeitamos a hipótese de que a senhora não consegue distinguir os chás, sendo que ela acertou, por exemplo, 3? Se ela tivesse acertado todas as 4 xícaras? Seria por pura sorte? Ou ela tem algum conhecimento?

Calculamos a probabilidade de um valor igual ou mais extremo ao da estatística do teste observada (valor-de-p). Mais extremo: mais evidência contra \(H_0\).

Se o valor-de-p obtido é bem pequeno, por exemplo, 0.01, isto quer dizer que se \(H_0\) é verdadeira, então seria incomum obter uma amostra com os resultados como o observado.

Um valor-de-p muito baixo traz fortes evidências contra \(H_0\).

Conclusão

Se a senhora acertou 3 xícaras:

\[P(X=3) = \frac{\binom{4}{3}\binom{4}{1}}{\binom{8}{4}}=8/35 \]

Calculamos a probabilidade de um valor igual ou mais extremo ao da estatística do teste observada (valor-de-p). Mais extremo: mais evidência contra \(H_0\).

Se a senhora tivesse acertado 4, seria ainda mais evidência contra \(H_0\), de forma que o valor de p é calculado como:

\[P(X=3)+P(X=4)=8/35 + 1/70 = 17/70\]

Se este valor for considerado alto, não temos evidências, baseando-se no experimento realizado, para rejeitar \(H_0\).

Teste Exato de Fisher

Tratamento/Resposta	S (Sucesso)	F (Fracasso)	Total
1	\(a\)	\(b\)	\(n_1\)
2	\(c\)	\(d\)	\(n_2\)
Total	\(m_1\)	\(m_2\)	\(n\)

\(\widehat{p_1} = \frac{a}{n_1}\) é a proporção amostral de sucessos no tratamento 1.

\(\widehat{p_2} = \frac{c}{n_2}\) é a proporção amostral de sucessos no tratamento 2.

\(H_0\): a probabilidade de sucesso é a mesma em cada um dos tratamentos, isto é, \(p_1=p_2\).

em que \(p_i\) é a verdadeira (populacional) proporção de sucesso do tratamento \(i\).

Teste Exato de Fisher

Estatística do teste: \(x=\hat{p_1}-\hat{p_2}\)

Precisamos então calcular a distribuição de probabilidade da estatística do teste, sob \(H_0\).

Exemplo

Tomou Vacina?/Teve gripe?	Sim	Não	Total
Sim	\(a=1\)	\(b=5\)	\(n_1=6\)
Não	\(c=4\)	\(d=4\)	\(n_2=8\)
Total	\(m_1=5\)	\(m_2=9\)	\(n=14\)

\(H_0\): \(P(gripe|vacina)=P(gripe|semvacina)\)

\(P(gripe|vacina)=p_1\)

\(P(gripe|semvacina)=p_2\)

Exemplo

Estatística do teste: \(x=\hat{p_1}-\hat{p_2}\)

\[x_{obs}=\frac{1}{6}-\frac{4}{8}\]

Precisamos obter a distribuição de probabilidade da estatística do teste, sob \(H_0\). Para isso, precisamos construir todas as tabelas possíveis, mantendo os totais marginais fixos.

Exemplo

Tabela 1 é a observada

Tomou Vacina?/Teve gripe?	Sim	Não	Total
Sim	\(a=1\)	\(b=5\)	\(n_1=6\)
Não	\(c=4\)	\(d=4\)	\(n_2=8\)
Total	\(m_1=5\)	\(m_2=9\)	\(n=14\)

\[x_{obs}=x_{1}=\frac{1}{6}-\frac{4}{8}\]

Exemplo

Sob \(H_0\), isto é, considerando o caso em que \(H_0\) seja verdadeira, temos que a chance de ter gripe é a mesma, independente do fato da pessoa ter tomado a vacina ou não.

Quantas formas possíveis temos de escolher 5 pessoas a partir de um grupo de 14 pessoas? (14 pessoas no total e 5 com gripe, independente de terem tomado vacina ou não):

\[\binom{14}{5}=2002\]

Para observarmos \(x_{1}=\frac{1}{6}-\frac{4}{8}\), necessariamente, duas coisas ocorreram:

Dentre as pessoas que tomaram vacina, 1 teve gripe e, dentre as pessoas que não tomaram vacina, 4 tiveram gripe. De quantas formas isso pode ocorrer, sendo que temos 6 pessoas que tomaram a vacina e 8 que não tomaram?

\[\binom{6}{1}\times\binom{8}{4}=6\times 70 = 420\]

De maneira que \(P(X=x_1)=P\left(X=\frac{1}{6}-\frac{4}{8}\right)=\frac{\binom{6}{1}\times\binom{8}{4}}{\binom{14}{5}}=\frac{420}{2002}\)

Exemplo

Tabela 2

Tomou Vacina?/Teve gripe?	Sim	Não	Total
Sim	\(a=0\)	\(b=6\)	\(n_1=6\)
Não	\(c=5\)	\(d=3\)	\(n_2=8\)
Total	\(m_1=5\)	\(m_2=9\)	\(n=14\)

\[x_{2}=\frac{0}{6}-\frac{5}{8}\] \[P(X=x_2)=P\left(X=\frac{0}{6}-\frac{5}{8}\right)=\frac{\binom{6}{0}\times\binom{8}{5}}{\binom{14}{5}}=\frac{56}{2002}\]

Exemplo

Tabela 3

Tomou Vacina?/Teve gripe?	Sim	Não	Total
Sim	\(a=2\)	\(b=4\)	\(n_1=6\)
Não	\(c=3\)	\(d=5\)	\(n_2=8\)
Total	\(m_1=5\)	\(m_2=9\)	\(n=14\)

\[x_{3}=\frac{2}{6}-\frac{3}{8}\] \[P(X=x_3)=P\left(X=\frac{2}{6}-\frac{3}{8}\right)=\frac{\binom{6}{2}\times\binom{8}{3}}{\binom{14}{5}}=\frac{840}{2002}\]

Exemplo

Tabela 4

Tomou Vacina?/Teve gripe?	Sim	Não	Total
Sim	\(a=3\)	\(b=3\)	\(n_1=6\)
Não	\(c=2\)	\(d=6\)	\(n_2=8\)
Total	\(m_1=5\)	\(m_2=9\)	\(n=14\)

\[x_{4}=\frac{3}{6}-\frac{2}{8}\]

\[P(X=x_4)=P\left(X=\frac{3}{6}-\frac{2}{8}\right)=\frac{\binom{6}{3}\times\binom{8}{2}}{\binom{14}{5}}=\frac{560}{2002}\]

Exemplo

Tabela 5

Tomou Vacina?/Teve gripe?	Sim	Não	Total
Sim	\(a=4\)	\(b=2\)	\(n_1=6\)
Não	\(c=1\)	\(d=7\)	\(n_2=8\)
Total	\(m_1=5\)	\(m_2=9\)	\(n=14\)

\[x_{5}=\frac{4}{6}-\frac{1}{8}\]

\[P(X=x_5)=P\left(X=\frac{4}{6}-\frac{1}{8}\right)=\frac{\binom{6}{4}\times\binom{8}{1}}{\binom{14}{5}}=\frac{120}{2002}\]

Exemplo

Tabela 6

Tomou Vacina?/Teve gripe?	Sim	Não	Total
Sim	\(a=5\)	\(b=1\)	\(n_1=6\)
Não	\(c=0\)	\(d=8\)	\(n_2=8\)
Total	\(m_1=5\)	\(m_2=9\)	\(n=14\)

\[x_{6}=\frac{5}{6}-\frac{0}{8}\]

\[P(X=x_6)=P\left(X=\frac{5}{6}-\frac{0}{8}\right)=\frac{\binom{6}{5}\times\binom{8}{0}}{\binom{14}{5}}=\frac{6}{2002}\]

Exemplo

Conhecemos agora a distribuição de probabilidade da estatística do teste sob \(H_0\). Agora, para a \(H_a\) de interesse, podemos calcular o valor de \(p\).

\(H_a\): \(p1<p_2\), isto é \(P(gripe|vacina)<P(gripe|semvacina)\)

O valor de \(p\) é calculado como \(P(X\leq x_{obs})=P\left(X\leq \frac{1}{6}-\frac{4}{8}\right)=P(X=x_1)+P(X=x_2)=\frac{420}{2002}+\frac{56}{2002}\)

Exemplo

tabela <-
matrix(c(1, 4, 5, 4),
        nrow = 2,
        dimnames =
        list(c("Vacina", "Sem Vacina"),
             c("Gripe", "Sem Gripe")))
tabela

##            Gripe Sem Gripe
## Vacina         1         5
## Sem Vacina     4         4

fisher.test(tabela, alternative = "less")

## 
##  Fisher's Exact Test for Count Data
## 
## data:  tabela
## p-value = 0.2378
## alternative hypothesis: true odds ratio is less than 1
## 95 percent confidence interval:
##  0.000000 2.605364
## sample estimates:
## odds ratio 
##  0.2246127

Exemplo

Conhecemos agora a distribuição de probabilidade da estatística do teste sob \(H_0\). Agora, para a \(H_a\) de interesse, podemos calcular o valor de \(p\).

\(H_a\): \(p1>p_2\), isto é \(P(gripe|vacina)>P(gripe|semvacina)\)

O valor de \(p\) é calculado como

\[ \begin{eqnarray} P(X\geq x_{obs})&=&P\left(X\geq \frac{1}{6}-\frac{4}{8}\right)=P(X=x_1)+P(X=x_3)+P(X=x_4)\\ &+&P(X=x_5)+P(X=x_6)=1-P(X=x_2)=1-\frac{\binom{6}{0}\times\binom{8}{5}}{\binom{14}{5}}\\ &=&1-\frac{56}{2002} \end{eqnarray} \]

Exemplo

tabela <-
matrix(c(1, 4, 5, 4),
        nrow = 2,
        dimnames =
        list(c("Vacina", "Sem Vacina"),
             c("Gripe", "Sem Gripe")))
tabela

##            Gripe Sem Gripe
## Vacina         1         5
## Sem Vacina     4         4

fisher.test(tabela, alternative = "greater")

## 
##  Fisher's Exact Test for Count Data
## 
## data:  tabela
## p-value = 0.972
## alternative hypothesis: true odds ratio is greater than 1
## 95 percent confidence interval:
##  0.00692127        Inf
## sample estimates:
## odds ratio 
##  0.2246127

Exemplo

Conhecemos agora a distribuição de probabilidade da estatística do teste sob \(H_0\). Agora, para a \(H_a\) de interesse, podemos calcular o valor de \(p\).

\(H_a\): \(p1\neq p_2\), isto é \(P(gripe|vacina)\neq P(gripe|semvacina)\)

O valor de \(p\) é calculado como

\[ \begin{eqnarray} P(X\geq |x_{obs}|)+P(X\leq -|x_{obs}|)=P\left(X\geq \left |\frac{1}{6}-\frac{4}{8}\right|\right)+P\left(X\leq -\left|\frac{1}{6}-\frac{4}{8}\right|\right) \end{eqnarray} \]

Exemplo

tabela <-
matrix(c(1, 4, 5, 4),
        nrow = 2,
        dimnames =
        list(c("Vacina", "Sem Vacina"),
             c("Gripe", "Sem Gripe")))
tabela

##            Gripe Sem Gripe
## Vacina         1         5
## Sem Vacina     4         4

fisher.test(tabela, alternative = "two.sided")

## 
##  Fisher's Exact Test for Count Data
## 
## data:  tabela
## p-value = 0.3007
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##  0.003403322 3.609204059
## sample estimates:
## odds ratio 
##  0.2246127