R. A. Fisher foi um dos fundadores da Estatística moderna.
Em um de seus famosos experimentos, ele testou a capacidade de uma senhora em distinguir se a xícara estava servida com o leite colocado antes ou depois do chá.
Como planejar um experimento para testar a capacidade da pessoa distinguir se o chá foi preparado com leite primeiro ou por último?
\[\binom{8}{4}=70\]
\[\binom{4}{4}\binom{4}{0}=1\]
\[\binom{4}{3}\binom{4}{1}=16\]
\[\binom{4}{2}\binom{4}{2}=36\]
\[\binom{4}{1}\binom{4}{3}=16\]
\[\binom{4}{0}\binom{4}{4}=1\]
Queremos calcular a probabilidade de que este grupo de \(n\) elementos contenha \(x\) elementos com a característica A.
| Elemento escolhido | Característica \(A\) | Característica \(B\) | Total |
|---|---|---|---|
| sim | \(x\) | \(n-x\) | \(n\) |
| não | \(N-n\) | ||
| Total | \(r\) | \(N-r\) | \(N\) |
Seja \(X\) a v.a. que representa o número de elementos com a característica A dentre os \(n\) escolhidos ao acaso.
Então dizemos que \(X\) segue uma distribuição Hipergeométrica com parâmetros \(N,n,r\), ou seja, \(X \sim Hip(N,n,r)\).
A probabilidade de se observar \(x\) é dada por: \[P(X=x)=\frac{\binom{r}{x}\binom{N-r}{n-x}}{\binom{N}{n}}\,,\quad\quad0\leq x \leq min\{r,n\}\]
Queremos calcular a probabilidade de que dentre as 4 xícaras escolhidas \(x\) tenham de fato o chá colocado primeiro.
Seja \(X\) a v.a. que representa o número de xícaras com chá primeiro dentre as 4 selecionadas.
Então dizemos que \(X\) segue uma distribuição Hipergeométrica com parâmetros \(N,n,r\), ou seja, \(X \sim Hip(N=8,n=4,r=4)\).
A probabilidade de se observar \(x\) é dada por: \[P(X=x)=\frac{\binom{4}{x}\binom{4}{n-x}}{\binom{8}{4}}, \qquad 0\leq x \leq 4\]
\(H_0\): A senhora não consegue distinguir entre chá ou leite primeiro e escolhe ao acaso durante o experimento.
Estatística do teste: Total de acertos (\(X\))
Distribuição de probabilidade da estatística do teste, quando \(H_0\) é verdadeira.
\[P(X=x)=\frac{\binom{4}{x}\binom{4}{4-x}}{\binom{8}{4}}, \qquad 0\leq x \leq 4\]
Distribuição da Estatística do Teste sob \(H_0\)
Como decidir se rejeitamos ou não \(H_0\) de acordo com a estatística do teste observada?
Como decidir se rejeitamos a hipótese de que a senhora não consegue distinguir os chás, sendo que ela acertou, por exemplo, 3? Se ela tivesse acertado todas as 4 xícaras? Seria por pura sorte? Ou ela tem algum conhecimento?
Calculamos a probabilidade de um valor igual ou mais extremo ao da estatística do teste observada (valor-de-p). Mais extremo: mais evidência contra \(H_0\).
Se o valor-de-p obtido é bem pequeno, por exemplo, 0.01, isto quer dizer que se \(H_0\) é verdadeira, então seria incomum obter uma amostra com os resultados como o observado.
Um valor-de-p muito baixo traz fortes evidências contra \(H_0\).
Se a senhora acertou 3 xícaras:
\[P(X=3) = \frac{\binom{4}{3}\binom{4}{1}}{\binom{8}{4}}=8/35 \]
Calculamos a probabilidade de um valor igual ou mais extremo ao da estatística do teste observada (valor-de-p). Mais extremo: mais evidência contra \(H_0\).
Se a senhora tivesse acertado 4, seria ainda mais evidência contra \(H_0\), de forma que o valor de p é calculado como:
\[P(X=3)+P(X=4)=8/35 + 1/70 = 17/70\]
Se este valor for considerado alto, não temos evidências, baseando-se no experimento realizado, para rejeitar \(H_0\).
| Tratamento/Resposta | S (Sucesso) | F (Fracasso) | Total |
|---|---|---|---|
| 1 | \(a\) | \(b\) | \(n_1\) |
| 2 | \(c\) | \(d\) | \(n_2\) |
| Total | \(m_1\) | \(m_2\) | \(n\) |
\(\widehat{p_1} = \frac{a}{n_1}\) é a proporção amostral de sucessos no tratamento 1.
\(\widehat{p_2} = \frac{c}{n_2}\) é a proporção amostral de sucessos no tratamento 2.
\(H_0\): a probabilidade de sucesso é a mesma em cada um dos tratamentos, isto é, \(p_1=p_2\).
em que \(p_i\) é a verdadeira (populacional) proporção de sucesso do tratamento \(i\).
Estatística do teste: \(x=\hat{p_1}-\hat{p_2}\)
Precisamos então calcular a distribuição de probabilidade da estatística do teste, sob \(H_0\).
| Tomou Vacina?/Teve gripe? | Sim | Não | Total |
|---|---|---|---|
| Sim | \(a=1\) | \(b=5\) | \(n_1=6\) |
| Não | \(c=4\) | \(d=4\) | \(n_2=8\) |
| Total | \(m_1=5\) | \(m_2=9\) | \(n=14\) |
\(H_0\): \(P(gripe|vacina)=P(gripe|semvacina)\)
\(P(gripe|vacina)=p_1\)
\(P(gripe|semvacina)=p_2\)
Estatística do teste: \(x=\hat{p_1}-\hat{p_2}\)
\[x_{obs}=\frac{1}{6}-\frac{4}{8}\]
Precisamos obter a distribuição de probabilidade da estatística do teste, sob \(H_0\). Para isso, precisamos construir todas as tabelas possíveis, mantendo os totais marginais fixos.
Tabela 1 é a observada
| Tomou Vacina?/Teve gripe? | Sim | Não | Total |
|---|---|---|---|
| Sim | \(a=1\) | \(b=5\) | \(n_1=6\) |
| Não | \(c=4\) | \(d=4\) | \(n_2=8\) |
| Total | \(m_1=5\) | \(m_2=9\) | \(n=14\) |
\[x_{obs}=x_{1}=\frac{1}{6}-\frac{4}{8}\]
Sob \(H_0\), isto é, considerando o caso em que \(H_0\) seja verdadeira, temos que a chance de ter gripe é a mesma, independente do fato da pessoa ter tomado a vacina ou não.
Quantas formas possíveis temos de escolher 5 pessoas a partir de um grupo de 14 pessoas? (14 pessoas no total e 5 com gripe, independente de terem tomado vacina ou não):
\[\binom{14}{5}=2002\]
Para observarmos \(x_{1}=\frac{1}{6}-\frac{4}{8}\), necessariamente, duas coisas ocorreram:
Dentre as pessoas que tomaram vacina, 1 teve gripe e, dentre as pessoas que não tomaram vacina, 4 tiveram gripe. De quantas formas isso pode ocorrer, sendo que temos 6 pessoas que tomaram a vacina e 8 que não tomaram?
\[\binom{6}{1}\times\binom{8}{4}=6\times 70 = 420\]
De maneira que \(P(X=x_1)=P\left(X=\frac{1}{6}-\frac{4}{8}\right)=\frac{\binom{6}{1}\times\binom{8}{4}}{\binom{14}{5}}=\frac{420}{2002}\)
Tabela 2
| Tomou Vacina?/Teve gripe? | Sim | Não | Total |
|---|---|---|---|
| Sim | \(a=0\) | \(b=6\) | \(n_1=6\) |
| Não | \(c=5\) | \(d=3\) | \(n_2=8\) |
| Total | \(m_1=5\) | \(m_2=9\) | \(n=14\) |
\[x_{2}=\frac{0}{6}-\frac{5}{8}\] \[P(X=x_2)=P\left(X=\frac{0}{6}-\frac{5}{8}\right)=\frac{\binom{6}{0}\times\binom{8}{5}}{\binom{14}{5}}=\frac{56}{2002}\]
Tabela 3
| Tomou Vacina?/Teve gripe? | Sim | Não | Total |
|---|---|---|---|
| Sim | \(a=2\) | \(b=4\) | \(n_1=6\) |
| Não | \(c=3\) | \(d=5\) | \(n_2=8\) |
| Total | \(m_1=5\) | \(m_2=9\) | \(n=14\) |
\[x_{3}=\frac{2}{6}-\frac{3}{8}\] \[P(X=x_3)=P\left(X=\frac{2}{6}-\frac{3}{8}\right)=\frac{\binom{6}{2}\times\binom{8}{3}}{\binom{14}{5}}=\frac{840}{2002}\]
Tabela 4
| Tomou Vacina?/Teve gripe? | Sim | Não | Total |
|---|---|---|---|
| Sim | \(a=3\) | \(b=3\) | \(n_1=6\) |
| Não | \(c=2\) | \(d=6\) | \(n_2=8\) |
| Total | \(m_1=5\) | \(m_2=9\) | \(n=14\) |
\[x_{4}=\frac{3}{6}-\frac{2}{8}\]
\[P(X=x_4)=P\left(X=\frac{3}{6}-\frac{2}{8}\right)=\frac{\binom{6}{3}\times\binom{8}{2}}{\binom{14}{5}}=\frac{560}{2002}\]
Tabela 5
| Tomou Vacina?/Teve gripe? | Sim | Não | Total |
|---|---|---|---|
| Sim | \(a=4\) | \(b=2\) | \(n_1=6\) |
| Não | \(c=1\) | \(d=7\) | \(n_2=8\) |
| Total | \(m_1=5\) | \(m_2=9\) | \(n=14\) |
\[x_{5}=\frac{4}{6}-\frac{1}{8}\]
\[P(X=x_5)=P\left(X=\frac{4}{6}-\frac{1}{8}\right)=\frac{\binom{6}{4}\times\binom{8}{1}}{\binom{14}{5}}=\frac{120}{2002}\]
Tabela 6
| Tomou Vacina?/Teve gripe? | Sim | Não | Total |
|---|---|---|---|
| Sim | \(a=5\) | \(b=1\) | \(n_1=6\) |
| Não | \(c=0\) | \(d=8\) | \(n_2=8\) |
| Total | \(m_1=5\) | \(m_2=9\) | \(n=14\) |
\[x_{6}=\frac{5}{6}-\frac{0}{8}\]
\[P(X=x_6)=P\left(X=\frac{5}{6}-\frac{0}{8}\right)=\frac{\binom{6}{5}\times\binom{8}{0}}{\binom{14}{5}}=\frac{6}{2002}\]
Conhecemos agora a distribuição de probabilidade da estatística do teste sob \(H_0\). Agora, para a \(H_a\) de interesse, podemos calcular o valor de \(p\).
\(H_a\): \(p1<p_2\), isto é \(P(gripe|vacina)<P(gripe|semvacina)\)
O valor de \(p\) é calculado como \(P(X\leq x_{obs})=P\left(X\leq \frac{1}{6}-\frac{4}{8}\right)=P(X=x_1)+P(X=x_2)=\frac{420}{2002}+\frac{56}{2002}\)
tabela <-
matrix(c(1, 4, 5, 4),
nrow = 2,
dimnames =
list(c("Vacina", "Sem Vacina"),
c("Gripe", "Sem Gripe")))
tabela
## Gripe Sem Gripe ## Vacina 1 5 ## Sem Vacina 4 4
fisher.test(tabela, alternative = "less")
## ## Fisher's Exact Test for Count Data ## ## data: tabela ## p-value = 0.2378 ## alternative hypothesis: true odds ratio is less than 1 ## 95 percent confidence interval: ## 0.000000 2.605364 ## sample estimates: ## odds ratio ## 0.2246127
Conhecemos agora a distribuição de probabilidade da estatística do teste sob \(H_0\). Agora, para a \(H_a\) de interesse, podemos calcular o valor de \(p\).
\(H_a\): \(p1>p_2\), isto é \(P(gripe|vacina)>P(gripe|semvacina)\)
O valor de \(p\) é calculado como
\[ \begin{eqnarray} P(X\geq x_{obs})&=&P\left(X\geq \frac{1}{6}-\frac{4}{8}\right)=P(X=x_1)+P(X=x_3)+P(X=x_4)\\ &+&P(X=x_5)+P(X=x_6)=1-P(X=x_2)=1-\frac{\binom{6}{0}\times\binom{8}{5}}{\binom{14}{5}}\\ &=&1-\frac{56}{2002} \end{eqnarray} \]
tabela <-
matrix(c(1, 4, 5, 4),
nrow = 2,
dimnames =
list(c("Vacina", "Sem Vacina"),
c("Gripe", "Sem Gripe")))
tabela
## Gripe Sem Gripe ## Vacina 1 5 ## Sem Vacina 4 4
fisher.test(tabela, alternative = "greater")
## ## Fisher's Exact Test for Count Data ## ## data: tabela ## p-value = 0.972 ## alternative hypothesis: true odds ratio is greater than 1 ## 95 percent confidence interval: ## 0.00692127 Inf ## sample estimates: ## odds ratio ## 0.2246127
Conhecemos agora a distribuição de probabilidade da estatística do teste sob \(H_0\). Agora, para a \(H_a\) de interesse, podemos calcular o valor de \(p\).
\(H_a\): \(p1\neq p_2\), isto é \(P(gripe|vacina)\neq P(gripe|semvacina)\)
O valor de \(p\) é calculado como
\[ \begin{eqnarray} P(X\geq |x_{obs}|)+P(X\leq -|x_{obs}|)=P\left(X\geq \left |\frac{1}{6}-\frac{4}{8}\right|\right)+P\left(X\leq -\left|\frac{1}{6}-\frac{4}{8}\right|\right) \end{eqnarray} \]
tabela <-
matrix(c(1, 4, 5, 4),
nrow = 2,
dimnames =
list(c("Vacina", "Sem Vacina"),
c("Gripe", "Sem Gripe")))
tabela
## Gripe Sem Gripe ## Vacina 1 5 ## Sem Vacina 4 4
fisher.test(tabela, alternative = "two.sided")
## ## Fisher's Exact Test for Count Data ## ## data: tabela ## p-value = 0.3007 ## alternative hypothesis: true odds ratio is not equal to 1 ## 95 percent confidence interval: ## 0.003403322 3.609204059 ## sample estimates: ## odds ratio ## 0.2246127