Parte importante do método científico consiste em testar hipóteses, realizando experimentos e coletando dados, mas como chegar à conclusão que os resultados do seu experimento são válidos? Como decidir se o efeito estudado é expressivo e dizer com confiança que a variação observada nos dados coletados não são causados por mera imprecisão das medições? Como afirmar que o fenômeno observado numa amostra pode ser generalizado para toda uma população?
Para tentar responder essas perguntas, os cientistas utilizam modelos estatísticos e testes de hipóteses para analisar os dados e testar a validade de resultados. Por meio da inferência estatística, os testes de hipótese são utilizados para tomar a decisão de aceitar ou rejeitar a hipótese nula.
“Mas o que é uma hipótese nula?”
Que bom que você perguntou. Antes de se realizar um experimento, formula-se uma hipótese nula (H0), normalmente afirmando que não existe relação entre os grupos de dados ou entre os fenômenos observados. A forma com que H0 é definida é muito importante, pois pode determinar a sua validade no final da análise.
Com H0 definida e os dados coletados, é realizado o teste de hipótese, adequado ao tipo de dado que está sendo analisado, esse teste vai gerar uma probabilidade de significância, chamado de valor-p. Quando esse valor está abaixo do nível de significância, geralmente 0.05 (5%), rejeita-se H0.
- O valor-p NÃO representa a probabilidade de H0 ser verdadeira
“O p calculado é de 0.04, por tanto, tenho 96% de certeza que os dados são correlacionados.”
Quanto menor o valor de p, maior a incompatibilidade estatística entre o conjunto de dados e H0, se as suposições utilizadas para calcular p forem verdadeiras, essa incompatibilidade pode ser interpretada como evidência contra H0.
- O valor-p NÃO representa a chance dos dados coletados serem coincidência
“Mas olha esse p, deu 0.035, então a probabilidade de obter esse resultado apenas por sorte é de 3.5%.”
O p afirma sobre uma possível relação entre os dados e uma explicação hipotética, não afirma nada sobre a explicação hipotética.
- O valor-p NÃO representa a magnitude do efeito observado
“Esse tratamento foi testado e teve um efeito comprovado com p de 0.02, então ele é mais efetivo que esse outro tratamento, com p de 0.04.”
Um valor de p pequeno não implica necessariamente na presença de efeitos maiores ou mais importantes. Qualquer efeito, mesmo que pequeno, pode produzir um p pequeno, desde que as medidas sejam precisas o suficiente. Efeitos grandes podem produzir p grande se as medidas forem imprecisas ou a amostra for pequena.
- O nível de significância 0.05 é uma convenção
O nível de significância de 5% é geralmente utilizado para dividir os resultados estatisticamente significantes dos resultados não-significantes, entretanto um p sem contexto é uma informação limitada. Valores de p próximos à 0.05 são evidências fracas contra ou à favor de H0. Infelizmente, costuma-se focar no valor de p e ignorar todos os outros fatores.
Agora que você já sabe como funciona o valor-p, vamos aplicar essa metodologia:
Suponha que você quer verificar se um dois dados não estão viciados. A hipótese nula é que eles são uniformes e a probabilidade de cair para cima é a mesma para os seis lados.
A probabilidade da soma dos lados dos dois dados ser igual a 12 é de 1/36 = 0.028.
Se você considerar o nível de significância como 0.05, o p de 0.028 mostra que a hipótese nula pode ser rejeitada, ou seja, conclui-se que os dados estão viciados.
Observe que nesse caso a conclusão pode estar incorreta. O resultado de apenas um rolamento de dados não é suficiente para se chegar a conclusões válidas sobre os dados. Ao interpretar um valor-p, outros parâmetros, como o tamanho amostral, devem ser levados em consideração.
Agora, suponha que você quer testar uma moeda. A hipótese nula é que a moeda é justa, ou seja, a probabilidade de cair cara é igual a probabilidade de cair coroa (50%).
Você, lembrando que o tamanho amostral é importante, joga a moeda 10 vezes e observa que ela cai sempre alternada: Cara, Coroa, Cara, Coroa, Cara, Coroa, Cara, Coroa, Cara, Coroa.
O p calculado é 0.492, bem acima do nível de significância 0.05 e você logo conclui que a moeda é justa.
Mas considere que a hipótese nula formulada inicialmente avaliasse a quantidade de resultados alternados.
Nesse caso, o p de 0.0039 é muito significante, indicando que o padrão observado nos resultados é muito improvável. A moeda pode estar sendo jogada por alguém que está forçando resultados alternados.
Isso mostra que o p depende completamente do tipo de teste que está sendo utilizado e da forma com que se define H0. O valor de p indica se a hipótese nula deve ser rejeitada ou não, mas não leva em consideração outras hipóteses.
Deliberadamente, eu não mencionei alguns detalhes mais técnicos, como a diferença entre teste unicaudal e bicaudal, distribuição normal, amostragem representativa, desvio padrão e hipótese alternativa, para não deixar o texto imenso e entediante e focar mais na forma correta de como interpretar o valor-p.
Com o uso dessa ferramenta estatística os ciêntistas podem encontrar os resultados que melhor explicam a nossa realidade e tornam a ciência uma fonte confiável de conhecimento… Ou será que não?
Referências
Ronald L. Wasserstein, Nicole A. Lazar. (2016) The ASA’s Statement on p-Values: Context, Process, and Purpose. The American Statistician 70:2, pages 129-133. Link.
http://www.exercisebiology.com/index.php/site/articles/what_is_a_p_value/
https://www.youtube.com/watch?v=i8wi0QnYN6s