Como vimos no post anterior, o valor-p é uma das ferramentas estatísticas mais utilizadas pelos cientistas para testar e validar suas hipóteses, mas mesmo com o uso dessa ferramenta, vários estudos apontam que a grande maioria dos artigos científicos publicados são falsos, na chamada “replication crisis”. Estaria o método científico quebrado? Ainda podemos confiar na ciência?

Ronald Fisher criou a análise de hipótese nula e o valor-p apenas como uma maneira informal de julgar se o resultado de um experimento é significante, não como um teste definitivo. Mas, a maioria dos livros de estatística apresentam o valor-p como a única forma válida de análise estatística e ignoram as suas limitações e muito periódicos científicos transformaram o valor-p significante (p < 0.05) num pré-requisito para publicação.

O problema aqui é que o valor-p não representa evidência de forma satisfatória e nem mesmo p é reproduzível. Adicionar ou remover alguns pontos move p acima e abaixo do valor 0.05. Essa variação é ainda mais pronunciada quando o experimento inteiro é replicado e o valor-p salta para cima e para baixo, praticamente uma “loteria estatística”, causada simplesmente pela variabilidade amostral.

(Fonte: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1119478/)

 

O valor de p é limitado, ele não diz nada sobre o tamanho do efeito que está sendo medido. Um estudo com mais de 19 mil pessoas concluiu que as pessoas que conhecem seu cônjuge online, tem menos chance de se divorciar (p < 0.002) e tem mais chance de ter um casamento satisfatório (p < 0.001) em comparação às pessoas que se conheceram offline. Esses valores de p parecem impressionantes, mas o efeito medido pela pesquisa era muito pequeno: as taxas de divórcio caíam de 7.67% para 5.96% e a felicidade subia de 5.48 para 5.64 numa escala de 7 pontos.

As revistas científicas enfatizam o valor-p, como se fosse a única análise estatística válida e os cientistas acabam manipulando dados, até chegar no valor desejado de p < 0.05, necessário para a publicação do seu artigo.

Mas isso não significa que os cientistas são todos enganadores e a ciência deve ser jogada fora. Manipular os dados para obter o valor-p desejado é chamado de “p-hacking” e pode ser feito mesmo de forma inconsciente. Quando você formula sua hipótese e faz a coleta dos dados, não existe uma forma clara e definitiva de como analisar os dados nem de quais dados são realmente representativos e devem ser incluídos nos cálculos e quais podem ser descartados.

Pior ainda, se a sua primeira análise não chegar à conclusão desejada você pode analisar de formas diferentes até encontrar a resposta que você quer. O viés confirmatório e as falhas dos seres humanos tornam muito difícil realizar um estudo com resultados confiáveis.

Em 2015, um estudo mostrou que comer uma barra de chocolate por dia ajuda a perder peso, com um p < 0.05. Esse estudo foi propositalmente pensado para aumentar a chance de falsos positivos, incluindo 18 medidas diferentes: peso, colesterol, sódio, qualidade de sono, etc, além ter sido realizado com apenas 15 pessoas.

Medir diversas variáveis ao mesmo tempo, numa amostra pequena, aumenta bastante a chance de se obter um resultado “estatisticamente significante” apenas pela variação amostral.

Se um pesquisador não consegue replicar os resultados de um artigo, é difícil publicar um trabalho sobre esse estudo, já que as revistas científicas costumam favorecer resultados inesperados e publicações inéditas e não replicatas.

A falta de reprodutibilidade de resultados faz com que as pessoas deixem de confiar na ciência como forma de buscar a verdade e de entender como o universo funciona.

Para dar mais credibilidade aos seus artigos, o journal Basic and Applied Social Psychology baniu o uso do valor-p, pedindo aos pesquisadores que retirem de suas publicações todas as análises de estatística inferencial (valor-p, valor-t, valor-F).

Outra proposta para reduzir o número de resultados falso-positivos é reduzir o nível de significância de 0.05 (5%) para 0.005 (0.5%), chamando resultados com valor-p próximos de 0.05 de “sugestivos”. Entretanto, essa proposta não muda o problema, que é usar o valor-p como critério de validação, e não impede que um cientista continue utilizando de “p-hacking”, de forma consciente ou inconsciente, para chegar no valor desejado.

Outra alternativa é que o cientista faça um registro do estudo, antes de realizar os experimentos. Ele publica a metodologia que será utilizada, com a promessa que o resultado será publicado independente de ser um resultado positivo ou negativo, reduzindo a chance de manipulação do estudo.

Não existe uma resposta simples, qualquer que seja a solução, será uma combinação de fatores: novos padrões mais rigorosos de validação, métodos de análise alternativos (como inferência estatística bayesiana),  incentivos para publicação de replicatas e de resultados negativos.

Mesmo com todas as suas falhas, o método científico é a melhor ferramenta que nós temos para encontrar a verdade, mesmo que não seja na primeira tentativa.

Referencias

Dance p 3 Mar09

Is Most Published Research Wrong?

Reality check on reproducibility

Science Isn’t Broken

Demystifying the p-value

The fickle P value generates irreproducible results

I Fooled Millions Into Thinking Chocolate Helps Weight Loss. Here’s How.

Scientific method: Statistical errors

Why Most Published Research Findings Are False

https://psyarxiv.com/mky9j

P-Hacking and Other Statistical Sins

New “p < 0.005” Standard Considered Harmful

 

…………………………………………………………………………………………………………………………………………

William Magalhães

Químico, programador e mochileiro das galáxias.