Isso é uma falácia!

O termo falácia vem do verbo fallere, em latim, que significa enganar. Se alguma vez você topou com um raciocínio logicamente errado, mas com aparência de verdadeiro, as chances são grandes de você ter estado diante de uma falácia argumentativa, ou como é rotineiramente chamada: uma falácia. O artigo da Wikipédia sobre falácia tem um trecho muito interessante, que diz:

Reconhecer as falácias é por vezes difícil. Os argumentos falaciosos podem ter validade emocional, íntima, psicológica, mas não validade lógica. É importante conhecer os tipos de falácia para evitar armadilhas lógicas na própria argumentação e para analisar a argumentação alheia.

Em vários cenários, costumamos estudar as falácias argumentativas com o intuito de não ser ludibriados, de evitar as ocasiões em que alguém nos enganaria. No entanto, tão importante quanto não ser enganado é conhecê-las para evitar que nós façamos uso delas: Tão ruim quanto ter um debate poluído por uma argumentação falaciosa é nós mesmos darmos esse empurrãozinho para uma direção equivocada.

Uma falácia que ultimamente tem chamado bastante a minha atenção é a falácia Post hoc ergo propter hoc ou como também é conhecida, falácia post hoc. Em bom Português seria depois disso, portanto, por causa disso ou depois disso, portanto, causado por isso. Não me surpreende que ela tenha me chamado a atenção, afinal, em períodos de pandemia da COVID-19, a todo instante temos pessoas tentando explicar o porquê das coisas acontecerem, o que causou o quê. E para alguém fazendo doutorado na área de causalidade aplicada à área médica, como é o meu caso, é um lembrete diário de que causalidade segue sendo algo bastante incompreendido por grande parte da população.

Um exemplo da falácia post hoc é quando algo ocorre e imediatamente pulamos para a conclusão que nos agrada mais, ou que agrada nossas expectativas. Se um paciente acometido por uma doença recebeu um determinado protocolo de tratamento, com medicamento A, e sobreviveu, algumas pessoas pulariam imediatamente para a conclusão de que o medicamento A funciona. Se tudo aconteceu igual, mas ao final o paciente não sobreviveu, algumas pessoas pulariam imediatamente para a conclusão de que o medicamento A não funciona. Todas essas pessoas, ao fazer isso, estariam utilizando de um raciocínio equivocado, isto é, estariam utilizando da falácia post hoc.

Um outro modo de entender o problema desse raciocínio é através de uma expressão bastante conhecida: correlação não implica em causalidade, ou seja, não é porque todos os meus amigos que jogam xadrez bem tomam suco de laranja pela manhã que necessariamente tomar suco de laranja pela manhã faz as pessoas jogarem xadrez melhor (Se tiver interessado em saber como você pode testar essa hipótese, eu explico um método nesse episódio do Spin de Notícias). Nesse caso do xadrez, eu estaria incorrendo também em uma outra falácia argumentativa, a da evidência anedótica. Nossas experiências pessoais não necessariamente são representativas do restante da sociedade, mas isso é papo para um outro texto :-)

Por que correlação não implica em causalidade?

Em Nova Iorque, nos Estados Unidos, foi observado que quando as vendas de sorvete aumentavam, a taxa de assassinatos também aumentava. Em um outro lugar nos Estados Unidos, havia sido observado que quando as vendas de sorvete aumentavam, o número de mortes por afogamento também aumentavam. Essa associação entre duas variáveis é chamada de correlação. Quando a ocorrência de um dos eventos, de uma das variáveis, está de certo modo acompanhando uma outra variável ao longo do tempo, dizemos que há uma correlação. Ela será positiva quando caminham juntas na mesma direção: Se eu tenho mais sapatos no guarda roupa, provavelmente irei ter uma maior variedade de sapatos nos pés ao longo do mês. No entanto, não precisa ser necessariamente no mesmo sentido: Sempre que uma aumentar (número de sapatos), outra pode diminuir (dinheiro no bolso). Mais (+) sapatos, (-) menos espaço no sapateiro, e assim por diante. É o que chamamos de correlação negativa, no contexto de correlação linear de Pearson (existem outras medidas de correlação ou de dependência estatística, como tecnicamente costumamos chamar, em que não há essa noção de positiva ou negativa).

Nas imagens abaixo, temos dois gráficos através dos quais podemos visualizar a associação entre essas duas variáveis, venda de sorvete e morte por afogamento, e na segunda imagem venda de sorvete e taxa de assassinato.

Retiradas de https://www.lifehack.org/624604/the-most-common-bias-people-have-that-leads-to-wrong-decisions

Nesses dois casos, não era tão claro o que ocorria primeiro. Os eventos ocorriam de forma simultânea, o que costuma receber o nome de cum hoc ergo propter hoc, que em Português significa com isso, logo, por causa disso. O raciocínio que veio à tona, para muitos, foi que o consumo de sorvete estava causando um aumento no número de mortes por afogamento. Imediatamente, várias hipóteses começaram a surgir tentando explicar esse fenômeno e não demorou muito para sugerirem intervenções na sociedade através de políticas públicas para restringir o consumo de sorvete.

Felizmente, alguém com treinamento em estatística e inferência causal entrou no debate e mostrou que essa associação deixava de existir quando uma terceira variável era levada em consideração: A temperatura. Se você observasse um período com a mesma faixa de temperatura, o consumo de sorvete e banho de praia pareciam ocorrer de forma aleatória. Apenas quando ignorávamos temperatura, e olhávamos ao longo de temperaturas variadas, que essa associação parecia surgir.

No hemisfério norte do planeta, onde temos estações bem definidas, existem períodos muito frios, com temperaturas negativas, e períodos muito quentes com mais de 40 graus celsius. Ao longo do ano, quando as temperaturas se tornavam muito quentes, mais pessoas tomavam sorvete e mais pessoas tomavam banho de piscina ou de mar com o objetivo de se refrescar. Quando as temperaturas estavam muito baixas, negativas, menos pessoas compravam sorvete ou iam para a praia. Se tiver uma chance de uma pessoa se afogar a cada 1000 pessoas que entram no mar, e nós temos muito mais pessoas indo se banhar, é natural esperar que mais pessoas irão morrer. O mesmo raciocínio pode ser utilizado para explicar a taxa de assassinato: Em tempos muito frios, nós temos mais pessoas ficando em casa, menos movimentação nas ruas. Em tempos mais quentes, temos mais pessoas ficando fora de casa, saindo tarde da noite, etc.

Em muitos casos, dois eventos irão parecer associados por desconhecermos ao menos uma terceira variável que é a causadora de ambos, isto é, há uma causa em comum para ambos, e, se não conhecermos essa variável de confusão, ficamos tentados a achar que essas duas se causam ou que uma causa a outra.

Partindo para o contexto da pandemia de COVID-19, imagine que o governo de algum local decidiu intervir com uma política de lockdown para restringir a movimentação das pessoas no intuito de ampliar o distanciamento social, em período de pandemia. Um aumento ou diminuição da circulação, ou de número de novos casos, ou de novos óbitos, ou de mudança no Rt (taxa de reprodução do vírus, isto é, número médio de pessoas infectadas por um indivíduo infectado), não necessariamente é causado pela intervenção. De modo a respondermos a pergunta causal, precisamos de uma metodologia específica para esse propósito, isto é, técnicas para responder o seguinte contrafactual: teria isso acontecido ainda que tivéssemos feito diferente?

Sem querer entrar em detalhes muito técnicos, uma das abordagens poderia ser uma análise estatística multivariada (a análise de muitas variáveis ao mesmo tempo), utilizando de técnicas causais para identificar quais dessas variáveis são variáveis de confusão (isso não é trivial), controlá-las, e discutir a viabilidade do nosso modelo estar levando em consideração (isto é, que foram medidas) todas as possíveis variáveis que poderiam influenciar a dinâmica do sistema. Outras técnicas, como Análise de sensibilidade podem ser utilizadas para diminuir a incerteza de nossas conclusões, assim como aumentar a robustez de nossa análise. Ainda assim, repito, não é nem um pouco trivial. Responder contrafactuais pode ser algo bastante complexo e, em alguns casos, pode ser não-identificável, ou seja, impossível de responder (com o conhecimento e técnicas que temos hoje). Portanto, se alguém tentar fazer isso parecer simples e te mostrar um gráfico com dados antes e depois de uma intervenção, e tentar apenas com isso te vender uma hipótese de que a intervenção funcionou ou não funcionou, CUIDADO. Essa pessoa ou não sabe do que está falando, ou está tentando te enganar.

Ainda na temática de lockdown, se não está claro para você o porquê dessa medida de distanciamento social, ou higiene, terem efeito no controle do Rt (taxa de reprodução do vírus), sugiro a leitura desse texto que traduzi e comentei aqui no Portal Deviante: A matemática promissora por trás do achatamento da curva.