Sobre as trapalhadas de alguns críticos das metanálises do c19 study


Este post do Daniel Victor Tausk mais uma vez vem nos abrilhantar em como se desfaz narrativas. Tausk com sua capacidade inata de explicar para todos entendedores e leigos no assunto desmonta a narrativa sobre a crítica ao C19 Study que todos nós que utilizamos o Tto Imediato usamos como referência. Não deixem de ler e compartilhar, afinal Conhecimento é Poder.


Quem acompanha um pouco o tema sobre o qual não se pode falar sabe do que se trata o c19 study. Trata-se de um site anônimo que agrega artigos a respeito daquelas que não podem ser mencionadas. O site contém também comentários e metanálises. Acho o site muito útil como agregador de estudos, mas sou muito cético a respeito das análises e metanálises que aparecem lá. Uma revisão cuidadosa dessas metanálises envolveria um trabalho hercúleo de leitura de dezenas ou centenas de artigos que não me proponho a fazer. Desconfio muito das conclusões que aparecem lá que me parecem extremamente exageradas, tanto nos efeitos estimados como nos p-valores. Acho ótimo que pessoas se disponham a corrigir problemas nesse site, mas é fundamental que os problemas apontados sejam os problemas reais e não problemas imaginários. Faz algum tempo que alguns comentadores acadêmicos no twitter tem falado grandes bobagens sobre essas metanálises. Esse post é para passar essa questão a limpo. Observo que há outras metanálises favoráveis bem melhores e mais difíceis de criticar sobre as inomináveis e que o c19 study é frequentemente usado como um espantalho por ser fácil de bater.


Este post tem duas seções, uma primeira para o público leigo e uma segunda mais técnica para quem sabe algo de matemática e probabilidade. Vamos à primeira seção.


Chama bastante atenção nas metanálises do c19 study que os p-valores obtidos sejam bizarramente baixos. Faz bastante tempo que um cardiologista que fala sobre medicina baseada em evidências no twitter espalhou o boato de que esses p-valores bizarramente baixos tenham sido obtidos multiplicando os p-valores dos vários estudos [1]. Ele tem toda razão que multiplicar p-valores é uma barbaridade (explicação exata do porque fica para a seção técnica do post), só que quando você olha as referidas metanálises não encontra nenhuma multiplicação de p-valores. O que ele afirma é mentira, pura e simples. Imagino que ele viu aqueles p-valores bizarramente baixos e imaginou que eles tivessem sido obtidos por uma multiplicação, sem se dar ao trabalho de ler realmente como foram obtidos.


Em paralelo, um físico da UNICAMP que escreve no twitter sobre esse tema está há algum tempo muito intrigado sobre como esses p-valores baixos foram obtidos nas metanálises do c19 study [2]. Ele até criou uma hashtag #desafiodopvalor instigando as pessoas a explicarem de onde vieram aqueles p-valores. Acho muito estranho que ele tenha essa dificuldade toda em entender a origem dos p-valores, afinal basta passar o olho na introdução das metanálises que elas explicam muito clara e explicitamente como os p-valores foram calculados (imagens anexas ao post). Usaram um teste de sinal (mais sobre isso na seção técnica) e um modelo de efeitos aleatórios muito usado em metanálises. Leva cinco segundos para reproduzir os p-valores apresentados fazendo um teste de sinal, então realmente é um mistério o que haveria de desafiador no tal "desafio". Ressalto que a relevância desses p-valores depende entre outras coisas da qualidade dos estudos que estão entrando na metanálise e da forma que esses estudos são analisados e é aí que provavelmente poderemos encontrar muitos problemas, mas o cálculo em si do p-valor é trivial e está correto.


Depois de muito esforço o físico finalmente entendeu como os p-valores foram calculados. Aí ele diz agora que quem fez o site "não tem noção do que é p-valor" e "não tem noção de como se calcula p-valor em uma meta-análise" e foi retweetado pelo tal cardiologista [3] que finalmente adimitiu que não havia multiplicação de p-valores (não tinha e não sei de onde ele tirou a ideia de que tinha), mas que há "algo bem pior", "o que já era ruim, ficou absurdamente pior", diz ele. Sinto informar ao físico que quem não sabe nada sobre cálculo de p-valores é ele e que testes de sinal são uma forma perfeitamente correta e padrão de se obter um p-valor (mais sobre isso na seção técnica do post). E o tal cardiologista que inventou o boato da "multiplicação dos p-valores" agora está aplaudindo o físico que não sabe o que é um teste de sinal. Esse é o resumo da história.


Links dos tweets:


[1] https://twitter.com/josenalencar/status/1369654820546768898


[2] https://twitter.com/leandrotessler/status/1376572023300882445


[3] https://twitter.com/josenalencar/status/1376613963815923712


Vamos à seção técnica do post


Aqui uma explicação mais detalhada sobre testes de hipótese, p-valores, combinação de p-valores e testes de sinal. Destinada a quem sabe um pouco de matemática e probabilidade. Alguns detalhes mais finos são deixados para notas de rodapé.


Recordemos que o set up básico de um problema de inferência estatística clássica é o seguinte: há um parâmetro (digamos, a eficácia de um medicamento) que é desconhecido e gostaríamos de estimar. Para isso, fazemos algum tipo de experimento (digamos, um estudo clínico) cujo resultado é aleatório e cuja distribuição de probabilidade depende do parâmetro de interesse. O parâmetro é tratado como uma constante desconhecida não aleatória (isto é, não possui uma distribuição de probabilidade associada) e as funções do resultado do experimento, chamadas estatísticas, são variáveis aleatórias cuja distribuição depende do parâmetro. O resultado do experimento é normalmente observado e portanto conhecido, diferentemente do parâmetro.


Num teste de hipótese, colocamos duas hipóteses complementares H0 e H1 a respeito do parâmetro (no caso de um teste de um medicamento a chamada hipótese nula H0 é a de que o medicamento é idêntico ao placebo). O teste deve possuir um critério para rejeição da hipótese nula formulado em termos do valor de alguma estatística (isto é, de uma função do resultado do experimento). Um erro do tipo I ocorre quando rejeitamos H0 sendo ela verdadeira e um erro do tipo II ocorre quando não rejeitamos H0 sendo ela falsa. O p-valor nada mais é que uma estatística, mas uma estatística especial, que tem a seguinte propriedade: para qualquer número real alpha no intervalo [0,1], a probabilidade do p-valor ser menor ou igual a alpha sob a hipótese nula H0 deve ser igual a alpha. Em outras palavras, a distribuição de um p-valor deve ser uniforme [4] no intervalo [0,1] sob H0. Qual o sentido disso? O p-valor deve nos fornecer o valor do erro do tipo I: mais precisamente, se usamos p-valor <= alpha como critério de rejeição de H0, esse alpha será precisamente o valor do erro do tipo I. Há outras propriedades desejáveis de um p-valor: a probabilidade do p-valor ser pequeno deve aumentar à medida em que o parâmetro se afasta de H0 no espaço paramétrico. Isso está ligado ao chamado poder do teste. Mas não vem ao caso nessa exposição.


A maneira padrão de se construir um p-valor é começar com uma estatística qualquer X (tomando valores reais) e definir o p-valor canonicamente associado a ela como sendo a probabilidade, sob H0, de X assumir um valor mais extremo do que aquele que foi observado [5]. É um exercício simples em teoria de probabilidade que uma variável aleatória construída dessa forma possui de fato uma distribuição uniforme [6] no intervalo [0,1] sob H0. Daí vem a descrição usual mais informal de que o p-valor é "a probabilidade de que um valor como aquele observado ou mais extremo do que aquele observado seja obtido sob H0".


E por que não podemos multiplicar p-valores para obter um p-valor combinado numa metanálise? Com a descrição ingênua de "probabilidade de se obter um resultado como aquele observado ou mais extremo do que aquele observado sob H0", é tentador pensar que se temos vários p-valores independentes deveríamos simplesmente multiplicá-los para obter um p-valor combinado, afinal a probabilidade de obter todos aqueles eventos independentes será simplesmente o produto. O problema é que o produto de variáveis aleatórias independentes com uma distribuição uniforme em [0,1] não é mais uniforme em [0,1]. Em outras palavras, se p1, ..., pn são p-valores independentes, então p=p1...pn não pode ser um p-valor válido porque a probabilidade sob H0 de p ser menor ou igual a alpha não será em geral menor ou igual a alpha. Para combinar p-valores de forma correta, precisamos de algum método para produzir uma distribuição uniforme em [0,1] a partir de n distribuições uniformes independentes em [0,1]. Existem várias maneiras de se fazer isso. Uma bastante popular é o chamado p-valor combinado de Fisher que corrige o produto da forma mais óbvia: considera-se a estatística X=p1....pn e forma-se o p-valor canonicamente associado a X da forma descrita no parágrafo anterior [7].


E o que é o teste de sinal? O teste de sinal é um teste para se comparar observações pareadas que sejam de natureza ordenada, isto é, para as quais faça sentido falar em menor e maior. A hipótese nula é de perfeita simetria, isto é, que a probabilidade da primeira observação ser maior do que a segunda seja igual à probabilidade da segunda observação ser maior do que a primeira [8]. Sob essa hipótese, a probabilidade da primeira observação ser maior do que a segunda é igual a 1/2. Essa simetria é exatamente o que acontece num estudo clínico bem conduzido (adequadamente randomizado, cegado, etc) quando o medicamente é idêntico a um placebo: a probabilidade do grupo tratado se sair melhor (por algum critério pré-especificado) do que o grupo controle é igual à probabilidade do grupo controle se sair melhor do que o grupo tratado.


Como se faz o teste de sinal? É muito simples: temos n pares ordenados independentes de observações e olhamos para o número k de pares ordenados em que a primeira observação é maior do que a segunda (digamos, grupo controle se saiu melhor do que o grupo tratado, no exemplo dos estudos clínicos). Sob a hipótese nula, esse k tem uma distribuição Binomial(n,1/2). O p-valor (unicaudal) é o p-valor canonicamente associado a essa estatística k, quer dizer, a probabilidade de que uma Binomial(n,1/2) tenha valor menor ou igual a k. Ele satisfaz a propriedade fundamental de um p-valor de ser (aproximadamente [9]) uniforme em [0,1] sob a hipótese nula.


Notas de rodapé:


[4] Há algumas tecnicalidades adicionais aqui: quando as distribuições envolvidas no experimento são discretas, o próprio p-valor terá também uma distribuição discreta e portanto não pode ser uniforme. Nesse caso pedimos apenas que a distribuição do p-valor sob H0 seja aproximadamente uniforme e que a probabilidade do p-valor ser menor ou igual a alpha sob H0 seja menor ou igual a alpha (de modo que o p-valor dê ao menos uma cota superior para o erro do tipo I). Na prática muitas vezes são feitas aproximações que fazem com que o p-valor não seja exatamente uniforme, mesmo quando as distribuições envolvidas são contínuas.


[5] Mais precisamente: se F é a função de distribuição acumulada de X sob H0, isto é, se F é definida por F(x) = P(X <= x) sob H0, tomamos o p-valor como sendo F(X).


[6] Quando a variável X é contínua. Se não, valerá apenas em geral que a probabilidade sob H0 do p-valor ser menor ou igual a alpha será menor ou igual a alpha (podendo ser menor). Essa é a mesma ressalva técnica feita na nota [4].


[7] F(X), em que F é a função de distribuição acumulada do produto de n variáveis independentes com distribuição uniforme em [0,1].


[8] Supõe-se que empates tem probabilidade zero. Na prática isso muitas vezes vale só aproximadamente.


[9] A menos da ressalva de sempre: como a distribuição binomial é discreta, o p-valor só pode ser aproximadamente uniforme. Na prática isso faz com que o teste seja mais conservador, já que a probabilidade do p-valor ser menor ou igual a alpha sob H0 pode ser menor do que alpha.


Sobre as trapalhadas dos críticos da metanálise do c19 study, parte II


Eu não queria voltar a falar sobre esse tema, mas agora o canal Meteoro Brasil --- um canal do YouTube com quase um milhão de inscritos --- fez um vídeo "de divulgação científica" para criticar essa metanálise e cometeu erros grosseiros sobre estatística básica, então cá estou eu aqui de novo falando sobre isso. Reitero que não defendo de forma alguma a validade da metanálise do c19 study, mas enquanto alguns "divulgadores científicos" insistirem em falar bobagens sobre ela, alguém com a devida competência técnica tem que corrigir. Aparentemente outras pessoas com a devida competência preferem não "sujar as mãos" com esse tipo de polêmica, então sobra para mim. Novamente, o post contém uma parte menos técnica para leigos e outra mais técnica para quem sabe um pouco de probabilidade. Dessa vez optei por incluir duas referências para os leigos que não conseguem acompanhar a parte técnica e dependem de algum argumento de autoridade para se convencer. Aqui está o meu primeiro post sobre esse tema para quem estiver perdido:


https://www.facebook.com/danielvictor.tausk/posts/10165080790120523


Recordo que o c19 study anuncia um p-valor bizarramente baixo na sua metanálise e que esse p-valor foi obtido por um teste de sinal. De forma sucinta, a aplicação do teste nesse caso consiste em pegar uma seleção de estudos clínicos a respeito da droga e contar em quantos deles o grupo tratado se saiu melhor do que o grupo controle. O p-valor é então calculado tratando cada estudo como se fosse um lançamento de uma moeda honesta (sendo, digamos, cara correspondendo ao grupo tratado se sair melhor e coroa correspondendo ao grupo controle se sair melhor). Evidentemente, se estudos de baixa qualidade são incluídos ou se, por exemplo, houver algum cherry picking dos desfechos dentro de cada estudo, esse p-valor fica comprometido. Isso seria verdade para qualquer teste estatístico utilizado e não só para o teste de sinal. É provável que problemas desse tipo tenham ocorrido com o c19 study e é **por isso** que o p-valor que eles anunciam provavelmente não presta.


O vídeo do Meteoro Brasil diz que aquilo que o c19 study faz está errado porque o correto seria contar o número de estudos clínicos em que o grupo tratado se saiu melhor com significância estatística em vez do número de estudos clínicos em que o grupo tratado simplesmente se saiu melhor. Mas isso é justamente o oposto da verdade. O que o c19 study fez --- contar o número de estudos em que o grupo tratado de sai melhor independentemente de significância estatística --- é que é o correto e o que o Meteoro Brasil diz que deveria ser feito é o errado. No livro Introduction to Meta-Analysis (Borenstein et. al) a técnica de contar o número de estudos em que o grupo tratado se sai melhor com significância estatística é denominada "vote counting" e como o livro bem explica no capítulo 36:


"Vote counting is the process of counting the number of studies that are statistically significant and the number that are not, and then choosing the winner. This approach is discussed in Chapter 28 where we explain why it has no validity whatsoever. We mention it here only to be sure that it is not confused with the sign test (below) which is a valid approach."


"In a sign test, we count the number of studies with findings in one direction and compare this with the number of studies with findings in the other direction, irrespective of whether the findings were statistically significant. The sign test takes into account neither the actual effect magnitudes observed in the studies nor the amount of evidence within each study (for example, the sample sizes)."


Aqui está outra referência


https://training.cochrane.org/handbook/current/chapter-12


em que "vote counting based on the direction of effect" (o mesmo que "sign test", que é o que o c19 study faz) aparece na seção 12.2.1.3 sob o título "Acceptable synthesis methods", enquanto que "Vote counting based on statistical significance" (o que o Meteoro Brasil diz ser o correto) aparece na seção 12.2.2.1 sob o título "Unacceptable synthesis methods".


O que eu e ambas as referências concordamos é que --- embora corretos --- testes de sinal não são na imensa maioria dos casos uma boa opção de teste numa metanálise. Por isso são raramente utilizados. Os motivos são os seguintes:


(1) normalmente estamos interessados em estimativas de magnitude de efeito. Um p-valor não dá informação alguma sobre isso. Um p-valor muito baixo é evidência muito forte de que *algum* efeito existe, mas esse efeito poderia ser muito pequeno e clinicamente insignificante. Os métodos mais tradicionais de metanálise (fixed e random effects models) produzem estimativas de efeito e intervalos de confiança, além do p-valor. Um teste de sinal produz apenas um p-valor.


(2) O teste de sinal joga fora muita informação (considera apenas a direção do efeito observado em cada estudo e não a sua magnitude, por exemplo) e não dá peso maior aos estudos maiores. A consequência disso é que tipicamente o teste de sinal terá um poder muito baixo. Um poder baixo significa que há uma probablidade grande de um erro de tipo II, isto é, o erro de não se concluir que um efeito existe quando ele de fato existe.


Pelos motivos acima, o teste de sinal é normalmente uma opção ruim, mas isso não torna ele errado. O p-valor que ele produz é correto (isto é, se adotamos o critério p-valor <= alpha para rejeitar a hipótese nula, então a probabilidade de se cometer um erro de tipo I será menor ou igual a alpha). Por outro lado, multiplicação de p-valores não é apenas uma "opção ruim", mas é *errado* (produz um p-valor inválido como resultado). "Vote counting based on statistical significance" (o que o Meteoro Brasil propõe) também é *errado* (porém, vide a parte técnica do post para uma forma de corrigir esse método).


Há no entanto algumas poucas situações em que o teste de sinal pode ser uma opção razoável, algumas descritas no livro Borenstein et. al. Uma delas se encaixa perfeitamente na situação em que o c19 study optou por usar esse teste:


"When the studies are so diverse in their populations or other characteristics that a pooled effect size is meaningless, but the studies are still addressing a question sufficiently similar that the direction of the effect is meaningful."


Mesmo nessa situação --- em que é inútil estimar um efeito médio em vista do excesso de heterogeneidade entre os estudos --- seria na maioria das vezes preferível calcular um p-valor combinado (pelo método de Fisher, por exemplo) em vez de usar um teste de sinal. Mas o teste de sinal continua sendo uma opção válida e tem a vantagem de ser bem simples de aplicar. Cabe notar também que o teste de sinal foi usado apenas para calcular um dos p-valores que aparece no c19 study --- um p-valor que pretende combinar todos os estudos --- e que os métodos tradicionais de random effects model também foram usados pelo c19 study. Diferentemente do que afirma o vídeo do Meteoro Brasil, não há nenhuma "mistura" problemática dos dois métodos aí. Cada um foi usado onde cabia ser usado.


Parte técnica do post


Para quem tem uma formação razoável em probabilidade e estatística tudo isso é bem simples de entender. A fundamentação teórica do teste de sinal é simplesmente a seguinte: se os estudos são adequadamente conduzidos, sem viés, então há uma simetria perfeita entre grupo tratado e controle exceto pelo fato que um recebe o medicamento e outro o placebo. Sob a hipótese nula de que o medicamento é idêntico ao placebo, a simetria é completa e a probabilidade do grupo tratado se sair melhor é igual a 1/2 --- desconsiderando a possibilidade de empate*. Se são n estudos independentes, então o número k de estudos em que o grupo tratado se sai melhor possui uma distribuição Binomial(n;1/2) sob a hipótese nula e portanto um p-valor unicaudal pode ser calculado da forma usual p-valor = P(Binomial(n;1/2) >= k).


Observo que, apesar de todas as desvantagens que tem, o teste de sinal possui a vantagem de ser não paramétrico, isto é, não depende por exemplo de hipóteses de normalidade (ou outras hipóteses sobre a natureza das distribuições envolvidas) que às vezes podem ser problemáticas.


Sobre "vote counting based on statistical significance": se chamamos de k o número de estudos em que o grupo tratado se saiu melhor com significância estatística --- definida, por exemplo, como um p-valor bicaudal menor ou igual a 0.05 --- então sob a hipótese nula esse k segue uma distribuição Binomial(n;0.05/2) em vez de Binomial(n;1/2). Daí, tomar p-valor = P(Binomial(n;1/2) >= k) como antes é simplesmente errado. Por outro lado, tomar p-valor = P(Binomial(n;0.05/2) >= k) seria uma opção válida de definir um p-valor. Essa seria então uma forma correta de fazer "vote counting based on statistical significance". O problema é que se temos muitos estudos underpowered entrando na metanálise obteremos aqui um teste que tem poder ainda mais baixo do que o teste de sinal.


*No caso em que pode haver empate, se chamamos de m o número de estudos em que não houve empate e de k o número de estudos em que o grupo tratado se saiu melhor, então sob H0 a distribuição condicional k|m é Binomial(m;1/2) e segue daí que um p-valor unicaudal pode ser obtido tomando p-valor = P(Binomial(m;1/2) >= k).





Enviado do meu iPhone

14 visualizações0 comentário