Cinco maneiras de corrigir estatísticas

×

Menssagem de erro

An error occurred while trying to search with Solr: "0" Status: Request failed: Network is unreachable.
Compartilhe!
Jeff Leek, Blakeley B. McShane, Andrew GelmanDavid ColquhounMichèle B. Nuijten & Steven N. Goodman - Nature      à medida que o debate discute sobre como  as estatísticas precárias são culpadas por uma reprodutibilidade fraca, a Nature pediu aos estatísticos influentes que recomendassem uma mudança para melhorar a ciência. O tema comum? O problema não é a nossa matemática, mas nós mesmos." data-share-imageurl="http://observatorio.fiocruz.br/sites/default/files/d41586-017-07522-z_15260306.jpg">

Por Jeff LeekBlakeley B. McShane, Andrew GelmanDavid ColquhounMichèle B. Nuijten & Steven N. Goodman - Nature 
 


Ilustração de David Parkins




 Versão em PDF

JEFF LEEK: ajuste para a cognição humana 

Para usar as estatísticas bem, os pesquisadores devem estudar como os cientistas analisam e interpretam os dados e, em seguida, aplicam essas informações para evitar erros cognitivos. 

Nas últimas duas décadas, muitos campos mudaram de conjuntos de dados com uma dúzia de medidas para conjuntos de dados com milhões. Os métodos que foram desenvolvidos para um mundo com informações escassas e difíceis de cobrar foram manipulados por júri para lidar com conjuntos de dados maiores, mais diversos e mais complexos. Não é de admirar que a literatura esteja cheia de documentos que usam estatísticas desatualizadas, apliquem os testes estatísticos e interpretem mal os resultados. A aplicação de valores de P para determinar se uma análise é interessante é apenas uma das mais visíveis de muitas falhas. 

Não basta culpar o excesso de dados e a falta de treinamento na análise 1Também é impraticável dizer que as métricas estatísticas, como os valores de P , não devem ser usadas para tomar decisões. Às vezes, uma decisão (editorial ou financiamento, digamos) deve ser feita, e orientações claras são úteis. 

O problema raiz é que sabemos muito pouco sobre como as pessoas analisam e processam informações. Uma exceção ilustrativa é o gráfico. As experiências mostram que as pessoas lutam para comparar os ângulos nos gráficos de torta ainda brisa através de comprimentos e alturas comparativas em gráficos de barras 2 . O movimento de tortas para barras trouxe um melhor entendimento.

Precisamos apreciar que a análise de dados não é puramente computacional e algorítmica - é um comportamento humano. Neste caso, o comportamento é piorado pelo treinamento que foi desenvolvido para uma era pobre em dados. Este enquadramento nos permitirá abordar problemas práticos. Por exemplo, como reduzimos o número de escolhas que um analista tem de fazer sem perder recursos-chave em um conjunto de dados? Como ajudamos os pesquisadores a explorar dados sem apresentar viés? 

O primeiro passo é observar: o que as pessoas fazem agora e como elas a denunciam? Meus colegas e eu estamos fazendo isso e dando o próximo passo: executando experimentos controlados sobre como as pessoas lidam com desafios analíticos específicos em nossos cursos em massa online 3 . 

Precisamos de mais estudos de observação e ensaios randomizados - mais epidemiologia sobre como as pessoas coletam, manipulam, analisam, comunicam e consomem dados. Podemos então usar essas evidências para melhorar os programas de treinamento para pesquisadores e público. Como análises inundadas de dados baratas, abundantes e ruidosas, esta é a nossa única esperança de informações robustas. 

BLAKELEY B. MCSHANE & ANDREW GELMAN: Abandonar significância estatística

Em muitos campos, as decisões sobre se publicar uma descoberta empírica, prosseguir uma linha de pesquisa ou promulgar uma política são consideradas apenas quando os resultados são "estatisticamente significativos", definidos como tendo um valor de P (ou métrica similar) que cai abaixo de um pré- limiar especificado. Essa abordagem é chamada de teste de significância de hipóteses nulas (NHST). Incentiva os pesquisadores a investigar tantos caminhos em suas análises que, qualquer que seja a aparência dos trabalhos, seja uma seleção não representativa dos dados. 

Pior, o NHST costuma significar que qualquer dado pode ser usado para decidir entre duas reivindicações inversas: ou "efeito" que postula uma relação entre, digamos, um tratamento e um resultado (geralmente a hipótese favorita) ou "sem efeito" (definida como a hipótese nula). 

Na prática, isso geralmente equivale a lavagem de incerteza. Qualquer estudo, não importa quão mal concebido e realizado, possa levar a significância estatística e, portanto, uma declaração de verdade ou falsidade. A NHST deveria proteger os pesquisadores da sobre-interpretação de dados ruidosos. Agora tem o efeito oposto.

Este ano, um debate sobre se apertar o limiar de significância estatística melhoraria a ciência. Mais de 150 pesquisadores pesaram em 4 , 5 . Nós pensamos que as melhorias não virão de limiares mais apertados, mas de deixá-los completamente. Não desejamos banir  valores de P. Em vez disso, desejamos que eles sejam considerados apenas uma evidência entre muitos, juntamente com conhecimento prévio, plausibilidade de mecanismo, design de estudo e qualidade de dados, custos e benefícios reais e outros fatores. Para mais informações, veja nosso artigo com David Gal na Universidade de Illinois em Chicago, Christian Robert na Universidade de Paris-Dauphine e Jennifer Tackett na Northwestern University 6 .

Por exemplo, considere uma reivindicação, publicada em um jornal de psicologia líder em 2011, que uma única exposição à bandeira dos EUA desvia o apoio para o Partido Republicano por até oito meses 7 . Em nossa opinião, essa descoberta não tem apoio da teoria da ciência política ou da pesquisa; o efeito relatado é invulgarmente grande e duradouro; o tamanho da amostra era pequeno e não representativo; e as medidas (por exemplo, as de voto e a ideologia política) eram barulhentas. Embora os autores defendam suas descobertas, argumentamos que seus  valores de P fornecem pouca informação.

Os limiares de significância estatística talvez sejam úteis em certas condições: quando os efeitos são grandes e variam pouco nas condições em estudo e quando as variáveis ​​podem ser medidas com precisão. Isso pode muito bem descrever os experimentos para os quais foram desenvolvidos métodos estatísticos NHST e canônicos, como ensaios agrícolas nas décadas de 1920 e 1930, que examinam como vários fertilizantes afetaram a produção de culturas. Hoje em dia, no entanto, em áreas que vão desde a análise de políticas até a biomedicina, as mudanças tendem a ser pequenas, dependentes da situação e difíceis de medir. Por exemplo, em estudos de nutrição, pode ser um desafio para obter relatórios precisos sobre escolhas dietéticas e resultados de saúde.

As práticas de ciência aberta podem beneficiar a ciência, tornando mais difícil para os pesquisadores fazer reivindicações excessivamente fortes de dados ruidosos, mas não podem, por si só, compensar experimentos ruins. Os avanços reais exigirão que os pesquisadores tornem as previsões mais capazes de investigar suas teorias e investir em medidas mais precisas com, em muitos casos, comparações entre pessoas.

Um passo crucial é ir além da alquimia das declarações binárias sobre "um efeito" ou "sem efeito" com apenas um valor de P dividindo-os. Em vez disso, os pesquisadores devem aceitar incerteza e abraçar variações em diferentes circunstâncias. 


Ilustração de David Parkins


DAVID COLQUHOUN: risco de estado positivo falso, também

Para rebaixar os valores de P em seu lugar legítimo, os pesquisadores precisam de melhores maneiras de interpretá-los. O que importa é a probabilidade de que um resultado que tenha sido rotulado como "estatisticamente significativo" se torne um falso positivo. Esse risco falso positivo (FPR) é sempre maior que o valor de P.

Quanto maior depende fortemente da plausibilidade da hipótese antes de um experimento ser feito - a probabilidade anterior de haver um efeito real. Se essa probabilidade anterior fosse baixa, digamos 10%, então um valor de P próximo de 0,05 levaria um FPR de 76%. Para diminuir esse risco para 5% (o que muitas pessoas ainda acreditam P  <0,05 significa), o  valor de P precisaria ser 0,00045.

Então, por que não relatar o risco falso positivo em vez do valor Pfacilmente mal interpretado O problema é que os pesquisadores geralmente não têm como saber o que é a probabilidade anterior.

A melhor solução é especificar a probabilidade anterior necessária para acreditar para alcançar um FPR de 5%, além de fornecer o valor de P e o intervalo de confiança. 

Outra abordagem é assumir, arbitrariamente, uma probabilidade anterior de 0,5 e calcular o FPR mínimo para o valor P observado (Os cálculos podem ser feitos facilmente com uma calculadora on-line, consulte http://fpr-calc.ucl.ac.uk .)

Esta é uma estratégia que combina estatísticas familiares com o teorema de Bayes, que atualiza probabilidades anteriores usando a evidência de uma experiência. Claro, existem pressupostos por trás desses cálculos 8 , e nenhuma ferramenta automatizada pode absolver um pesquisador de um pensamento cuidadoso. 

A esperança é que minha proposta possa ajudar a romper o impasse entre os estatísticos sobre como melhorar a reprodutibilidade.

Imagine o ceticismo saudável que os leitores sentiriam se, ao relatar um valor de P , apenas significativo , um valor próximo a 0,05, eles também relataram que os resultados implicam um risco falso positivo de pelo menos 26%. E que, para reduzir esse risco para 5%, você deveria ter quase (pelo menos 87%) certeza de que houve um efeito real antes de fazer a experiência. 

MICHÈLE B. NUIJTEN: Compartilhe planos de análise e resultados

Melhor do que as regras sobre como analisar dados são convenções que mantêm os pesquisadores responsáveis ​​por suas análises.

Um conjunto de regras rigorosas não funcionará para melhorar as práticas estatísticas porque haverá muitas situações a serem consideradas. Mesmo uma questão de pesquisa aparentemente simples (a droga A funciona melhor do que a droga B?) Pode levar a um excesso de diferentes análises. Como os pesquisadores devem explicar variáveis, como gênero ou idade, se o fizerem? Que pontos de dados extremos devem ser excluídos e quando? A multiplicidade de opções cria um perigo de que o estatístico Andrew Gelman tenha apelidado de jardim de caminhos de bifurcação, um lugar onde as pessoas são facilmente percorridas. Na grande quantidade de rotas, pelo menos uma conduzirá a uma descoberta "significativa" simplesmente por acaso. Os pesquisadores que caçam com força suficiente mostrarão um resultado que se enquadra em critérios estatísticos - mas sua descoberta provavelmente será um falso positivo.

O planejamento e a abertura podem ajudar os pesquisadores a evitar falsos positivos. Uma técnica é o pré-registro dos planos de análise: os cientistas escrevem (e de preferência publicam) como eles pretendem analisar seus dados antes mesmo de vê-los. Isso elimina a tentação de cortar o único caminho que leva ao significado e depois racionalizar por que esse caminho teve mais sentido. Com o plano em vigor, os pesquisadores ainda podem testar ativamente várias análises e saber se os resultados dependem de uma determinada variável ou de um conjunto restrito de escolhas, desde que indiquem claramente que essas explorações não foram previamente planejadas. 

O próximo passo é compartilhar todos os dados e resultados de todas as análises, bem como qualquer sintaxe ou código relevante. Dessa forma, as pessoas podem julgar por si mesmas se concordarem com as escolhas analíticas, identificar erros inocentes e tentar outras rotas.  

STEVEN N. GOODMAN: mude as normas de dentro

Não é estatística que está quebrada, mas como ela é aplicada à ciência. Isso varia de várias maneiras de subcampo para subcampo. Infelizmente, as convenções disciplinares morrem muito, mesmo quando contribuem para conclusões instáveis. Os estatísticos podem ser aliados - a Associação Americana de Estatística, por exemplo, rompeu a tradição para alertar contra o mau uso dos valores de 9 - mas eles não conseguem consertar as culturas de outros campos.

Ao treinar cientistas no uso de métodos quantitativos, eu e outros muitas vezes sentem pressão para ensinar as abordagens padrão que os colegas e as revistas esperam ao invés de expor os problemas. Explicando aos jovens cientistas por que eles devem ser capazes de argumentar por uma descoberta real quando P  = 0,10, ou por sua inexistência quando P  = 0,01 não aumenta suas perspectivas profissionais, e geralmente leva mais tempo do que nós. Muitos cientistas querem apenas conhecimento suficiente para executar o software estatístico que lhes permite obter seus documentos rapidamente e parecer com todos os outros em seu campo.

As normas são estabelecidas nas comunidades em parte através de mimetismo metodológico. Em um artigo publicado no mês passado sobre a previsão de suicídio 10 , os autores justificaram o tamanho da amostra de 17 participantes por grupo afirmando que um estudo prévio de pessoas no espectro do autismo usou esses números. A publicação anterior não é uma verdadeira justificativa para o tamanho da amostra, mas a legitima como modelo. Para citar um relatório de Berwick sobre a mudança do sistema, "a cultura trunga regras, padrões e estratégias de controle cada vez" (veja go.nature.com/2hxo4q2 ). 

Normas dispersas governam quais tipos de resultados são suficientes para reivindicar uma descoberta. A pesquisa biomédica geralmente usa a  regra 2 sigma ( P ≤ 0,05); A física requer pelo menos 3 sigma ( P  ≤ 0,003). Na pesquisa clínica, a idéia de que um pequeno estudo randomizado poderia estabelecer eficácia terapêutica foi descartada décadas atrás. Na psicologia, a noção de que um julgamento randomizado pode estabelecer uma teoria ousada tinha sido a norma até cerca de cinco anos atrás. Mesmo agora, replicar um estudo de psicologia às vezes é tomado como uma afronta ao investigador original. 

Nenhuma abordagem abordará problemas em todos os campos. O desafio deve ser assumido pelos financiadores, revistas e, mais importante, pelos líderes das inúmeras subdisciplinas. Uma vez que o processo começa, pode ser auto-reforçador. Os cientistas seguirão práticas que vêem nas publicações; os revisores de pares exigirão o que outros revisores exigem deles. 

O tempo está pronto para a reforma. A "crise de reprodutibilidade" mostrou o custo da desatenção para o bom projeto e análise. Muitos jovens cientistas hoje estão exigindo mudanças; os líderes de campo devem defender os esforços para treinar adequadamente a próxima geração e reestruturar o existente. Os estatísticos têm um papel importante, mas secundário. Normas de prática devem ser alteradas de dentro.  

doi: 10.1038 / d41586-017-07522-z

*Texto publicado originalmente na Nature 

https://www.nature.com/articles/d41586-017-07522-z?utm_source=FBK_Nature...
 

Tipo de em foco: 
Compartilhe!
Jeff Leek, Blakeley B. McShane, Andrew GelmanDavid ColquhounMichèle B. Nuijten & Steven N. Goodman - Nature      à medida que o debate discute sobre como  as estatísticas precárias são culpadas por uma reprodutibilidade fraca, a Nature pediu aos estatísticos influentes que recomendassem uma mudança para melhorar a ciência. O tema comum? O problema não é a nossa matemática, mas nós mesmos." data-share-imageurl="http://observatorio.fiocruz.br/sites/default/files/d41586-017-07522-z_15260306.jpg">