Métricas responsáveis: um tamanho não serve para todos

Compartilhe!
Ludo Waltman - CWTS*        o uso responsável de cienciometria em avaliações de pesquisa é bastante debatido. Nos últimos anos, várias declarações de alto perfil sobre 'métricas responsáveis' foram publicadas." data-share-imageurl="http://observatorio.fiocruz.br/sites/default/files/b0e1f62f99b8494d63d38b3e9ff10c1f_450.png">

Por Ludo Waltman - CWTS*
 

O uso responsável de cienciometria em avaliações de pesquisa é bastante debatido. Nos últimos anos, várias declarações de alto perfil sobre 'métricas responsáveis' foram publicadas, mais notavelmente a Declaração de São Francisco sobre Avaliação de Pesquisa (DORA) , o Manifesto de Leiden (do qual eu sou um dos co-autores), e o Metric Tide reportCada uma dessas declarações apresenta vários princípios para o uso responsável da cienciometria em avaliações de pesquisas. Esses princípios têm sido amplamente discutidos e inspiraram várias organizações a desenvolver diretrizes para o uso de cienciometria nas avaliações que realizam. Ao mesmo tempo, os princípios apresentados nas declarações acima mencionadas são bastante gerais e, portanto, nem sempre é claro como eles podem ser aplicados em um ambiente avaliativo específico.

Meu objetivo neste post é chamar a atenção para a importância de distinguir entre diferentes configurações avaliativas. Os princípios para o uso responsável da cienciometria dependem da natureza do cenário avaliativo. O que é responsável em uma configuração pode não ser responsável de forma alguma em uma configuração diferente. Reconhecer que não existe um tamanho único serve para insights que podem ajudar a melhorar o uso responsável da cienciometria. Para ilustrar a importância de distinguir entre diferentes configurações avaliativas, focalizarei a distinção entre avaliação de pesquisa em nível micro e em nível macro.
 

Avaliação de micro-nível vs. pesquisa de nível macro

A avaliação da pesquisa pode se referir a muitas coisas diferentes. Alguns de nós podem pensar principalmente em avaliações de pesquisadores individuais em entrevistas de emprego, procedimentos de posse e pedidos de subsídios. Outros podem pensar em avaliações de grupos de pesquisa e departamentos universitários em exercícios de avaliação locais ou nacionais. No entanto, outros podem ter em mente avaliações de universidades, por exemplo, por governos que precisam alocar financiamento, ou mesmo avaliações de países inteiros, de uma perspectiva comparativa internacional. Neste post, faço uma distinção entre avaliação de nível micro e nível macro. A avaliação em nível micro refere-se à avaliação detalhada de pesquisadores individuais e grupos de pesquisa. A avaliação em nível macro é, por exemplo, sobre a avaliação de instituições de pesquisa e países inteiros.

A ideia de combinar indicadores cientométricos com avaliação de especialistas desempenha um papel fundamental no debate sobre métricas responsáveis. O Manifesto de Leiden, por exemplo, afirma que “a avaliação quantitativa deve apoiar a avaliação qualitativa e especializada”, e esse também é um dos princípios orientadores apresentados no relatório da Metric Tide. No entanto, como argumentarei abaixo, a relação entre indicadores cientométricos e avaliação de especialistas difere fundamentalmente entre o nível micro e o macro (ver também a Figura 1), levando a diferentes requisitos para o uso responsável da cienciometria nesses dois níveis.

Figura 1. Ilustração da distinção entre avaliação de pesquisa em nível micro e nível macro. No nível micro, a revisão por especialistas é a abordagem recomendada para a avaliação da pesquisa. Os especialistas podem avaliar diretamente uma unidade de pesquisa de nível micro (por exemplo, um pesquisador ou um grupo de pesquisa). Eles podem ser apoiados por indicadores que resumem informações potencialmente úteis sobre o desempenho da unidade de pesquisa. No nível macro, os especialistas não conseguem realizar uma avaliação aprofundada de uma unidade de pesquisa inteira (por exemplo, uma universidade ou um país). Em vez disso, eles precisam contar com indicadores que forneçam informações agregadas sobre o desempenho da unidade de pesquisa.

Avaliação de pesquisa em nível micro

No nível micro, os cientometricistas geralmente recomendam confiar na avaliação de especialistas para uma avaliação profunda de, por exemplo, um pesquisador individual. O papel crucial da avaliação de especialistas, ou revisão por pares, na avaliação da pesquisa em nível micro é enfatizado no Manifesto de Leiden, que recomenda “basear a avaliação de pesquisadores individuais em um julgamento qualitativo de sua carteira”. Embora os indicadores cientométricos possam fornecer informações valiosas, eles são incapazes de fornecer uma perspectiva abrangente sobre o desempenho de um pesquisador. Em uma avaliação de pesquisa de nível micro, esses indicadores devem, portanto, ser usados ​​apenas para apoiar a avaliação de especialistas. Indicadores podem, por exemplo, ser empregados para resumir informações potencialmente úteis sobre o desempenho de um pesquisador
e para chamar a atenção para realizações notáveis ​​de um pesquisador. 
O uso de indicadores cientométricos para apoiar a avaliação de especialistas é por vezes referido como revisão por pares informada.

Avaliação de pesquisa em nível macro

​Nenhum avaliador tem uma visão abrangente de todas as atividades de pesquisa que ocorrem em uma instituição ou em um país, e muito menos a experiência necessária para realizar uma avaliação aprofundada de todas essas atividades. No nível macro, o valor da avaliação de especialistas, portanto, não está na avaliação detalhada de atividades de pesquisa individuais, mas na combinação - de maneira equilibrada e bem informada - de diversas informações que, juntas, fornecem o panorama geral do nível macroeconômico. desempenho de pesquisa. Algumas dessas informações podem ser fornecidas por indicadores qualitativos, resultantes, por exemplo, da revisão por pares realizada em níveis mais baixos de agregação, enquanto outras informações podem ser obtidas de indicadores quantitativos, por exemplo, indicadores baseados em dados bibliométricos.

O nível macro difere fundamentalmente do nível micro. No nível macro, os especialistas vêem o mundo por meio de indicadores. Visualizar o mundo diretamente, sem usar indicadores, é quase impossível nesse nível. Isso significa que a avaliação da pesquisa em nível macro não pode ser feita sem indicadores. Portanto, os indicadores não apenas apóiam a avaliação da pesquisa no nível macro. Eles permitem a avaliação da pesquisa em nível macro.

Tendo discutido a distinção entre avaliação de nível micro e de nível macro, vou agora abordar as implicações dessa distinção para o debate sobre o uso responsável da cienciometria.

​Sofisticação vs. simplicidade

Os cientometricistas se esforçam muito para projetar indicadores cada vez mais sofisticados. No entanto, ao mesmo tempo, eles argumentam que os indicadores devem ser simples e transparentes. Essa tensão é visível, por exemplo, no Manifesto de Leiden, que afirma que “são necessários indicadores normalizados” para “explicar a variação por campo nas práticas de publicação e citação”, ao mesmo tempo que recomenda que os processos analíticos sejam mantidos “abertos, transparentes e simples”. " Quase inevitavelmente, um indicador normalizado é menos simples e menos transparente do que um indicador não normalizado, criando uma tensão entre as diferentes recomendações feitas pelo Manifesto de Leiden. A distinção entre avaliação de pesquisa em nível micro e nível macro fornece orientação sobre como lidar com essa tensão.

No nível macro, os especialistas vêem o mundo por meio de indicadores. Dada a forte dependência de especialistas em indicadores, é essencial que cada indicador tenha uma base conceitual não ambígua e um alto grau de validade. Isso normalmente significa que os indicadores precisam ser relativamente sofisticados no nível macro. Indicadores simples muitas vezes não têm o nível de validade exigido, e esses indicadores podem, portanto, fornecer aos especialistas uma visão de mundo distorcida. Por exemplo, em uma avaliação de pesquisa que abrange vários campos, um simples indicador baseado em citações de impacto científico que não inclui uma normalização de campo tem baixa validade, porque não corrige diferenças entre campos nas práticas de citação. Tal indicador pode dar a impressão incorreta de que as unidades de pesquisa atuam em campos com alta densidade de citação , nas ciências da vida) são mais impactantes do que suas contrapartes ativas em campos com baixa densidade de citação (por exemplo, nas ciências sociais). Para não fornecer aos especialistas uma visão de mundo tão tendenciosa, um indicador de impacto mais sofisticado deve ser usado, incluindo uma normalização para diferenças de campo.

No entanto, um alto nível de sofisticação tem um custo. Indicadores altamente sofisticados tendem a se tornar caixas-pretas. É difícil entender o funcionamento interno desses indicadores. Isso é problemático, especialmente na avaliação da pesquisa no nível micro. No nível micro, os indicadores são destinados a apoiar a avaliação de especialistas em um processo de revisão por pares informada. Como discutido acima, os indicadores podem ser usados ​​para resumir informações potencialmente úteis e chamar a atenção para realizações notáveis. Os indicadores não fornecem informações em si, mas apontam especialistas para informações que podem ser relevantes e que talvez precisem ser examinadas com mais detalhes. Indicadores complexos de caixa preta são difíceis de usar em tal processo. O problema de um indicador de caixa preta é que é quase impossível voltar do indicador para a informação subjacente. Por exemplo, quando um indicador tem um valor surpreendentemente alto, os especialistas precisam entender como esse alto valor pode ser explicado. No entanto, isso é difícil quando se trabalha com um indicador de caixa preta. O valor alto do indicador é devido a um outlier idiossincrático, é um artefato do algoritmo usado para calcular o indicador ou é resultado de um desempenho de pesquisa genuinamente notável? No caso de um indicador de caixa preta, os especialistas só podem adivinhar. Manter os indicadores simples garante que os especialistas possam realmente refletir sobre o que os indicadores lhes dizem e levar isso em consideração na avaliação de especialistas. Este é um argumento importante para o uso de indicadores simples no nível micro. Quando um indicador tem um valor surpreendentemente alto, os especialistas precisam entender como esse alto valor pode ser explicado. No entanto, isso é difícil quando se trabalha com um indicador de caixa preta. O valor alto do indicador é devido a um outlier idiossincrático, é um artefato do algoritmo usado para calcular o indicador ou é resultado de um desempenho de pesquisa genuinamente notável? No caso de um indicador de caixa preta, os especialistas só podem adivinhar. Manter os indicadores simples garante que os especialistas possam realmente refletir sobre o que os indicadores lhes dizem e levar isso em consideração na avaliação de especialistas. Este é um argumento importante para o uso de indicadores simples no nível micro. Quando um indicador tem um valor surpreendentemente alto, os especialistas precisam entender como esse alto valor pode ser explicado. No entanto, isso é difícil quando se trabalha com um indicador de caixa preta. O valor alto do indicador é devido a um outlier idiossincrático, é um artefato do algoritmo usado para calcular o indicador ou é resultado de um desempenho de pesquisa genuinamente notável? No caso de um indicador de caixa preta, os especialistas só podem adivinhar. Manter os indicadores simples garante que os especialistas possam realmente refletir sobre o que os indicadores lhes dizem e levar isso em consideração na avaliação de especialistas. Este é um argumento importante para o uso de indicadores simples no nível micro. O valor alto do indicador é devido a um outlier idiossincrático, é um artefato do algoritmo usado para calcular o indicador ou é resultado de um desempenho de pesquisa genuinamente notável? No caso de um indicador de caixa preta, os especialistas só podem adivinhar. Manter os indicadores simples garante que os especialistas possam realmente refletir sobre o que os indicadores lhes dizem e levar isso em consideração na avaliação de especialistas. Este é um argumento importante para o uso de indicadores simples no nível micro. O valor alto do indicador é devido a um outlier idiossincrático, é um artefato do algoritmo usado para calcular o indicador ou é resultado de um desempenho de pesquisa genuinamente notável? No caso de um indicador de caixa preta, os especialistas só podem adivinhar. Manter os indicadores simples garante que os especialistas possam realmente refletir sobre o que os indicadores lhes dizem e levar isso em consideração na avaliação de especialistas. Este é um argumento importante para o uso de indicadores simples no nível micro. Manter os indicadores simples garante que os especialistas possam realmente refletir sobre o que os indicadores lhes dizem e levar isso em consideração na avaliação de especialistas. Este é um argumento importante para o uso de indicadores simples no nível micro. Manter os indicadores simples garante que os especialistas possam realmente refletir sobre o que os indicadores lhes dizem e levar isso em consideração na avaliação de especialistas. Este é um argumento importante para o uso de indicadores simples no nível micro.

Cientometria profissional vs. cidadã

A distinção entre avaliação de nível micro e macro-pesquisa também fornece insights sobre a tensão entre a cienciometria profissional e a cienciometria do cidadão. Os cientometricistas cidadãos realizam análises cientométricas sem prestar muita atenção ao corpo de conhecimento acumulado na comunidade cientométrica profissional. Eles desenvolvem suas próprias soluções científicas ad hoc, por exemplo, fazendo uso de ferramentas prontamente disponíveis, como o fator de impacto da revista, o índice h e o Google Acadêmico. Os cientometricistas profissionais tendem a criticar a cientometria dos cidadãos, argumentando que os cientistas criam análises científicas de baixa qualidade. No entanto, a distinção entre a avaliação da pesquisa no nível micro e no nível macro sugere que há uma necessidade de desenvolver uma perspectiva mais detalhada sobre a cienciometria do cidadão.

Na avaliação da pesquisa em nível macro, as preocupações com a cienciometria do cidadão parecem justificadas. As soluções desenvolvidas por cientometricistas de cidadãos provavelmente não possuem o nível necessário de sofisticação. As análises cientométricas no nível macro devem, portanto, basear-se nas idéias e padrões desenvolvidos na comunidade cientométrica profissional. No entanto, a situação é diferente na avaliação da pesquisa no nível micro. No nível micro, os indicadores cientométricos pretendem apoiar a avaliação de especialistas em um processo de revisão por pares informada. Espera-se que os especialistas tenham um conhecimento detalhado das características de um ambiente avaliativo específico. Para garantir que os indicadores sejam úteis no apoio à avaliação de especialistas, esse conhecimento de especialistas precisa ser levado em conta na escolha e no desenho dos indicadores. Para conseguir isso, os especialistas que realizam uma avaliação de pesquisa de nível micro devem estar totalmente engajados na seleção dos indicadores mais relevantes e no ajuste desses indicadores às peculiaridades do ambiente de avaliação. Isso não só tem a vantagem de que os indicadores serão verdadeiramente significativos e relevantes para os especialistas, mas também garante que os especialistas possam refletir em detalhes sobre o que os indicadores lhes dizem. Engajar especialistas na escolha e no desenho de indicadores requer que os especialistas assumam o papel de cientometricistas cidadãos. Assim, para realizar a ideia de revisão por pares informada na avaliação de pesquisa em nível micro, os especialistas precisam se tornar cientistas cientométricos. Diferentemente dos cidadãos cientomestres, os cientistas profissionais não têm uma compreensão profunda de um ambiente avaliativo específico. Seu papel no nível micro deve, portanto, se concentrar em fornecer orientação geral sobre o uso de indicadores. Os cientometricistas profissionais podem, por exemplo, fornecer conselhos sobre fontes de dados cientométricos que possam ser usados, sugerir indicadores que possam ser relevantes e oferecer ajuda na integração de indicadores em um processo de revisão por pares informada.

Indicadores vs. estatísticas

Outra implicação da distinção entre avaliação de nível micro e pesquisa de nível macro diz respeito à natureza dos indicadores cientométricos nos dois níveis. Como discutido acima, no nível macro, os especialistas vêem o mundo por meio de indicadores e, portanto, é essencial que os indicadores tenham uma fundamentação conceitual não ambígua e um alto grau de validade. Em contraste, no nível micro, a simplicidade é uma propriedade mais importante dos indicadores. Minha sugestão é adotar uma terminologia que reflita essa diferença entre os dois níveis. Embora os "indicadores" devam continuar sendo o termo preferido no nível macro ("métricas" também são usadas às vezes, mas "indicadores" são geralmente considerados mais apropriados), no nível micro proponho usar "estatísticas" em vez de "indicadores". Os indicadores visam fornecer uma proxy de um conceito subjacente. As estatísticas são menos ambiciosas e não se espera necessariamente que representem um conceito bem definido. Eles apenas oferecem um resumo quantitativo de um certo corpo de informações. O uso de estatísticas que não têm uma interpretação clara em termos de um conceito bem definido (por exemplo, muitas estatísticas altmétricas) pode parecer perigoso, mas é importante ter em mente que essas estatísticas devem ser incorporadas em um processo de revisão por pares informada. Ao abster-se de impor interpretações rígidas sobre estatísticas, os especialistas têm plena liberdade para interpretar as estatísticas à luz de sua compreensão especializada de um ambiente avaliativo específico. O uso de estatísticas que não têm uma interpretação clara em termos de um conceito bem definido (por exemplo, muitas estatísticas altmétricas) pode parecer perigoso, mas é importante ter em mente que essas estatísticas devem ser incorporadas em um processo de revisão por pares informada. Ao abster-se de impor interpretações rígidas sobre estatísticas, os especialistas têm plena liberdade para interpretar as estatísticas à luz de sua compreensão especializada de um ambiente avaliativo específico. O uso de estatísticas que não têm uma interpretação clara em termos de um conceito bem definido (por exemplo, muitas estatísticas altmétricas) pode parecer perigoso, mas é importante ter em mente que essas estatísticas devem ser incorporadas em um processo de revisão por pares informada. Ao abster-se de impor interpretações rígidas sobre estatísticas, os especialistas têm plena liberdade para interpretar as estatísticas à luz de sua compreensão especializada de um ambiente avaliativo específico.

Conclusão

Como a cientometria pode ser usada de forma responsável depende da natureza do cenário avaliativo. A distinção entre a avaliação da pesquisa no nível micro e no nível macro serve como uma ilustração desse ponto. Há uma necessidade de indicadores sofisticados no nível macro, enquanto os indicadores simples são preferíveis no nível micro. Além disso, o envolvimento de profissionais cientometricistas é essencial no nível macro, enquanto os cientistas podem desempenhar um papel importante no nível micro.

Naturalmente, as coisas são mais complexas do que uma simples distinção micro-macro pode sugerir. Há um nível meso (por exemplo, avaliação de departamentos ou institutos dentro de uma universidade) em que é necessário encontrar um equilíbrio entre as recomendações feitas para os níveis micro e macro. Além disso, em cada nível (ou seja, micro, meso ou macro), há uma heterogeneidade considerável em diferentes tipos de avaliações. Além disso, existem interdependências entre os vários níveis, com avaliações em um nível influenciando as avaliações em outros níveis.

Taxonomias mais refinadas de diferentes tipos de avaliações podem levar a uma maior diferenciação nas recomendações para o uso responsável da cienciometria. Para avançar no debate sobre as métricas responsáveis, precisamos reconhecer que não existe um tamanho único para todos.

 

Agradecimentos a Rodrigo Costas, Sarah de Rijcke, Ismael Rafols e Paul Wouters pelo valioso feedback sobre as versões anteriores deste post no blog.

*Texto publicado originalmente pelo blog do CWTS

https://www.cwts.nl/blog?article=n-r2s294&title=responsible-metrics-one-...

Tipo de em foco: 
Compartilhe!
Ludo Waltman - CWTS*        o uso responsável de cienciometria em avaliações de pesquisa é bastante debatido. Nos últimos anos, várias declarações de alto perfil sobre 'métricas responsáveis' foram publicadas." data-share-imageurl="http://observatorio.fiocruz.br/sites/default/files/b0e1f62f99b8494d63d38b3e9ff10c1f_450.png">