Gerenciamento de dados simplificado

Compartilhe!
Quirin Schiermeier - Nature News and Comment*      manter seus dados de pesquisa livremente disponíveis é crucial para a ciência aberta - e seu financiamento pode depender disso." data-share-imageurl="http://observatorio.fiocruz.br/sites/default/files/d41586-018-03071-1_15518868.jpg">

Por Quirin Schiermeier - Nature News and Comment*


 

Ilustração de mulher olhando parcelas de dados

Adaptado de Getty


Manter seus dados de pesquisa livremente disponíveis é crucial para a ciência aberta - e seu financiamento pode depender disso.

Quando Marjorie Etique soube que ela tinha que criar um plano de gerenciamento de dados para seu próximo projeto de pesquisa, ela não tinha certeza exatamente do que fazer.

A química do solo, um pós-doutorado no Instituto Federal Suíço de Tecnologia (ETH) em Zurique, estuda a interação de oligoelementos em sedimentos e água. Ao preparar uma proposta de subvenção para a Fundação Nacional de Ciência da Suíça em outubro passado, ela soube das novas regras de dados do financiador. Estes exigem que os candidatos forneçam um plano escrito para a organização e o armazenamento a longo prazo de seus dados de pesquisa, para ajudar a minimizar o risco de perda de dados e fornecer orientações para outros cientistas sobre como usar os dados no futuro.

Etique achou a tarefa assustadora. "O gerenciamento de dados realmente não é minha habilidade primária", diz ela. "Eu não tinha absolutamente nenhuma ideia de como fazer isso." Ela conseguiu obter conselhos de seu supervisor e do serviço de biblioteca digital da ETH. Outros pesquisadores talvez não sejam tão sortudos e talvez nem soubessem o que é um plano de gerenciamento de dados - muito menos por que eles precisariam de um e como produzi-lo. Aqui, respondemos a estas perguntas.

Quais são os planos de gerenciamento de dados?

Um plano de gerenciamento de dados explica como os pesquisadores irão lidar com seus dados durante e após um projeto e englobará a criação, compartilhamento e preservação de dados de pesquisa de qualquer tipo, incluindo texto, planilhas, imagens, gravações, modelos, algoritmos e software. Não importa se os dados são gerados por grandes equipamentos de pesquisa, como ferramentas de imagem ou aceleradores de partículas, ou da observação direta do campo.

Muitos financiadores estão pedindo que os candidatos aos subsídios ofereçam planos de dados. Os requisitos variam de uma disciplina para outra. Mas, em geral, os cientistas precisarão descrever - antes de iniciar qualquer pesquisa - quais dados gerarão; como os dados serão documentados, descritos, protegidos e curados; e quem terá acesso a esses dados após a conclusão da pesquisa. Eles também devem explicar qualquer compartilhamento de dados e restrições de reutilização, como problemas legais e de confidencialidade. Os pesquisadores podem consultar seus financiadores e os serviços de bibliotecas digitais do seu instituto anfitrião para obter assistência. Colegas que já produziram planos de dados também podem ser capazes de ajudar (veja "Doze dicas para escrever um plano de gerenciamento de dados").

DOZE DICAS PARA ESCREVER UM PLANO DE GERENCIAMENTO DE DADOS

• Verifique os requisitos de dados de pesquisa da sua agência de financiamento e campo de pesquisa.

• Acesse ajuda on-line para desenvolver um plano de gerenciamento de dados. Um guia útil descrevendo as expectativas do financiador do Reino Unido pode ser encontrado em go.nature.com/2tnohIa .

• Liste os vários tipos de resultados de pesquisa e dados que você espera produzir.

• Decida quais materiais de pesquisa e dados exigem arquivamento e determinam quanto espaço de armazenamento você precisará.

• Defina formatos de arquivo de dados apropriados (veja go.nature.com/2tvoo6v para formatos do Reino Unido).

• Procure por repositórios de dados utilizados pela sua comunidade de pesquisa ou sua instituição de hospedagem (consulte www.re3data.org para obter exemplos).

• Verifique qual formato de dados e estrutura o arquivo escolhido pode solicitar.

• Fornecer metadados que permitam aos outros compreender, citar e reutilizar seus arquivos de dados.

• Limpe como e quando seus dados podem ser compartilhados com cientistas fora de seu grupo.

• Se sua pesquisa envolve dados confidenciais, explique as restrições legais e éticas sobre o acesso e reutilização de dados.

• Atribuir a responsabilidade para a curadoria de dados de longo prazo para um escritório adequado.

• Revise seu plano com freqüência e atualize-o, se necessário.

Quirin Schiermeier

Quem precisa deles?

O gerenciamento de dados é um exemplo da maneira pela qual os pesquisadores públicos e as instituições de pesquisa estão implementando "ciência aberta", o impulso para tornar a pesquisa científica e os dados acessíveis gratuitamente. Muitas agências de financiamento tornaram obrigatórios os planos de gerenciamento de dados para os requerentes de concessão na última década. Todas as agências federais dos EUA, incluindo a National Science Foundation e os National Institutes of Health, possuem tais políticas. Os planos de gestão de dados também devem agora ser incluídos nas propostas de subvenção ao Conselho Europeu de Pesquisa e outros programas de pesquisa financiados pela União Européia. E muitas agências nacionais de financiamento na Europa - incluindo os conselhos de pesquisa do Reino Unido e Wellcome Trust, com sede em Londres, maior instituição de caridade de pesquisa biomédica do mundo - também solicitam planos de dados.

Muitos cientistas já praticam o gerenciamento de dados por padrão. Os astrônomos, por exemplo, fizeram isso durante décadas ao calibrar suas observações e arquivar enormes quantidades de dados de levantamento de telescópios em catálogos padronizados e legíveis por máquina para reutilização.

Os genitores também usam repositórios de dados especiais para arquivar as grandes quantidades de DNA e dados de sequenciação do genoma. Mas os campos de ciência e pesquisa social menos intensivos em dados também se beneficiam do gerenciamento de dados. Por exemplo, os geoquimistas que analisam bactérias do solo e produtos minerais em diferentes ambientes podem usá-lo para colaborar mais facilmente. "Na era emergente da ciência aberta, qualquer pesquisador deve estar preparado para abrir seus processos de pesquisa e resultados", diz Eloy Rodrigues, diretora de biblioteca da Universidade do Minho em Braga, Portugal, que coordena o FOSTER, portal de e-learning de ciências.

Ainda assim, muitos cientistas não tem certeza sobre as provisões de dados abertos, e o que os candidatos de concessão precisam fazer. Uma pesquisa realizada em 2017 em pesquisadores de início da carreira na Europa descobriu que muitos desconheciam as novas políticas de dados abertos. Apenas um quarto dos 1.277 entrevistados da pesquisa, realizado pela Comissão Europeia e pelo Conselho Europeu de Candidatos Doutores e Pesquisadores Juniores (Eurodoc), havia realmente redigido um plano de gerenciamento de dados; Outro quarto disse que nem sabia o que tal plano poderia ser. A maioria disse que não recebeu nenhum  treinamento ou apoio relevante de suas instituições.

"O gerenciamento de dados será inevitavelmente uma habilidade essencial na era das ciências abertas", diz o presidente da Eurodoc, Gareth O'Neill, um lingüista na Universidade de Leiden, na Holanda. "E, no entanto, muitos cientistas mal estão familiarizados com o que se trata." A situação nos Estados Unidos dificilmente é diferente, acrescenta Stephanie Simms, especialista em pesquisa e dados da Biblioteca Digital da Califórnia (CDL) em Oakland. "Ainda estamos no início de uma profunda mudança na cultura de pesquisa", diz ela.

Onde posso obter ajuda?

O Centro de Curação da Universidade da Califórnia, parte do CDL, e o Centro de Curação Digital em Edimburgo, Reino Unido, fornecem exemplos de planos de gerenciamento de dados escritos por pesquisadores de vários campos. Os centros também fornecem ferramentas on-line para redigir planos de gerenciamento de dados que atendam às demandas da maioria das organizações de financiamento em ambos os países. Versões das ferramentas também estão disponíveis para cientistas em vários outros países europeus, bem como para aqueles na Austrália, Canadá e África do Sul.

A Simms recomenda que os candidatos aos subsídios que não estão familiarizados com as provisões de dados abertos consultem os oficiais de programas da agência de financiamento sobre quaisquer requisitos específicos do campo. Para obter mais orientação técnica, sobre os requisitos para a legibilidade da máquina dos protocolos de dados, por exemplo, ou nos formatos de arquivos usados ​​pelos repositórios de dados institucionais, os cientistas devem consultar os serviços de biblioteca digital do seu host institucional, ela acrescenta.

Etique fez exatamente isso. Os membros do pessoal do escritório de curadoria digital da ETH informaram sobre as novas políticas de dados abertos da Suíça e forneceram-lhe um modelo genérico para elaborar seu plano de gerenciamento de dados de acordo com os requisitos da Fundação Nacional de Ciências da Suíça.

"Foi um pouco complicado abordar algumas das questões, como convenções de nomeação de arquivos e padrões de metadados", diz ela. Mas depois de falar com serviços de tecnologia da informação e funcionários da biblioteca ETH, ela passou duas semanas produzindo um plano de cinco páginas que atendesse a todos os requisitos do financiador.

Cumprir as regras de gerenciamento de dados não é apenas uma outra caixa para assinalar, diz Rachael Ainsworth, uma astrofísica da Universidade de Manchester, no Reino Unido. "Seu principal colaborador é você mesmo dentro de seis meses, e seu eu passado não responde e-mails", diz o advogado de ciência aberta, que regularmente hospeda oficinas de gerenciamento de dados. "Então, manipular e armazenar seus dados de forma organizada pode poupar tempo e recursos".

Os planos variam de acordo com as disciplinas?

As demandas de gerenciamento de dados variam amplamente, e diferentes comunidades de pesquisa (e financiadores) têm diferentes costumes e práticas. Os planos necessários para a física de partículas colaborativas, onde as poderosas instalações de aceleradores geram enormes volumes de dados experimentais, parecem muito diferentes daqueles utilizados em projetos de pesquisa menores, como o Etique's.

Sarah Jones, pesquisadora do Centro de Curadoria Digital, com sede na Universidade de Glasgow, no Reino Unido, diz que todos os dados que servem de evidência para as reivindicações e os resultados de um pesquisador devem ser arquivados (o centro foi criado em 2005 para defender a gestão de dados de pesquisa em instituições de ensino superior do Reino Unido). Isso não significa que um pesquisador deve preservar todos os seus registros, incluindo seu diário de laboratório, para a posteridade, ela acrescenta. Na verdade, muitos cientistas cuja tese pode confiar em um número limitado de observações de campo podem precisar arquivar apenas uma pequena quantidade de dados. E se um projeto não gerar ou reutilizar dados, como poderia ser o caso em ciência puramente teórica ou trabalho conceitual, um plano de gerenciamento de dados pode não ser necessário.

Os dados de pesquisa arquivados devem ser acompanhados por metadados apropriados que descrevem sua origem e propósito, para que outros possam encontrá-los, ler e compreendê-los. Os cientistas que não tem certeza sobre os requisitos de metadados ou sobre quais protocolos e arquivos digitais devem usar para os seus dados, devem entrar em contato com os serviços da biblioteca do instituto hospedeiro, diz Jones.

Os cientistas que geram dados devem especificar quem fez a curadoria, dar a informação após o projeto de pesquisa estar completo. Isso é essencial porque os cientistas gastam tanto tempo em um determinado instituto ou departamento. E para garantir a disponibilidade de dados a longo prazo, eles devem atribuir essa responsabilidade de curadoria a um escritório - geralmente um departamento de biblioteca em seu atual instituto de acolhimento - e não a uma pessoa.

Os departamentos de biblioteca geralmente não curam conjuntos de dados individuais; Em vez disso, eles arquivam e mantêm repositórios institucionais para que qualquer dado armazenado ali possa ser acessado indefinidamente.

Será que eles melhorarão minha ciência?

O acesso aos dados de pesquisa preserva os direitos dos pesquisadores em qualquer lugar para chegar a conclusões independentes sobre ciência publicada. Portanto, é uma boa idéia para os cientistas acompanharem seus dados, caso outros pesquisadores não reproduzam os mesmos resultados, diz Jones, ou em caso de problemas legais ou éticos surgirem após a publicação de um artigo. Mas nem todos os tipos de dados e registros podem ser generosamente divulgados e compartilhados gratuitamente. Por exemplo, dados de pacientes e registros de saúde normalmente devem ser anonimizados. O mesmo se aplica a algumas gravações de entrevistas usadas na pesquisa social empírica, como levantamentos políticos ou a comportamentos pessoais.

Os planos de gerenciamento de dados também devem indicar quaisquer restrições quanto à confidencialidade ou direitos autorais, por exemplo. Estes podem estar relacionados com colaborações entre cientistas acadêmicos e pesquisadores da indústria ou serviços militares. "Considere cuidadosamente a privacidade dos dados e aspectos éticos ao escrever seu plano", diz Ainsworth, acrescentando que deveriam ser observados restrições éticas, legais ou outras.

Os financiadores europeus de pesquisa abordarão a confusão sobre as políticas de dados abertos estabelecendo padrões mínimos para planos de gerenciamento de dados específicos de disciplina. O exercício deve ser completado em um ano. "Simplesmente não faz sentido que diferentes corpos tenham regras e requisitos diferentes quando os objetivos globais são todos iguais", diz Peter Doorn, diretor de arquivamento de dados da Royal Netherlands Academy of Arts and Sciences de Amsterdã, que preside uma joint grupo de trabalho sobre o tema. "Os pesquisadores preferem ter instruções claras, não muito detalhadas, em um só lugar".

Os cientistas que precisam de orientação podem verificar o portal FOSTER financiado pela UE para webinars e material de treinamentosobre planos de gerenciamento de dados. Um conjunto de ferramentas, adaptado para os candidatos ao programa de investigação Horizonte 2020 da UE - um programa de financiamento de pesquisa de 7 anos e € 77 bilhões (US $ 95 bilhões) - está disponível em maio, diz Rodrigues.

Etique, entretanto, espera que o plano de dados que ela enviou com sua proposta de subvenção seja revisado favoravelmente. Ela espera uma decisão de financiamento sobre seu projeto no final deste ano. "Foi uma oportunidade para considerar meu tratamento dos dados da minha pesquisa - faz sentido pensar no início sobre os tipos e quantidade de dados que você coletará com cada método e instrumento e como organizar esses dados para uso efetivo", diz ela. de sua primeira incursão no gerenciamento de dados. Tal plano, ela observa, também pode ajudar os cientistas a evitar possíveis problemas com perda de dados e reprodutibilidade. "Isso pode lhe poupar muitos problemas imprevistos", diz Etique.

Ao contrário dos compostos voláteis de mercúrio que ela quer estudar, seus dados são projetados para suportar.

Referência:

SCHIERMEIER, Quirin. Data management made simple. Naturen. 555, p. 403-405, mar. 2018.

*Texto produzido originalmente pela revista Nature News and Comment

https://www.nature.com/articles/d41586-018-03071-1?utm_source=fbk_nnc&ut...

 

Tipo de em foco: 
Compartilhe!
Quirin Schiermeier - Nature News and Comment*      manter seus dados de pesquisa livremente disponíveis é crucial para a ciência aberta - e seu financiamento pode depender disso." data-share-imageurl="http://observatorio.fiocruz.br/sites/default/files/d41586-018-03071-1_15518868.jpg">