As ferramentas de visualização de dados geram interatividade e reprodutibilidade na publicação online

Compartilhe!
Jeffrey M. Perkel - Nature News and Comment      novas ferramentas para construir figuras e software interativos tornam os dados científicos mais acessíveis e reprodutíveis." data-share-imageurl="http://observatorio.fiocruz.br/sites/default/files/d41586-018-01322-9_15422878.jpg">

Por Jeffrey M. Perkel - Nature News and Comment 

Novas ferramentas para construir figuras e software interativos tornam os dados científicos mais acessíveis e reprodutíveis
 


Ilustração dos gêmeos do projeto




 Versão em PDF

Quando Benjamin Delory começou seu documento documentando uma nova maneira de quantificar a morfologia da planta, ele percebeu que uma das figuras poderia representar um problema.

O documento propõe um "código de barras de persistência" para descrever a estrutura de ramificação dos sistemas raiz da planta 1 . O desafio foi como ilustrar isso.

O algoritmo subjacente do código de barras "é contínuo e dinâmico", diz Delory, pesquisador pós-doutorado na Universidade Leuphana de Lüneburg na Alemanha. "E a melhor solução para mostrar algo dinâmico é animá-lo".

As figuras científicas são normalmente renderizadas como imagens estáticas. Mas estes são divorciados dos dados subjacentes, o que impede os leitores de explorá-los com mais detalhes, por exemplo, ampliando as características de interesse. Para os genômicos que precisam colocar milhões de pontos de dados em imagens densas com poucos centímetros, isso pode ser particularmente problemático.

O mesmo é verdade para pesquisadores que trabalham com algoritmos computacionais. Os cientistas muitas vezes postam software em repositórios de código aberto, como o GitHub, mas obter o código para ser executado corretamente é mais fácil dizer do que fazer. Os revisores e outras partes interessadas geralmente requerem software e configuração adicionais para que os algoritmos funcionem.

Alguns periódicos agora superam essa lacuna ao apoiar figuras e códigos interativos. Um desses é F1000Research, que no ano passado fez parceria com a empresa de computação Plotly em Montreal, no Canadá, e a plataforma Code Ocean na cidade de Nova York. Essas capacidades, bem como os princípios de acesso aberto da F1000Research 1 , levaram Delory e seus colaboradores a enviar seu documento lá. Foi publicado em janeiro.

A publicação interativa

Gráficos interativos que permitem que os leitores adotem os dados subjacentes de uma história são características freqüentes em sites como o New York Times e fivethirtyeight.com, mas são menos comuns na publicação científica.

Os " números vivos " da F1000Research - gráficos interativos introduzidos em 2014 que poderiam ser continuamente atualizados com novos dados - eram trabalhosos para produzir e não escaláveis, diz Thomas Ingraham editor de editor sênior. Plotly permite que os usuários criem e compartilhem visualizações que vão desde gráficos de dispersão e gráficos de linha até gráficos de contorno e mapas. As imagens resultantes permitem que os usuários ampliem os dados, coloque as imagens e os pontos do mouse para ver os valores plotados. As inscrições estudantis começam em US $ 59 por ano. As bibliotecas de fonte aberta permitem que os pesquisadores criem gráficos Plotly gratuitos do código R, MATLAB, Python e Julia.

O Code Ocean é gratuito para acadêmicos por 10 horas de tempo de computação por mês e 50 gigabytes de armazenamento; Os níveis pagos começam em US $ 19 por mês. Ele reúne código, dados, resultados e o ambiente de computação usado para executá-los em uma "cápsula de computação" autônoma que replica a configuração computacional do autor. Outros usuários podem baixar, modificar e executar esse código, quer de codeocean.com, quer de um widget no papel.

F1000Research já publicou seis artigos com gráficos Plotly ao vivo e cinco com um widget Code Ocean. E este ano, planeja adicionar suporte para mapas de interação proteína-proteína interativos, que são produzidos usando a ferramenta de mapeamento de rede Cytoscape.

Os pesquisadores não precisam ser adiados pela complexidade percebida. De acordo com o biólogo computacional Xijin Ge, da Universidade Estadual do Dakota do Sul em Brookings, que incluiu gráficos Plotly interativos em um de seus papéis 2 , a criação desses números requer apenas uma linha extra de código por figura. Tom DeCarlo, pesquisador de coral do Oceans Institute e da Escola de Ciências da Terra da Universidade da Austrália Ocidental em Crawley, criou seis projetos do Code Ocean para periódicos, incluindo Paleoceanografia e Paleoclimatologia e Biogeociências . "Eu pensei que era realmente importante para comunicação científica e reprodutibilidade", diz ele.

Soluções de fonte aberta

Para aqueles que procuram alternativas computacionais de código aberto, uma ferramenta conhecida como Binder pode converter qualquer repositório GitHub público contendo um caderno Jupyter (documentos que entrelaçam texto, código e dados) ou código R em um pacote que os usuários podem executar a partir do seu navegador. Os usuários simplesmente digitem o endereço do repositório de caderno na barra de pesquisa em mybinder.org e o programa cria um espaço de trabalho interativo compartilhável. "Realmente se presta a reprodutibilidade e facilidade de uso", diz Carol Willing, membro da equipe do projeto Binder na California Polytechnic State University (Cal Poly) em San Luis Obispo.

Tais ferramentas também simplificam a revisão pelos pares, diz Tim Head, membro da equipe do projeto Binder em Zurique, Suíça. A cabeça ficou frustrada por não poder fazer o software funcionar quando solicitado a revisar um artigo do jornal. "Se eles me enviassem um link da Pasta, já seríamos feitos", diz ele.

Também existem opções de código aberto para criar imagens interativas, incluindo Bokeh, htmlwidgets, pygal e ipywidgets. A maioria é usada programaticamente, geralmente dentro do código R ou Python, que é comumente usado na ciência. Os codificadores podem, por exemplo, usar ipywidgets para soltar gráficos 3D interativos, mapas e visualizações moleculares em cadernos Jupyter. Outra opção, que está escrita em JavaScript, é Vega-Lite. Como essa linguagem é menos popular na ciência, Brian Granger da Cal Poly e Jake VanderPlas na Universidade de Washington em Seattle desenvolveu uma interface Python chamada Altair para torná-la mais acessível.

Whereas most of these tools tend to provide functions for specific graph types, Vega-Lite and Altair are flexible ‘grammars’ that describe, for instance, how variables map to different visual features, such as colour or shape. They also allow graphs to be linked, such that when users select a region of one plot, the displays of its neighbours update accordingly. “It lets us actually explore relationships in a multidimensional way,” says Jeffrey Heer, a computer scientist at the University of Washington whose lab developed Vega-Lite.

Dois outros produtos permitem que os pesquisadores criem aplicativos interativos que façam uso de widgets, como menus suspensos e controles deslizantes, para misturar dados, gráficos e código: Shiny, feito por RStudio em Boston, Massachusetts, para R e Plotly's Dash for Python. Eles funcionam transmitindo as ações do widget do usuário para um servidor remoto, que executa o código subjacente e atualiza a página.

Os aplicativos resultantes podem tornar acessíveis os dados e ferramentas para pesquisadores que não se sentem à vontade com a programação. Por exemplo, o estudante de pós-graduação Tal Galili trabalhou com colegas da Universidade de Tel Aviv para desenvolver uma caixa de ferramentas baseada em Plotly para criar mapas de calor interativos de conjuntos de dados carregados, bem como uma interface brilhante que executa o código nos bastidores. Meu Çetinkaya-Rundel, um estatístico da Duke University em Durham, Carolina do Norte, criou recursos brilhantes para seus cursos de estatísticas de graduação para ajudá-la a ilustrar conceitos difíceis durante palestras.

"É bom apenas puxar isso e dizer:" Tudo bem, agora que introduzimos isso, o que acontece quando nos movemos pelos widgets? ", Ela diz.

Publicar tais integrações nas páginas da web do periódico envolve mudanças nas ferramentas de criação, fluxos de trabalho e infra-estrutura editorial. Também pode envolver confiar dados científicos a terceiros, que nem sempre podem garantir sua permanência.

Para ajudar a resolver isso, o editor de acesso aberto, o projeto Reproducible Document Stack da eLife tem como objetivo criar um conjunto de ferramentas de ponta a ponta para criar, enviar e publicar documentos que sejam reprodutíveis computacionalmente, diz Giuliano Maciocci, que lidera o desenvolvimento de produtos na eLife . O plano é encapsular muitos dos "artefactos" científicos fundamentais de um papel - seu texto, figuras, código, dados e ambiente computacional - em um único objeto para download, diz ele. Para incentivar a adoção, o jornal está fazendo a pilha de código aberto.

Avançando

Vários outros periódicos e editores agora oferecem suporte à integração do Code Ocean, incluindo GigaScience , IEEE, SPIE, Cambridge University Press e Taylor & Francis. JCB DataViewer do Journal of Cell Biology , baseado no software OMERO de código aberto, permite aos leitores explorar imagens de microscópio em bruto ao invés dos arquivos compactados e processados ​​que tipicamente vêem. Uma ferramenta relacionada, o Image Data Resource, oferece funcionalidades semelhantes para artigos publicados em qualquer revista. A natureza , também, publicou figuras interativas, por exemplo, em um artigo descrevendo a Enciclopédia do Projeto de Elementos 3 de DNA 3Um porta-voz diz que a revista está investigando várias outras opções para códigos e figuras interativas. Enquanto isso, os pesquisadores freqüentemente vinculam visualizações externas de seus artigos.

À medida que mais revistas adotar a interatividade, a apresentação on-line de informações científicas poderia mudar fundamentalmente, representando uma vitória para a reprodutibilidade, diz Erez Lieberman Aiden, do Baylor College of Medicine, em Houston, Texas, que publicou mapas interativos de interação de cromatina em um recente documento Cell 4 . As figuras estáticas são apenas uma perspectiva sobre os dados. "Os leitores informados precisam da capacidade de tirar suas próprias conclusões", diz ele. "O ato de ler um artigo em 1974 e o ato de ler um artigo em 2017 não deve ser o mesmo ato".

Nature 554 , 133-134 (2018)

doi: 10.1038 / d41586-018-01322-9

*Texto publicado originalmente na revista Nature 

https://www.nature.com/articles/d41586-018-01322-9?utm_source=fbk_nnc&ut...

Tipo de em foco: 
Compartilhe!
Jeffrey M. Perkel - Nature News and Comment      novas ferramentas para construir figuras e software interativos tornam os dados científicos mais acessíveis e reprodutíveis." data-share-imageurl="http://observatorio.fiocruz.br/sites/default/files/d41586-018-01322-9_15422878.jpg">