Linkage: o método de vinculação de dados para responder questões científicas

Compartilhe!
Cidacs     o Linkage é o principal método de vinculação de big data utilizado no Cidacs. No centro, dados administrativos de diferentes bases de dados são vinculados para responder questões científicas relevantes na área de saúde, como a análise do impacto de políticas públicas sociais na saúde dos brasileiros." data-share-imageurl="http://observatorio.fiocruz.br/sites/default/files/mauricio_barreto_fala_sobre_autonomia_e_futuro_da_fiocruz_0.png">

Por Cidacs

Quantas vezes você já forneceu informações pessoais ao preencher um cadastro para ser atendido em um hospital, adquirir um crédito imobiliário ou simplesmente ao responder a um inquérito nacional como o Censo? Os sistemas de informação governamentais contêm dados dos diversos aspectos da vida dos cidadãos ao longo dos anos, o que pode ajudar no avanço da ciência na compreensão da sociedade.

Mas, para isso, os pesquisadores precisam enfrentar alguns desafios tecnológicos, a exemplo de como fazer os sistemas “conversarem”, visto que não há um número único nos cadastros governamentais que identifique cada cidadão. É para solucionar esta questão que surgiu o Record Linkage (vinculação de registros, em tradução livre), uma metodologia que calcula a similaridade de dados de forma determinística (quando há uma identificação única, como nos cadastros sociais que utilização o Número de Identificação Social) ou probabilística (por meio de informações variadas, como nome, data de nascimento e nome da mãe).

As potencialidades, o panorama atual e os desafios do cruzamento de dados administrativos para a pesquisa científica foram abordados em estudo científico publicado no periódico “Big Data e Society”, disponibilizado no início de dezembro.

O artigo “Challenge in administrative data linkage for research” reuniu pesquisadores de diferentes lugares do mundo na tentativa de compreender melhor os diferentes aspectos do método, entre eles o coordenador do Centro de Integração de Dados e Conhecimentos para Saúde (Cidacs/Fiocruz Bahia), Mauricio Barreto. A equipe contou com pesquisadores da London School of Hygiene & Tropical Medicine; Universidade de Edimburgo e Universidade de Bristol, no Reino Unido; Institute for Clinical Evalutive Sciences, do Canadá e Universidade Curtin, na Austrália.

Os pesquisadores argumentam que embora não substitua os estudos clássicos, baseados na coleta de dados primários, as análises produzidas a partir da utilização de dados vinculados podem responder questões que requerem grandes amostras ou dados detalhados. O método também é mais vantajoso do que coortes e os questionários de pesquisa, diante do alto custo e baixa taxa de resposta e/ou adesão (no caso das coortes, que acompanham o mesmo indivíduo ao longo da vida) dos mesmos.

Limitações

Geralmente a separação entre a produção do linkage e a análise dos dados é considerada uma boa prática na área, de modo a ajudar a proteger a confidencialidade das informações. O cientista de dados utiliza as informações sensíveis (que poderiam identificar um indivíduo, como nome e nascimento) para vincular os dados de diferentes bases de dados,e fornece ao pesquisador os dados vinculados e desindentificados, ou seja, sem as informações individuais. Pois o que interessa à pesquisa científica são os resultados coletivos gerados a partir das informações individuais – e não o dado de uma pessoa isolada. No entanto, os autores do artigo reconhecem que essa prática possa limitar a análise, visto que uma parte do processo se torna obscura para aqueles que analisam e interpretam os dados vinculados.

Outros problemas relacionados ao linkage são a qualidade do dado, que nem sempre é obtido de modo acurado, e a dificuldade de vincular alguns dados, diante da ausência de um identificador padrão.

Aplicação

O Linkage é o principal método de vinculação de big data utilizado no Cidacs.No centro, dados administrativos de diferentes bases de dados são vinculados para responder questões científicas relevantes na área de saúde, como a análise do impacto de políticas públicas sociais na saúde dos brasileiros realizada na Coorte de 100 milhões, que utiliza dados conjuntos de programas sociais e de sistema de informações em saúde.

Confira mais sobre como o Linkage é aplicado no Cidacs nesta entrevista com o cientista de dados Robespierre Pita, doutorando em Ciência da Computação responsável pelo desenvolvimento dos algoritmos de vinculação do centro.

Quais são os principais desafios enfrentados pela equipe de produção de dados na área? Como é o alinhamento com as necessidades da questão científica de cada pesquisador?

O contexto de Big Data atual é ainda de escassez de ferramentas e infraestruturas capazes de lidar com grandes repositórios de dados. Por isso temos a preocupação de lidar com tecnologia de ponta quando o assunto é o tratamento desses dados e garantir que as perguntas/buscas feitas nas bases tenham respostas cada vez mais rápidas. Além disso, as questões científicas precisam de uma exaustiva análise dos dados, por isso precisamos garantir um bom uso do recurso computacional disponível e um tempo de resposta aceitável. Outro desafio latente é a preocupação com a confidencialidade dos dados individuais que serão usados para pesquisas e análises para gerar resultados agregados. Isso nos remete à necessidade de usar uma infraestrutura exclusiva para lidar com esse tipo de problema e evitar o desvio de dados [Sala Segura].

Quais foram os avanços realizados na área neste primeiro ano de funcionamento?

Neste primeiro ano conseguimos alcançar um patamar de conhecimento pleno em muitas das bases sob tutela do Centro. Além disso, conseguimos realizar linkages de grandes pares de bases, como a do Baseline da Coorte com base de Notificações (114 milhões de registros) e Hospitalização por Turbeculose (1,2 mi).

 

Quais são as taxas de acurácia dos dados vinculados atualmente?

Atualmente nossas ferramentas tem os resultados de acurácia mais altos. Na literatura [científica], os resultados são em média de 95% de acurácia. Nossos resultados rodeiam os 98%. De certo modo, o que o Cidacs está fazendo nesta área é inédito no Brasil.

Como é ser pioneiro? Qual é o papel do centro da difusão deste método no Brasil?

No nosso estado, região ou até país mesmo, não há uma formação profissional ou acadêmica voltada para os trabalhos que fazemos aqui. Ainda assim, temos uma equipe de computação maravilhosa, inovadora e dedicada capaz de lidar com todas as dificuldades e requisitos de um ambiente como o do Cidacs. Ser pioneiro nos dá uma responsabilidade de garantir a reprodutibilidade e a aceitação científica do que está sendo feito para apoiar projetos existentes e permitir a validação do que já foi feito. Ainda assim, estar na crista da onda de inovação nesta área e sermos reconhecidos por isso é gratificante.

Saiba mais:

“Challenge in administrative data linkage for research”

“Probabilistic Integration of Large Brazilian Socioeconomic and Clinical Databases”

*Texto publicado originalmente pelo Cidacs

http://www.cidacs.bahia.fiocruz.br/node/199

Tipo de em foco: 
Compartilhe!
Cidacs     o Linkage é o principal método de vinculação de big data utilizado no Cidacs. No centro, dados administrativos de diferentes bases de dados são vinculados para responder questões científicas relevantes na área de saúde, como a análise do impacto de políticas públicas sociais na saúde dos brasileiros." data-share-imageurl="http://observatorio.fiocruz.br/sites/default/files/mauricio_barreto_fala_sobre_autonomia_e_futuro_da_fiocruz_0.png">