Publicação:
O Desafio do pareamento de grandes bases de dados : mapeamento de métodos de record linkage probabilístico e diagnóstico de sua viabilidade empírica

Carregando...
Imagem de Miniatura

Paginação

Primeira página

Última página

Data de publicação

Data da Série

Data do evento

Data

Data de defesa

Data

Edição

Idioma

por

Cobertura espacial

Brasil

Cobertura temporal

País

BR

organization.page.location.country

Tipo de evento

Grau Acadêmico

Fonte original

ISBN

ISSN

DOI

dARK

item.page.project.ID

item.page.project.productID

Detentor dos direitos autorais

Instituto de Pesquisa Econômica Aplicada (Ipea)

Acesso à informação

Acesso Aberto

Termos de uso

É permitida a reprodução deste texto e dos dados nele contidos, desde que citada a fonte. Reproduções para fins comerciais são proibidas.

Titulo alternativo

Texto para Discussão (TD) 2420 : O Desafio do pareamento de grandes bases de dados : mapeamento de métodos de record linkage probabilístico e diagnóstico de sua viabilidade empírica

item.page.organization.alternative

Variações no nome completo

Orientador(a)

Editor(a)

Organizador(a)

Coordenador(a)

item.page.organization.manager

Outras autorias

Palestrante/Mediador(a)/Debatedor(a)

Coodenador do Projeto

Resumo

Este trabalho verificou o desempenho preditivo de algoritmos de pareamento de registros (record linkage – RL) probabilístico para a integração de bases de dados reais de grande porte, avaliando os efeitos da definição das variáveis de blocking (blocagem ou indexação), de funções de distanciamento de strings (sequência de caracteres) e de algoritmos de pareamento fonético em relação à qualidade das previsões e à complexidade computacional. Realizou-se um levantamento bibliográfico dos principais métodos de RL determinístico e probabilístico, bem como de avanços recentes aliando técnicas de machine learning (aprendizado de máquinas) e principais pacotes e implementações disponíveis em linguagem open-source (código aberto) R. Os resultados podem fornecer heurísticas para problemas de integração de registros administrativos em escala nacional e são de potencial valia para a formulação e a avaliação de políticas públicas.

Resumo traduzido

This paper verified the predictive performance of probabilistic record linkage algorithms for the integration of big sized real databases, evaluating the effects of the blocking key definition, as well as string metric functions and phonetic code pairing algorithms with respect to the prediction’s quality and computational complexity. A bibliographical survey of the main deterministic and probabilistic record linkage methods was carried out, as well as of recent advances combining machine learning techniques and main packages and implementations available in open-source R language. The results can provide heuristics for problems of administrative records integration at national level and have potential value for the formulation and evaluation of public policies.

organization.page.description

Sobre o pesquisador

Endereço de Email

ORCID

Lattes

Google Scholar ID

Web of Science ResearcherID

Scopus ID

Informações sobre o projeto

project.page.project.productdescription

Vocabulário Controlado do Ipea

Palavras-chave traduzidas

JEL

Citação

Aviso

Notas

Série / coleção

Versão preliminar

Versão final dessa publicação

Faz parte da série

Publicações relacionadas / semelhantes

organization.page.relation.references

Livros

Publicações

Faz parte da série

Fascículos

Eventos relacionados

Volumes

Projetos de Pesquisa

Unidades Organizacionais

REPOSITÓRIO DO CONHECIMENTO DO IPEA
Redes sociais