Publicação: O Desafio do pareamento de grandes bases de dados : mapeamento de métodos de record linkage probabilístico e diagnóstico de sua viabilidade empírica
Carregando...
Paginação
Primeira página
Última página
Data
Data de publicação
Data da Série
Data do evento
Data
Data de defesa
Data
Edição
Idioma
por
Cobertura espacial
Brasil
Cobertura temporal
País
BR
organization.page.location.country
Tipo de evento
Tipo
Grau Acadêmico
Fonte original
ISBN
ISSN
DOI
dARK
item.page.project.ID
item.page.project.productID
Detentor dos direitos autorais
Instituto de Pesquisa Econômica Aplicada (Ipea)
Acesso à informação
Acesso Aberto
Termos de uso
É permitida a reprodução deste texto e dos dados nele contidos, desde que citada a fonte. Reproduções para fins comerciais são proibidas.
Titulo alternativo
Texto para Discussão (TD) 2420 : O Desafio do pareamento de grandes bases de dados : mapeamento de métodos de record linkage probabilístico e diagnóstico de sua viabilidade empírica
item.page.organization.alternative
Variações no nome completo
Autor(a)
Orientador(a)
Editor(a)
Organizador(a)
Coordenador(a)
item.page.organization.manager
Outras autorias
Palestrante/Mediador(a)/Debatedor(a)
Coodenador do Projeto
Resumo
Este trabalho verificou o desempenho preditivo de algoritmos de pareamento de registros (record linkage – RL) probabilístico para a integração de bases de dados reais de grande porte, avaliando os efeitos da definição das variáveis de blocking (blocagem ou indexação), de funções de distanciamento de strings (sequência de caracteres) e de algoritmos de pareamento fonético em relação à qualidade das previsões e à complexidade computacional. Realizou-se um levantamento bibliográfico dos principais métodos de RL determinístico e probabilístico, bem como de avanços recentes aliando técnicas de machine learning (aprendizado de máquinas) e principais pacotes e implementações disponíveis em linguagem open-source (código aberto) R. Os resultados podem fornecer heurísticas para problemas de integração de registros administrativos em escala nacional e são de potencial valia para a formulação e a avaliação de políticas públicas.
Resumo traduzido
This paper verified the predictive performance of probabilistic record linkage algorithms for the integration of big sized real databases, evaluating the effects of the blocking key definition, as well as string metric functions and phonetic code pairing algorithms with respect to the prediction’s quality and computational complexity. A bibliographical survey of the main deterministic and probabilistic record linkage methods was carried out, as well as of recent advances combining machine learning techniques and main packages and implementations available in open-source R language. The results can provide heuristics for problems of administrative records integration at national level and have potential value for the formulation and evaluation of public policies.
