Please use this identifier to cite or link to this item: http://repositorio.ipea.gov.br/handle/11058/8705
Files in This Item:
File Description SizeFormat 
td_2420.pdf1.06 MBAdobe PDFView/Open
td_2420_sumex.pdf606.94 kBAdobe PDFView/Open
Title: O Desafio do pareamento de grandes bases de dados : mapeamento de métodos de record linkage probabilístico e diagnóstico de sua viabilidade empírica
Other Titles: Texto para Discussão (TD) 2420 : O Desafio do pareamento de grandes bases de dados : mapeamento de métodos de record linkage probabilístico e diagnóstico de sua viabilidade empírica
Authors: Yaohao, Peng
Mation, Lucas Ferreira
Abstract: Este trabalho verificou o desempenho preditivo de algoritmos de pareamento de registros (record linkage – RL) probabilístico para a integração de bases de dados reais de grande porte, avaliando os efeitos da definição das variáveis de blocking (blocagem ou indexação), de funções de distanciamento de strings (sequência de caracteres) e de algoritmos de pareamento fonético em relação à qualidade das previsões e à complexidade computacional. Realizou-se um levantamento bibliográfico dos principais métodos de RL determinístico e probabilístico, bem como de avanços recentes aliando técnicas de machine learning (aprendizado de máquinas) e principais pacotes e implementações disponíveis em linguagem open-source (código aberto) R. Os resultados podem fornecer heurísticas para problemas de integração de registros administrativos em escala nacional e são de potencial valia para a formulação e a avaliação de políticas públicas.
Rights holder: Instituto de Pesquisa Econômica Aplicada (Ipea)
License: É permitida a reprodução deste texto e dos dados nele contidos, desde que citada a fonte. Reproduções para fins comerciais são proibidas.
Type: Texto para Discussão (TD)
Appears in Collections:Ciência. Pesquisa. Metodologia. Análise Estatística: Livros



Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.