Please use this identifier to cite or link to this item:
https://repositorio.ipea.gov.br/handle/11058/8705
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
td_2420.pdf | 1.06 MB | Adobe PDF | ![]() View/Open | |
td_2420_sumex.pdf | 606.94 kB | Adobe PDF | ![]() View/Open |
Title: | O Desafio do pareamento de grandes bases de dados : mapeamento de métodos de record linkage probabilístico e diagnóstico de sua viabilidade empírica |
Other Titles: | Texto para Discussão (TD) 2420 : O Desafio do pareamento de grandes bases de dados : mapeamento de métodos de record linkage probabilístico e diagnóstico de sua viabilidade empírica |
Authors: | Yaohao, Peng Mation, Lucas Ferreira |
Abstract: | Este trabalho verificou o desempenho preditivo de algoritmos de pareamento de registros (record linkage – RL) probabilístico para a integração de bases de dados reais de grande porte, avaliando os efeitos da definição das variáveis de blocking (blocagem ou indexação), de funções de distanciamento de strings (sequência de caracteres) e de algoritmos de pareamento fonético em relação à qualidade das previsões e à complexidade computacional. Realizou-se um levantamento bibliográfico dos principais métodos de RL determinístico e probabilístico, bem como de avanços recentes aliando técnicas de machine learning (aprendizado de máquinas) e principais pacotes e implementações disponíveis em linguagem open-source (código aberto) R. Os resultados podem fornecer heurísticas para problemas de integração de registros administrativos em escala nacional e são de potencial valia para a formulação e a avaliação de políticas públicas. |
metadata.dc.rights.holder: | Instituto de Pesquisa Econômica Aplicada (Ipea) |
metadata.dc.rights.license: | É permitida a reprodução deste texto e dos dados nele contidos, desde que citada a fonte. Reproduções para fins comerciais são proibidas. |
metadata.dc.type: | Texto para Discussão (TD) |
Appears in Collections: | Ciência. Pesquisa. Metodologia. Análise Estatística: Livros |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.