Please use this identifier to cite or link to this item:
https://repositorio.ipea.gov.br/handle/11058/8705
Full metadata record
DC Field | Value | Language |
---|---|---|
dc.contributor.author | Yaohao, Peng | - |
dc.contributor.author | Mation, Lucas Ferreira | - |
dc.coverage.spatial | Brasil | pt_BR |
dc.date.accessioned | 2018-10-31T20:18:57Z | - |
dc.date.available | 2018-10-31T20:18:57Z | - |
dc.date.issued | 2018-10 | - |
dc.identifier.uri | http://repositorio.ipea.gov.br/handle/11058/8705 | - |
dc.description.abstract | Este trabalho verificou o desempenho preditivo de algoritmos de pareamento de registros (record linkage – RL) probabilístico para a integração de bases de dados reais de grande porte, avaliando os efeitos da definição das variáveis de blocking (blocagem ou indexação), de funções de distanciamento de strings (sequência de caracteres) e de algoritmos de pareamento fonético em relação à qualidade das previsões e à complexidade computacional. Realizou-se um levantamento bibliográfico dos principais métodos de RL determinístico e probabilístico, bem como de avanços recentes aliando técnicas de machine learning (aprendizado de máquinas) e principais pacotes e implementações disponíveis em linguagem open-source (código aberto) R. Os resultados podem fornecer heurísticas para problemas de integração de registros administrativos em escala nacional e são de potencial valia para a formulação e a avaliação de políticas públicas. | pt_BR |
dc.language.iso | pt-BR | pt_BR |
dc.publisher | Instituto de Pesquisa Econômica Aplicada (Ipea) | pt_BR |
dc.title | O Desafio do pareamento de grandes bases de dados : mapeamento de métodos de record linkage probabilístico e diagnóstico de sua viabilidade empírica | pt_BR |
dc.title.alternative | Texto para Discussão (TD) 2420 : O Desafio do pareamento de grandes bases de dados : mapeamento de métodos de record linkage probabilístico e diagnóstico de sua viabilidade empírica | pt_BR |
dc.type | Texto para Discussão (TD) | pt_BR |
dc.rights.holder | Instituto de Pesquisa Econômica Aplicada (Ipea) | pt_BR |
dc.source.urlsource | http://www.ipea.gov.br | pt_BR |
dc.location.country | BR | pt_BR |
dc.description.physical | 48 p. : il. | pt_BR |
dc.subject.vcipea | IPEA::Informação. Documentação::Informação::Serviços de Informação::Bases de Dados | pt_BR |
dc.subject.vcipea | IPEA::Ciência. Pesquisa. Metodologia::Coleta de Dados::Coleta de Dados::Pesquisas | pt_BR |
dc.subject.vcipea | IPEA::Informação. Documentação::Documentos::Relatórios::Relatórios de Pesquisa | pt_BR |
dc.rights.license | É permitida a reprodução deste texto e dos dados nele contidos, desde que citada a fonte. Reproduções para fins comerciais são proibidas. | pt_BR |
dc.subject.keyword | Pareamento de registros | pt_BR |
dc.subject.keyword | Blocking | pt_BR |
dc.subject.keyword | Registros administrativos | pt_BR |
dc.subject.keyword | Big Data | pt_BR |
dc.subject.keyword | R - Statistical computing | pt_BR |
ipea.description.objective | Verificar o desempenho preditivo de algoritmos de pareamento de registros probabilístico para a integração de bases de dados reais de grande porte. | pt_BR |
ipea.description.additionalinformation | Série monográfica: Texto para Discussão ; 2420 | pt_BR |
ipea.description.additionalinformation | Possui referências bibliográficas | pt_BR |
ipea.access.type | Acesso Aberto | pt_BR |
ipea.rights.type | Licença Comum | pt_BR |
ipea.englishdescription.abstract | This paper verified the predictive performance of probabilistic record linkage algorithms for the integration of big sized real databases, evaluating the effects of the blocking key definition, as well as string metric functions and phonetic code pairing algorithms with respect to the prediction’s quality and computational complexity. A bibliographical survey of the main deterministic and probabilistic record linkage methods was carried out, as well as of recent advances combining machine learning techniques and main packages and implementations available in open-source R language. The results can provide heuristics for problems of administrative records integration at national level and have potential value for the formulation and evaluation of public policies. | pt_BR |
ipea.researchfields | N/A | pt_BR |
ipea.classification | Ciência. Pesquisa. Metodologia. Análise Estatística | pt_BR |
Appears in Collections: | Ciência. Pesquisa. Metodologia. Análise Estatística: Livros |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
td_2420.pdf | 1.06 MB | Adobe PDF | View/Open | |
td_2420_sumex.pdf | 606.94 kB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.