Publicação:
O Desafio do pareamento de grandes bases de dados : mapeamento de métodos de record linkage probabilístico e diagnóstico de sua viabilidade empírica

dc.contributor.authorYaohao, Peng
dc.contributor.authorMation, Lucas Ferreira
dc.coverage.spatialBrasilpt_BR
dc.date.accessioned2018-10-31T20:18:57Z
dc.date.available2018-10-31T20:18:57Z
dc.date.issued2018-10
dc.date.portal2018-10
dc.description.abstractEste trabalho verificou o desempenho preditivo de algoritmos de pareamento de registros (record linkage – RL) probabilístico para a integração de bases de dados reais de grande porte, avaliando os efeitos da definição das variáveis de blocking (blocagem ou indexação), de funções de distanciamento de strings (sequência de caracteres) e de algoritmos de pareamento fonético em relação à qualidade das previsões e à complexidade computacional. Realizou-se um levantamento bibliográfico dos principais métodos de RL determinístico e probabilístico, bem como de avanços recentes aliando técnicas de machine learning (aprendizado de máquinas) e principais pacotes e implementações disponíveis em linguagem open-source (código aberto) R. Os resultados podem fornecer heurísticas para problemas de integração de registros administrativos em escala nacional e são de potencial valia para a formulação e a avaliação de políticas públicas.pt_BR
dc.description.abstractalternativeThis paper verified the predictive performance of probabilistic record linkage algorithms for the integration of big sized real databases, evaluating the effects of the blocking key definition, as well as string metric functions and phonetic code pairing algorithms with respect to the prediction’s quality and computational complexity. A bibliographical survey of the main deterministic and probabilistic record linkage methods was carried out, as well as of recent advances combining machine learning techniques and main packages and implementations available in open-source R language. The results can provide heuristics for problems of administrative records integration at national level and have potential value for the formulation and evaluation of public policies.pt_BR
dc.description.other48 p. : il.pt_BR
dc.description.otherSérie monográfica: Texto para Discussão ; 2420pt_BR
dc.description.otherPossui referências bibliográficaspt_BR
dc.identifier.urihttp://repositorio.ipea.gov.br/handle/11058/8705
dc.language.isoporpt_BR
dc.location.countryBRpt_BR
dc.publisherInstituto de Pesquisa Econômica Aplicada (Ipea)pt_BR
dc.rightsAcesso Abertopt_BR
dc.rights.holderInstituto de Pesquisa Econômica Aplicada (Ipea)pt_BR
dc.rights.licenseÉ permitida a reprodução deste texto e dos dados nele contidos, desde que citada a fonte. Reproduções para fins comerciais são proibidas.pt_BR
dc.rights.typeLicença Comumpt_BR
dc.subject.keywordPareamento de registrospt_BR
dc.subject.keywordBlockingpt_BR
dc.subject.keywordRegistros administrativospt_BR
dc.subject.keywordBig Datapt_BR
dc.subject.keywordR - Statistical computingpt_BR
dc.subject.vcipeaBases de Dadospt_BR
dc.subject.vcipeaPesquisaspt_BR
dc.subject.vcipeaRelatórios de Pesquisapt_BR
dc.titleO Desafio do pareamento de grandes bases de dados : mapeamento de métodos de record linkage probabilístico e diagnóstico de sua viabilidade empíricapt_BR
dc.title.alternativeTexto para Discussão (TD) 2420 : O Desafio do pareamento de grandes bases de dados : mapeamento de métodos de record linkage probabilístico e diagnóstico de sua viabilidade empíricapt_BR
dc.typeWorking paperpt_BR
dspace.entity.typePublication
ipea.classificationCiência. Pesquisa. Metodologia. Análise Estatísticapt_BR

Arquivos

Pacote Original

Agora exibindo 1 - 2 de 2
Carregando...
Imagem de Miniatura
Nome:
td_2420.pdf
Tamanho:
1.04 MB
Formato:
Adobe Portable Document Format
Descrição:
Carregando...
Imagem de Miniatura
Nome:
td_2420_sumex.pdf
Tamanho:
606.94 KB
Formato:
Adobe Portable Document Format
Descrição:
REPOSITÓRIO DO CONHECIMENTO DO IPEA
Redes sociais