Publicação: Sobrenomes e ancestralidade no Brasil
Carregando...
Paginação
Primeira página
Última página
Data
Data de publicação
Data da Série
Data do evento
Data
Data de defesa
Data
Edição
Idioma
por
Cobertura espacial
Brasil
Cobertura temporal
País
BR
organization.page.location.country
Tipo de evento
Tipo
Grau Acadêmico
Fonte original
ISBN
ISSN
DOI
dARK
item.page.project.ID
item.page.project.productID
Detentor dos direitos autorais
Instituto de Pesquisa Econômica Aplicada (Ipea)
Acesso à informação
Acesso Aberto
Termos de uso
É permitida a reprodução deste texto e dos dados nele contidos, desde que citada a fonte. Reproduções para fins comerciais são proibidas.
Titulo alternativo
Texto para Discussão (TD) 2229 : Sobrenomes e ancestralidade no Brasil
item.page.organization.alternative
Variações no nome completo
Autor(a)
Orientador(a)
Editor(a)
Organizador(a)
Coordenador(a)
item.page.organization.manager
Outras autorias
Palestrante/Mediador(a)/Debatedor(a)
Coodenador do Projeto
Resumo
Este trabalho apresenta um método de classificação da ancestralidade dos sobrenomes dos brasileiros nas seguintes classes: ibérica, italiana, japonesa, alemã e leste europeia. A partir de fontes históricas diversas, montou-se uma base de dados da ancestralidade dos sobrenomes. Essas informações formam a base para a aplicação de algoritmos de classificação de fuzzy matching e de machine learning nos mais de 46 milhões de trabalhadores da Relação Anual de Informações Sociais (Rais) Migra de 2013. A imensa maioria (96,4%) dos sobrenomes únicos da Rais foi identificada com o processo de fuzzy matching e os demais com o método proposto por Cavnar e Trenkle (1994). A comparação dos resultados do procedimento com dados sobre estrangeiros no Censo Demográfico de 1920 e a distribuição geográfica dos sobrenomes não ibéricos reforçam a acurácia do procedimento.
Resumo traduzido
This paper presents a method for classifying the ancestry of Brazilian surnames based on historical sources. The information obtained forms the basis for applying fuzzy matching and machine learning classification algorithms to more than 46 million workers in five categories: Iberian, Italian, Japanese, German and East European. The vast majority (96.4%) of the single surnames were identified using a fuzzy matching and the rest using a method proposed by Cavnar and Trenkle (1994). A comparison of the results of the procedures with data on foreigners in the 1920 Census and with the geographic distribution of non-Iberian surnames underscores the accuracy of the procedure.
