База данных или список английских первых и последних имен
Я сталкивался с несколькими небольшими списками/наборами имен, но мне было интересно, существует ли бесплатный источник данных, который может предоставить список имен (с разделителями-запятыми или в структуре sql)?
Я нашел эти два сайта:
http://names.mongabay.com/most_common_surnames.htm
http://baby-names.familyeducation.com/browse/letter/a?detoured=1
Однако кажется, что вы можете только просматривать имена, а не загружать полный файл.
Разве Бюро переписей США не предоставляет эту информацию?
Ответы
Ответ 1
Я собираю базу данных, которая содержит фамилии из разных стран и культур, в том числе из Великобритании. Проект и его наборы данных можно найти здесь: https://github.com/enorvelle/NameDatabases (Dead: ссылка, проект и учетная запись GitHub)
Похоже, это перенесено на github.com/smashew/NameDatabases. (Единственный вкладчик "Эрик Норвелле".)
Ответ 2
Лучшим источником, который я смог найти на этом, являются данные, предоставленные администрацией социального обеспечения - в отличие от данных переписи, у них есть имена для каждого года, начиная с 1900 года.
https://www.ssa.gov/oact/babynames/limits.html
Ответ 3
Бюро переписи содержит список общих фамилий из переписей 2000 и 1990 годов:
http://www.census.gov/topics/population/genealogy/data/2000_surnames.html
http://www.census.gov/topics/population/genealogy/data/1990_census/1990_census_namefiles.html
В архивах переписи 1990 года также есть списки общих мужских и женских имен.
Ответ 4
Вариант 1) Я загрузил в github, который я сканировал с другого веб-сайта и выкинул из открытого набора данных Google.
https://github.com/aakashkag/People-Name-List [Github Link для имени и фамилии]
Вариант 2)
Google BigQuery Public Dataset: https://cloud.google.com/bigquery/public-data/
Вы можете получить имена из открытого набора данных Google вместе с полом.
1) Набор данных: bigquery-public-data: github_repos
Пример: https://app.hyfy.io/v/abRJ75Xizno/
Запрос: SELECT * FROM fh-bigquery.popular_names.usa_summary_1880_2015
LIMIT 1000 Всего доступных имен: 1858689
2) Dateset: bigquery-public-data.github_repos.commits
Запрос: ВЫБЕРИТЕ author.name в качестве author_name, author.email в качестве author_email, committer.name в качестве committer_name, committer.email в качестве committer_email, repo_name FROM bigquery-public-data.github_repos.commits
3) Dateset: bigquery-public-data.usa_names.usa_1910_2013 '
Запрос: SELECT * FROM bigquery-public-data.usa_names.usa_1910_2013