Исходный список имен людей
Мне нужно иметь длинный список имен людей ( "Роберт", "Jeniffer", "Andrew" и т.д.)
Как долго? 100 будет вроде хорошо, но тысячи будут лучше.
Я бы хотел, чтобы он был сырым, а не на веб-странице HTML или чем-то, поэтому я могу легко импортировать его в свой код.
Ответы
Ответ 1
Чтобы отформатировать его красиво:
$ curl -s http://deron.meranda.us/data/census-dist-female-first.txt | \
awk '{print $1}'
Ответ 2
Бюро переписи населения США три списка, созданные в результате переписи 1990 года:
(Они имеют те же значения, что и у другого ответа, который ссылается на deron.meranda.us)
Цитируя ссылку выше:
Каждый из трех файлов (dist.all.last), (dist. male.first) и (dist female.first) содержат четыре элемента данных. Четыре элемента:
A "Имя" Частота в процентах Кумулятивная частота в процентах Рейтинг В файл (dist.all.last) появляется одна запись:
MOORE 0.312 5.312 9
В нашем примере области поиска MOORE занимает 9-е место по частоте. 5,312% выборка населения покрывается MOORE, а 8 имен встречаются больше часто, чем MOORE. Фамилия, MOORE, имеет 0,312 процентов нашей выборки населения.
Похоже, что эти данные были дополнительно уточнены в один список из 5163 записей (ссылка 1, ссылка 2), в формате :
<namestyle> <first/last indicator> <name>
Namestyle code:
- MF: используется как мужчина или женщина.
- MO: используется только для мужчин
- FO: используется только для женщин
Первый/последний индикатор:
- LY: используется как фамилия
- LN: не используется как фамилия
например:
MF LY AARON
FO LY ABBEY
FO LN ABBIE
FO LY ABBY
ОБНОВЛЕНИЕ 1:
Немного от темы из оригинальной публикации, но она может быть полезной для других, которые находят это. Если вы ищете что-то более активное (не только имена людей, но и пол многих существительных и фраз), вы можете посмотреть на корпус, созданный Шейном Бергсмой и Декангом Лином. Данные доступны как один файл gzip из общая задача CoNLL.
ОБНОВЛЕНИЕ 2:
www.census.gov реструктурировал свой сайт, поэтому я обновил ссылки, чтобы отразить новые местоположения файлов.
ОБНОВЛЕНИЕ 3:
www.census.gov также имеет опрос от 2000 для фамилий, происходящих 100 и более раз, содержащих в общей сложности 151 671 имя (прямая ссылка на zip).
Ответ 3
Ознакомьтесь с моими наборами данных, которые я сделал для исследования НЛП. Все имена были извлечены из общедоступных источников.
http://mbejda.github.io
Все они - формат CSV.
(Отказ от ответственности: я их сделал).
Ответ 4
Это слишком поздно для оригинального плаката, но, возможно, полезно для поисковиков... здесь:
http://www.ssa.gov/OACT/babynames/limits.html
- загружаемый текстовый файл, в котором перечислены все имена по годам рождения до наименований, которые были предоставлены как минимум 5 детям, поэтому у него есть тонна данных.
Ответ 5
Множество списков слов на этой странице, включая несколько списков имен.
Ответ 6
каталог Vettrasoft Z в составе своего набора геоданных содержит таблицу "first_names"
который имеет имя, любую короткую форму или альтернативные варианты написания (например, Angela/Angie, Daniel - Dan - Danny), пол (M/F/B/?; B - оба и? означает неизвестно). Таблица имеет 12 779 записей и в виде файла находится в формате .unl(| -сепарализованные поля).
Наряду с именами, набор данных включает в себя аэропорты (8 200 записей), коды регионов, страны, почтовые (aka zip) коды, штаты, часовые пояса и многое другое. Данные поступают как интегрированный пакет вместе с библиотекой o-o, которая имеет подпрограммы, которые обращаются к этим данным. В случае с именами вы можете написать код на С++ следующим образом:
main()
{
person_o p = "Daniel Boone";
p.store_add();
}
который сохранит Даниэля Бун в базе данных (в настоящее время реализованы: mySQL и SQL Server).
Объект person будет использовать таблицу DB first_names для автоматического поиска пола, связанного с "Daniel", и записать его как "M" (а также разбор имени, сохранение "Daniel" в столбце first_name и "Boone" до последнего имя столбца). Каталог Z работает аналогичным образом для сохранения и поиска других объектов домена человеческого человека, таких как предприятия, сотрудники, адреса электронной почты, номера телефонов и т.д.
Ответ 7
Функция поможет вам извлечь алфавиты из буквенно-цифровой строки
Dim input As String = "SMITH 1.006 1.006 1"
Dim output As String = New String((From c As Char In input Select c Where Char.IsLetter(c)).ToArray())
MsgBox(output)
вывод будет: SMITH
Благодаря: https://stackoverflow.com/users/1842065/bj%C3%B8rn-roger-kringsj%C3%A5