Lista sin procesar de nombres de personas [cerrado]


Necesito tener una larga lista de nombres de personas ("Robert", "Jeniffer", "Andrew", etc.)

Cuánto tiempo? 100 estaría bien, pero miles sería mejor.

Me gustaría raw, no en una página web HTML o algo así, así que puedo importarlo fácilmente a mi código.

 138
Author: Ram Rachum, 2009-11-26

7 answers

Para darle un buen formato:

$ curl -s http://deron.meranda.us/data/census-dist-female-first.txt | \
   awk '{print $1}'
 175
Author: miku,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2018-03-26 17:43:01

La Oficina del Censo de los Estados Unidos tiene tres listas generadas a partir de un censo de 1990:

(Estos tienen los mismos conteos que de otra respuesta que enlaza a deron.meranda.us)

Citando el enlace anterior:

Cada uno de los tres archivos, (dist.todo.last), (dist. masculino.primero), y (dist female.first) contain four items of data. Los cuatro temas son:

Una Frecuencia de" Nombre " en porcentaje Frecuencia Acumulada en porcentaje Rango en el archivo (dist.todo.last) una entrada aparece como:

    MOORE       0.312       5.312       9  

En nuestra muestra de área de búsqueda, MOORE ocupa el puesto 9 en términos de frecuencia. 5.312 por ciento de la la población de la muestra está cubierta por MOORE y los 8 nombres que ocurren más con frecuencia que MOORE. El apellido, MOORE, es poseído por 0.312 porcentaje de nuestra población muestra.

Buscando en Google, parece que estos datos se han refinado aún más en una sola lista de 5163 entradas (enlace 1, link 2), en el formato :

    <namestyle> <first/last indicator> <name>

Código de estilo de nombre:

  • MF: utilizado como hombre o mujer
  • MO: utilizado únicamente para hombres
  • FO: utilizado solo como hembra

Primer / Último indicador:

  • LY: Usado como apellido
  • LN: No se utiliza como último nombre

Ej:

   MF LY AARON 
   FO LY ABBEY 
   FO LN ABBIE 
   FO LY ABBY

ACTUALIZACIÓN 1 : Un poco fuera de tema de la publicación original, pero puede ser de utilidad para otros encontrar esto. Si está buscando algo más involucrado (no solo nombres de personas, sino el género de muchos sustantivos y frases), puede ver el corpus creado por Shane Bergsma y Dekang Lin. Los datos están disponibles como un único archivo gzip desde la tarea compartida de CoNNL.

ACTUALIZACIÓN 2 : www.census.gov reestructuró su sitio web, así que actualizé los enlaces para reflejar las nuevas ubicaciones de los archivos.

ACTUALIZACIÓN 3 : www.census.gov también tiene una encuesta de 2000 para apellidos que ocurren 100 o más veces, que contiene un total de 151.671 nombres ( enlace directo a zip).

 117
Author: DK_,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2016-12-07 01:15:07

Checkout my name datasets I have made for NLP research. Todos los nombres han sido extraídos de fuentes públicas. http://mbejda.github.io Todos son en formato CSV.

(Descargo de responsabilidad: Yo los hice).

 23
Author: mbejda,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2016-01-07 18:58:58

Esto es demasiado tarde para el póster original, pero puede ser útil para los buscadores... aqui: http://www.ssa.gov/OACT/babynames/limits.html

Es un archivo de texto descargable que enumera todos los nombres por año de nacimiento hasta los nombres que al menos 5 niños recibieron, por lo que tiene una tonelada de datos.

 19
Author: john ellis,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2014-04-23 13:34:23

Muchas listas de palabras en esta página, incluyendo varias listas de nombres.

 15
Author: Dave Webb,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2009-11-26 13:23:39

El directorio Vettrasoft Z como parte de su conjunto de datos geo-topo incluye una tabla "first_names" que tiene el nombre, cualquier forma corta o ortografía alternativa (por ejemplo, Angela / Angie; Daniel - Dan - Danny), el sexo (M/F/B/?; B es ambos y ? significa desconocido). La tabla tiene 12.779 entradas y como archivo está en .formato unl (/- campos separados). Junto con los nombres, el conjunto de datos incluye aeropuertos (8,200 entradas), códigos de área, países, códigos postales (también conocidos como zip), estados, zonas horarias y mucho más. Datos viene como un paquete integrado junto con la biblioteca o-o que tiene subrutinas que acceden a estos datos. En el caso de los nombres de pila se puede escribir código C++ de la siguiente manera:

main()
{
   person_o p = "Daniel Boone";
   p.store_add();
}

Que guardará a Daniel Boone en la base de datos (implementado actualmente: MySQL y SQL Server). El objeto person usará la tabla first_names DB para buscar automáticamente el sexo asociado con "Daniel" y grabarlo como " M "(además de analizar el nombre, guardar "Daniel" en la columna first_name y "Boone" en la última columna nombre). El Directorio Z funciona de manera similar para guardar y recuperar otros objetos de dominio humanos como empresas, empleados, direcciones de correo electrónico, números de teléfono, etc.

 1
Author: user1509395,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2013-06-11 21:29:56

La función le ayudará a extraer alfabetos de la cadena alfanumérica

Dim input As String = "SMITH 1.006 1.006 1"
        Dim output As String = New String((From c As Char In input Select c Where          Char.IsLetter(c)).ToArray())
        MsgBox(output)

La salida será : SMITH

Gracias a : https://stackoverflow.com/users/1842065/bj%C3%B8rn-roger-kringsj%C3%A5

 1
Author: Community,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2017-05-23 12:34:37