nltk

¿Qué es "entropía y ganancia de información"?

Estoy leyendo este libro (NLTK) y es confuso. La entropía se define como : La entropía es la suma de la probabilidad ... edo aplicar entropía y entropía máxima en términos de minería de texto? ¿Puede alguien darme un ejemplo sencillo (visual)?

¿Cuáles son todas las posibles etiquetas pos de NLTK?

¿Cómo puedo encontrar una lista con todas las posibles etiquetas pos utilizadas por el Natural Language Toolkit (nltk)?

¿cuál es la verdadera diferencia entre lematización vs stemming?

¿Cuándo uso cada uno ? Also...is la lematización NLTK depende de Partes del Habla? ¿No sería más preciso si lo fuera?

n-gramos en pitón, cuatro, cinco, seis gramos?

Estoy buscando una manera de dividir un texto en n-gramos. Normalmente haría algo como: import nltk from nltk import bigram ... amas y trigramas, pero ¿hay alguna manera de dividir mi texto en cuatro gramos, cinco gramos o incluso cien gramos? Gracias!

Crear un nuevo corpus con NLTK

Calculé que a menudo la respuesta a mi título es ir y leer la documentación, pero corrí a través del libro NLTK pero no da l ... de texto? Editar: Esta pregunta tuvo una recompensa una vez, y ahora tiene una segunda recompensa. Ver texto en bounty box.

NLTK y Stopwords Fallan #lookuperror

Estoy tratando de iniciar un proyecto de análisis de sentimientos y usaré el método stop words. Hice algunas investigaciones ... ro método? También pensé en usar el paquete Goslate con conjuntos de datos en inglés Gracias por leer! P. D.: Uso Ananconda

generación de etiquetas a partir de un contenido de texto

Tengo curiosidad si existe un algoritmo/método para generar palabras clave/etiquetas a partir de un texto dado, mediante el u ... tras herramientas. Además, estaré agradecido si apunta cualquier solución / biblioteca basada en Python para esto. Gracias

Error SSL al descargar datos NLTK

Estoy tratando de descargar NLTK 3.0 para su uso con Python 3.6 en Mac OS X 10.7.5, pero estoy recibiendo un error SSL: imp ... similares que no encontré útiles: NLTK download SSL: Certificate verify failed Error de descarga usando nltk.descargar()

lematización de wordnet y etiquetado de pos en python

Quería usar wordnet lematizer en python y he aprendido que la etiqueta pos predeterminada es SUSTANTIVO y que no genera el le ... t? También tengo que entrenar nltk.pos_tag() con un corpus etiquetado o puedo usarlo directamente en mis datos para evaluar?

Cómo extraer números (junto con adjetivos de comparación o rangos)

Estoy trabajando en dos proyectos NLP en Python, y ambos tienen una tarea similar para extraer valores y operadores de compar ... algo así como: Entrada: "mayor que 1 10" Salida: {'value': 10, 'unit': 'dollar', 'relation': 'gt', 'position': 3}

¿Cómo puedo tokenizar una oración de cadena en NLTK?

Estoy usando nltk, así que quiero crear mis propios textos personalizados al igual que los predeterminados en nltk.Books. Sin ... ." Qué método, python o de nltk me permite hacer esto. Y más importante, ¿cómo puedo subestimar los símbolos de puntuación?

BeatifulSoup4 get text todavía tiene javascript

Estoy tratando de eliminar todo el html/javascript utilizando bs4, sin embargo, no se deshace de javascript. Todavía lo veo a ... que es realmente realmente lento a veces, y crea un retraso notable, que es una cosa con la que nltk siempre fue muy bueno.

Mejora de la extracción de nombres humanos con nltk

Estoy tratando de extraer nombres humanos del texto. ¿Alguien tiene un método que recomendaría? Esto es lo que intenté (e ... to, saber que Virgin Galactic no es un nombre humano en el contexto de este artículo es la parte difícil (tal vez imposible).

Aprendizaje automático a gran escala - ¿Python o Java? [cerrado]

Actualmente me estoy embarcando en un proyecto que implicará rastrear y procesar grandes cantidades de datos (cientos de gigs ... este Python, qué fácil sería escalarlo y administrarlo a través de múltiples máquinas, etc. ¿Con cuál debería ir y por qué?

¿Cómo puedo crear mi propio texto NLTK a partir de un archivo de texto?

Soy un estudiante de posgrado de Literatura, y he estado revisando el libro O'Reilly en Procesamiento del Lenguaje Natural (n ... emplo, pero no con los míos. Soy muy nuevo en Python y la programación, así que esto es muy emocionante, pero muy confuso.

Clasificación de Documentos en Categorías

Tengo alrededor de 300k documentos almacenados en una base de datos Postgres que están etiquetados con categorías de temas (h ... caso de que el documento no encaje en ninguna de las categorías? Aquí está mi clase de prueba http://gist.github.com/451880

Cómo ajustar el tokenizador de oraciones NLTK

Estoy usando NLTK para analizar algunos textos clásicos y me estoy topando con problemas para tokenizar el texto por oración. ... jor frase tokenizer? Preferiría una heurística simple que pueda hackear en lugar de tener que entrenar mi propio analizador.

¿Cómo crear una nube de palabras a partir de un corpus en Python?

Desde Creando un subconjunto de palabras a partir de un corpus en R, el respondedor puede fácilmente convertir un term-docum ... texto de palabra sin procesar o NLTK corpus o Gensim Mmcorpus en una nube de palabras? El resultado se verá algo como esto:

NLTK y detección de idiomas

¿Cómo puedo detectar en qué idioma está escrito un texto usando NLTK? Los ejemplos que he visto usan nltk.detect, pero cuando lo he instalado en mi mac, no puedo encontrar este paquete.

Modelado de temas en MAZO vs NLTK

Acabo de leer un artículo fascinante sobre cómo MALLET podría usarse para el modelado de temas, pero no pude encontrar nada e ... herramientas y algoritmos bajo el capó)? ¿O dónde están algunos buenos artículos que responden estas dos primeras preguntas?