nltk

Python de procesamiento de texto: NLTK y pandas

Estoy buscando una forma efectiva de construcción de un Término Matriz de Documentos en Python que se puede utilizar junto con...

La generación de Ngrams (Unigrams,Dígrafos, etc) a partir de un corpus grande de .archivos txt y su Frecuencia

Necesito escribir un programa en NLTK que rompe un corpus (una gran colección de archivos txt) en unigrams, bigramas, trigramas, fourgrams...

La implementación de la Bolsa de Palabras Ingenuo-clasificador de Bayes en NLTK

Básicamente, tienen la misma pregunta como este chico.. El ejemplo en el libro NLTK para el clasificador Naive Bayes considera que...

str.traducir da TypeError – Traducir toma un argumento (2 dada), trabajó en Python 2

Tengo el siguiente código import nltk, os, json, csv, string, cPickle from scipy.stats import scoreatpercentile lmtzr = nltk.stem.wordnet.WordNetLemmatizer() def sanitize(wordList): answer = ...

Python NLTK: Cómo etiquetar las frases con el conjunto simplificado de part-of-speech etiquetas?

El capítulo 5 de la Python NLTK libro da este ejemplo de etiquetado de las palabras en una frase: >>> text...

¿cuál es la verdadera diferencia entre la lematización vs derivados?

¿Cuándo debo usar cada uno ? También...es el NLTK lematización depende de las Partes de la oración? ¿No sería más exacto...

Deshacerse de dejar de palabras y documento de segmentación utilizando NLTK

Estoy teniendo dificultades para eliminar y encadenamiento de una .archivo de texto mediante nltk. Sigo recibiendo el mensaje de error siguiente:...

Cómo ajustar el NLTK frase tokenizer

Estoy usando NLTK a analizar un par de textos clásicos y estoy corriendo en problemas encadenamiento el texto de la sentencia....

AttributeError: ‘lista’ el objeto no tiene ningún atributo ‘split’ cuando trato de dividir una fila del archivo csv

Tengo un archivo csv con 10 filas de texto en una columna. Para cada fila, me gustaría quitar las palabras irrelevantes...