He leído LDA y entiendo las matemáticas de cómo los temas se generan cuando una de las entradas de una colección de documentos.

Referencias decir que la LDA es un algoritmo que, dada una colección de documentos y nada más (no hay ninguna supervisión es necesario), puede descubrir los «temas», expresada por los documentos de la colección. Así usando la LDA algoritmo y el Muestreador de Gibbs (o Variacional de Bayes), puedo entrada de un conjunto de documentos y de salida como puedo conseguir los temas. Cada tema es un conjunto de términos con las probabilidades que se les asignan.

Lo que no entiendo es, si lo anterior es cierto, entonces ¿por qué muchos tema de modelado de tutoriales hablar de separar el conjunto de entrenamiento y conjunto de pruebas?

Puede que alguien me explique los pasos (el concepto básico) de cómo LDA puede ser utilizado para la formación de un modelo, el cual puede ser utilizado para analizar otro conjunto de datos de prueba?

  • una buena pregunta!
InformationsquelleAutor tan | 2012-06-22

1 Comentario

  1. 37

    Dividir los datos en conjuntos de pruebas y entrenamiento es un paso común en la evaluación del rendimiento de un algoritmo de aprendizaje. Es más claro para el aprendizaje supervisado, en el que se entrena el modelo sobre el conjunto de entrenamiento, luego vea cómo sus clasificaciones en el set de prueba coincide con el verdadero etiquetas de clase. Para no supervisado aprendizaje, la evaluación es un poco más complicado. En el caso del tema de modelado, una manera común de medir el rendimiento es la perplejidad. Entrenar el modelo (como LDA) en el conjunto de entrenamiento, y luego ver cómo «perplejo» el modelo está en el conjunto de pruebas. Más específicamente, medir qué tan bien el recuento de palabras de los documentos de prueba están representados por la palabra distribuciones representado por los temas.

    Perplejidad es bueno para comparaciones relativas entre los modelos o los ajustes de los parámetros, pero el valor numérico en realidad no significa mucho. Yo prefiero a evaluar el tema de los modelos utilizando el siguiente, algo manual, proceso de evaluación:

    1. Inspeccionar los temas: Buscar en la más alta probabilidad de palabras en cada tema. Hacer que suene como que formar un conjunto coherente «tema» o simplemente un grupo aleatorio de palabras?
    2. Inspeccionar el tema de las asignaciones de: aguantar unos cuantos documentos de formación, y ver qué temas LDA les asigne. Revisar los documentos y las palabras en los temas asignados. A qué se parece los temas que realmente describe lo que los documentos son en realidad hablando?

    Me doy cuenta de que este proceso no es tan agradable y cuantitativa como a uno le gustaría, pero para ser honesto, las aplicaciones de tema modelos rara vez son cuantitativos, ya sea. Sugiero evaluar el tema del modelo de acuerdo con el problema que se está aplicando a.

    Buena suerte!

    • Gracias gregamis por la buena explicación. Su punto número 2). el tema de las asignaciones del documento, ¿cómo ir sobre la asignación de temas a las palabras en un documento? ¿Secuencialmente ir a través de las palabras en el documento de la búsqueda y para la misma palabra en un tema y asignar el tema a esa palabra? Así que si hace eso, lo que sucede cuando una palabra está presente en más de 1 tema, con alta probabilidad? Decir un ejemplo muy trivial, ‘río’ y ‘cuenta bancaria’.
    • Los temas deben ser asignados a los documentos no a las palabras. También no manualmente.
    • Gracias por este post. Así, hacemos uso supervisado LDA/ cualquier otro tema de la técnica de modelización para evaluar el tema de los modelos de sólo?
    • Posiblemente usted podría utilizar una medida de similitud etc coseno en un sistema ideal vs los resultados de la prueba de conjunto.
    • Para un ejemplo de trabajo sobre el uso de la perplejidad medida en la validación cruzada para definir a un número óptimo de temas para un LDA modelo que podría referirse a esta respuesta: link
    • Tiene el tren de prueba/split para ser realizados en el documento base o en el mero aleatorio split (por ejemplo, usal 70/30 regla general, en el conjunto de limpiar doc corpus?)

Dejar respuesta

Please enter your comment!
Please enter your name here