La mejor manera de convertir HTML a texto plano usando Python

Estoy trabajando en un proyecto que implica la conversión de una gran cantidad de contenido HTML sin formato de texto. Tengo una escrita personalizada módulo que hace el trabajo bien, pero me pregunto si hay alguna norma de herramientas para ayudar a conseguir el trabajo hecho.

OriginalEl autor Chip Tol | 2009-11-03

2 respuestas

  1. 4

    Aquí una biblioteca de python que hace análisis de HTML:

    BeautifulSoup es otra opción.

    Para salvar a los demás de algún tiempo dando vueltas de Google de nuevo a por LO tanto, aquí es una P&Una descripción de esa Hermosa Sopa no es realmente mantiene más: WebScraping con BeautifulSoup o LXML.HTML.
    La Sopa de hermosa que parece ser mantenidos ahora que lo pienso.

    OriginalEl autor

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *