Yo necesitaría una .Biblioteca de RED para que el uso que se puede extraer de los datos de texto de archivos PDF, Excel y archivos de Word.

Idealmente, una herramienta gratuita!

Recomendaría usted?

muchas gracias,

posibles duplicados de Lector de PDF
No es un duplicado. Se pregunta sobre una herramienta de la realización de pdf, excel y word extracción.
Hice una búsqueda y encontré algunos pero no es muy bueno…¿no es mejor tener una herramienta capaz de extraer los 3 tipos de archivos?
Parafraseando a la filosofía Unix, «escribir [bibliotecas] que hacer una cosa y hacerla bien.» Sería más bien el uso de una excelente lector de PDF de la biblioteca y una excelente Palabra de lector de la biblioteca, o a medias de la biblioteca que hace las dos cosas? (Ver también, «si tratas de hacer todo lo que se va a lograr nada.»)
una Excelente PDF/Word/Excel Lector; ser positivo ;). sí, en la práctica, voy a tener que usar las bibliotecas independientes pero tal vez se podría crear una biblioteca de manejo de todos los 3 excelentemente por ejemplo, TextExtractionGod! Te he dado un buen negocio/producto de la idea 😉

OriginalEl autor The Light | 2012-06-11

6 Comentarios

  1. 29

    Como alguien que ha pasado muchos días buscando soluciones gratuitas para (casi) exactamente este problema, yo puedo decir que bastante honestamente que no vas a encontrar una biblioteca libre que será capaz de extraer el texto de todos de los formatos. La única biblioteca que soy consciente de que hace un gran trabajo con todos los formatos (y más) es un comercial de la biblioteca, y en realidad, no es nativo .NET, C++/COM biblioteca, con un C++/CLI .NETA envoltura.

    ¿Cuáles son algunas de las opciones?

    • iTextSharp — Esta es absolutamente fantástico en la extracción de texto de los archivos Pdf. Mientras que las versiones posteriores de esta biblioteca se han comercial amistoso (LGPL), los autores han decidido que quieren cobrar por el software, por lo que ha lugar emitido bajo la AGPL, por lo menos que quiere liberar a todos los de su código fuente, probablemente usted no desea utilizar una de esas versiones. Sin embargo, la última versión (4.1.6) licenciado bajo la LGPL se puede encontrar en todo el internet. De este MODO la pregunta tiene un enlace a una versión que está bajo la LGPL.

    • PdfBox – Otra PDF de la biblioteca. Este, en mi opinión, es mejor porque es bajo la licencia Apache 2.0. Hay un par de problemas con él, ya que a veces (tal vez rara vez) no va a hacer tan bien de un trabajo de iTextSharp. Yo atribuyo esto más el hecho de que es una nueva librería que cualquier otra cosa. Sin embargo, mi experiencia con esta biblioteca es de meses atrás. Este proyecto es desarrollado activamente, y sólo en el último mes, 52 problemas han sido resueltos. Me gustaría mantener mis ojos en esta. Por favor nota: esta es una biblioteca de java. (Sigue leyendo a continuación para obtener más información sobre por qué he incluido este).

    • PDI o NPOI — Estas son las bibliotecas escrito específicamente para los documentos de Microsoft office, especialmente la pre-formatos de 2007, OLE formatos de archivo binario. Soporta la más reciente OpenXML formatos, aunque no estoy seguro de cómo madura que parte de la biblioteca. PDI es la versión de java (sigue leyendo a continuación para obtener más información sobre por qué he incluido este.), donde NPOI es un nativo .NET versión. Sin embargo, NPOI sólo admite documentos de excel, donde el POI puede hacer la extracción del texto en muchos más tipos de.

    • Open XML SDK 2.0 — Una biblioteca para la lectura/modificación de office 2007+ (sin cifrar OpenXML) los documentos creados mi Microsoft sí mismos! Esta es una increíble biblioteca para trabajar con este tipo de documentos. Sin embargo, es un nivel inferior de la biblioteca y, por tanto, en realidad no (que yo sepa), tienen un hace todo lo que de extracción de textos de clase. Hay un muy buen ejemplo, (no estoy seguro de que cubre ciertos casos como el texto de las tablas, etc), de la extracción del texto de un documento de word en este MODO de respuesta

    • Tika — Una vez más, otra biblioteca de Java (no estoy diciendo acerca de las bibliotecas de java sin ninguna razón. Seguir leyendo! :)), y esto será lo más cercano a «uno» de la biblioteca para la extracción del texto como usted puede conseguir. Tika se pueden extraer los metadatos y texto estructurado el contenido de muchos tipos de archivos diferentes, utilizando los análisis de bibliotecas. En realidad usa la PDI y PdfBox bajo el capó para documentos de office y PDF.

    No Comercial

    • dtSearch — Esta es una biblioteca de la que estoy muy familiarizado. Se hace un trabajo fantástico, y puede analizar una ridícula cantidad de formatos de archivo. Sin embargo, eso cuesta dinero, y es algo excesivo para lo que usted necesita. Es realmente exactamente lo que tenemos, pero estamos tratando de deshacerse de nosotros mismos, debido a que sólo la utilizamos para el análisis (en realidad es un motor de búsqueda de texto), y hay un montón de análisis de bibliotecas que podríamos utilizar o modificar para adaptarlo a nuestras necesidades, pero honestamente sopla de todas estas otras bibliotecas fuera del agua. Como he mencionado antes, no es nativo .NET de código. C++/CLI contenedor se utiliza para intertop entre la DLL y el .NET runtime.

    iFilters puede ser utilizado, y son mencionados en varios otros de MODO que las respuestas a diferentes preguntas, pero el texto va a volver no es estructurado. A veces es simplemente mala…ilegible para los seres humanos, al menos. Yo creo que los iFilters también están en desuso, y dependiendo de la licencia de problemas, usted podría no ser capaz de redistribuir de ellos.


    ¿Por qué he de mencionar todas las bibliotecas de Java? Así, por dos razones. En primer lugar, no hay libre .NETOS equivalentes que se acercan a la calidad de las bibliotecas de Java. En segundo lugar, usted puede utilizar estas bibliotecas .NETO (yo personalmente he hecho esto mismo con estas bibliotecas, así por lo menos puedo dar fe de ello), utilizando IKVM. Es una implementación de Java dentro de él .NET. Aquí es un buen ejemplo sobre el uso de IKVM para convertir Tika en una .NETO de la asamblea que se puede utilizar en su proyecto. Quizás la cosa más espantosa sobre IKVM, es que simplemente funciona!

    EDIT: me olvidé de que el autor de ese blog que en realidad había publicado el código y convertir las bibliotecas en un proyecto de github. Por lo tanto, si usted quiere comprobar rápidamente, puede hacerlo allí. Sin embargo, es mucho más antigua versión de Tika y más de un año de edad. Si los resultados no son como esperaba, me gustaría sugerirle a ti mismo con la versión más reciente.

    Vale la pena mencionar el XML Abierto sólo funciona para la versión de x (por ejemplo, xdoc). Incluso una Oficina de 2010 se guarda como un nativo .doc no funcionará. A mi conocimiento.
    eso es correcto. He mencionado como el único ser capaz de leer/modificar office 2007+ documentos, lo que significa que sólo los formatos xml abiertos.
    Hola bonita! cualquier idea sobre cómo snowtide y última ghostscript funciona? sí, hay muchos puestos, pero que parecía tener un gran nivel de investigación..
    Echa un vistazo biblioteca nueva, Apitron Kit de PDF, capaz de extraer cualquier formato de texto.
    Tika en dot net está disponible a través de NuGet: nuget.org/packages/TikaOnDotNet Funciona muy bien en mis pruebas iniciales, super fácil de usar, y es compatible con una amplia variedad de formatos de archivo. Bastante impresionante.

    OriginalEl autor Christopher Currens

  2. 7

    Usted puede tomar un vistazo a toxy.codeplex.com. Toxy es un puro .RED de extracción de textos de marco.

    Es muy simple de usar Toxy. Por ejemplo, para extraer una hoja de cálculo de Excel archivo llamado test.xlsx.

    ParserContext context = new ParserContext("test.xlsx");
    ISpreadsheetParser parser = ParserFactory.CreateSpreadsheet(context);
    ToxySpreadsheet ss = parser.Parse();
    //then you can start handle the result - a ToxySpreadsheet object
    Traté de salir Toxy, funciona bien. Sin embargo, para leer PDF se utiliza itextsharp.dll la versión 5.5.0 que NO es libre.

    OriginalEl autor Tony Qu

  3. 2

    Aquí hay un enlace a la extracción de documento de word:

    Cómo extraer el texto de los documentos de MS office en C#

    y para el pdf que me gustaría utilizar PDFsharp, es de código abierto y tiene algunos buenos ejemplos y en su sitio web:

    http://pdfsharp.com/PDFsharp/

    PDFSharp no parece ser tan grande en la extracción de texto: stackoverflow.com/questions/9144640/…
    Funciona muy bien, sólo necesita hacer algunos análisis de texto…a través de la respuesta de enlace en el post que hace referencia a través del foro para pdfsharp que cuenta con gran apoyo que me hace referencia.

    OriginalEl autor NKamrath

  4. 1

    Yo recomendaría Aspose Total de este. Hace un par de años hice un proyecto haciendo casi exactamente lo que están pidiendo y comparación con el uso de la Oficina de Interoperabilidad cosas entre diferentes versiones de Office (Antes de que el cambio XML) Aspose fue el más robusto de la biblioteca. Usted probablemente tendrá que hacer algo de OCR basado en lo que usted está hablando demasiado. No es barato pero me he encontrado con su API es bastante sólido y funciona en la mayoría de las versiones de los tipos de archivo que se preguntan acerca de. Usted debe ser capaz de utilizar la versión de prueba gratuita para ver si será el adecuado para su proyecto. No tengo ninguna afiliación con Aspose otros que he utilizado sus herramientas en un entorno de producción.

    Aspose Total

    OriginalEl autor ElvisLives

  5. 0

    Si sólo necesita de texto, a continuación, puede utilizar el iFilter. No es un solo producto, pero es gratis. iFilter es utilizado para extraer el texto de soporte de Microsoft Índice de Servicio. Búsqueda en iFilter .NET C# para ejemplos sobre cómo usarlo. Si usted necesita formato de texto, a continuación, no es la herramienta adecuada. Que los extractos crudos de sólo texto con un montón de saltos de línea.

    OriginalEl autor paparazzo

Dejar respuesta

Please enter your comment!
Please enter your name here