Quiero analizar pdf sitios web.

¿Alguien puede decir cómo extraer todas las palabras (palabra por palabra) de un archivo pdf con java.

El código a continuación extraer el contenido de un archivo pdf y escribir en otro archivo pdf. Quiero que el programa se escribe en un archivo de texto.

import java.io.FileOutputStream;

import java.io.IOException;

import com.itextpdf.text.*;

import com.itextpdf.text.pdf.*;

public class pdf {

    private static String INPUTFILE = "http://www.britishcouncil.org/learning-infosheets-medicine.pdf" ;

    private static String OUTPUTFILE = "c:/new3.pdf";

    public static void main(String[] args) throws DocumentException,
            IOException {

        Document document = new Document();

        PdfWriter writer = PdfWriter.getInstance(document,
                new FileOutputStream(OUTPUTFILE));

        document.open();

        PdfReader reader = new PdfReader(INPUTFILE);

        int n = reader.getNumberOfPages();

        PdfImportedPage page;


        for (int i = 1; i <= n; i++) {

                page = writer.getImportedPage(reader, i);

                Image instance = Image.getInstance(page);

                document.add(instance);

        }

        document.close();

    }

}

Gracias de antemano

InformationsquelleAutor Rim | 2010-10-25

2 Comentarios

  1. 0

    utilizando org.apache.pdfbox

    import org.apache.pdfbox.*;
    
    public static String convertPDFToTxt(String filePath) {
            byte[] thePDFFileBytes = readFileAsBytes(filePath);
            PDDocument pddDoc = PDDocument.load(thePDFFileBytes);
            PDFTextStripper reader = new PDFTextStripper();
            String pageText = reader.getText(pddDoc);
            pddDoc.close();
            return pageText;
    }
    
    private static byte[] readFileAsBytes(String filePath) {
            FileInputStream inputStream = new FileInputStream(filePath);
            return IOUtils.toByteArray(inputStream);
    }
    • Puedo leer un archivo pdf parcialmente? por ejemplo, sólo la primera página, o hasta un cierto texto de ocurrencia, en lugar de leer todo el archivo pdf? así que puede evitar que se descargue todo el archivo.

Dejar respuesta

Please enter your comment!
Please enter your name here