whycomputer.com >> Datornätverk >  >> Programvara

Hur man extraherar text från ett PDF -dokument

Det kan vara mycket frustrerande att försöka extrahera text från en PDF -fil för användning i ett annat program. Det är inte ovanligt att grafik kommer i vägen eller att dokumentets layout gör det svårt för testet att överföras i meningsfulla meningar. Även om det inte är omöjligt att extrahera text med en kopierings-och-klistra-metod, det kan vara tidskrävande och tillåter inte att PDF -filtext exporteras som ett annat format. Det finns, dock, några sätt att extrahera text från en PDF -fil.

Extrahera text med Acrobat Reader

Steg 1

Öppna filen i Acrobat Reader. I Windows, välj "Arkiv-> Exportera dokument till text, "namnge dokumentet och spara det.

Steg 2

Kopiera texten på ett Mac- eller Linux-operativsystem genom att öppna menyn Visa och välja "Kontinuerlig" eller "Kontinuerlig ansikte". (Den förstnämnda ger dig texten i en kolumn, medan den senare formaterar texten som sida vid sida.) Gå till "Redigera-> Välj alla "och sedan" Redigera-> Kopiera."

Använd markeringsverktyget om du bara vill extrahera en del av texten. Klicka på verktyget "Textval" och välj sedan den information du vill ha. I ett dokument formaterat i flera kolumner, du måste använda verktyget "Kolumnval" först. Gå till "Redigera-> Kopiera."

Konvertera PDF till HTML

Steg 1

Använd Gmail som en genväg. Bifoga PDF -filen till ett e -postmeddelande och skicka den till ditt Gmail -konto. När du öppnar e -postmeddelandet ser du ett antal alternativ bredvid bilagan. Välj "Visa som HTML" och spara filen som öppnas i ett separat fönster. Även om du inte kommer att kunna se någon grafik, HTML -filen behåller dokumentets textformatering.

Steg 2

Extrahera och konvertera filer på kommandoraden. Linux -användare kan använda ett grundläggande konverteringskommando som ändrar en .pdf -fil till en .txt -fil:"pdftotext filnamn.pdf." Var noga med att ersätta filnamnet med namnet på PDF -filen.

Ladda ner ett PDF till text konverteringsprogram. Det finns ett antal program för öppen källkod och freeware som PDFBox och Easy PDF to Text Converter (se Resurser nedan). Många av dessa program kan också konvertera PDF -filer till HTML också.

Tips

  • Bestäm om dokumentet ska formateras så att det innehåller både text och grafik. Adobe Acrobat -metoden fungerar bara om PDF -filen innehåller båda; det fungerar inte bara för filer med bilder. I vissa fall formateras texten i ett PDF -dokument faktiskt som en bild. Detta händer ofta när ett originaldokument skannas och en PDF -fil skapas från den skannade bilden.
  • Var beredd att omformatera en del av texten när du använder Acrobat Reader. Detta extraktionssätt exporterar helt enkelt PDF-filen till en textfil-den behåller inte nödvändigtvis formateringen. Dock, om du bara behöver använda orden borde detta inte vara ett problem.

Artiklar du behöver

  • PDF -fil
  • Adobe Acrobat Reader
  • Gmail -konto (valfritt)
  • Programvara för konvertering av PDF till text (tillval)

URL:https://sv.whycomputer.com/programvara/1014000187.html

Programvara
  • Hur man gör ett Word -dokument till en PDF -fil

    Adobes portabla dokumentformat var utformat för att behålla formatering för ett dokument oavsett var det ses eller skrivs ut. Microsoft Word innehåller inte ett alternativ för att skapa PDF -filer som standard. Dock, det finns flera sätt att skapa PDF -filer från Word -dokument eller lägga till alte

  • Så här tar du bort skydd från en PDF -fil

    Om du har en PDF -fil på din dator som är skyddad så att du inte kan öppna eller redigera den, du måste ta bort skyddet från den PDF -filen. Om du inte ursprungligen skapade PDF -filen, du måste använda någon tredjepartsprogramvara för att ta bort begränsningarna för filen. GuaPDF är ett program som

  • Hur man tar bort en ram från ett Text Word -dokument

    Textramar i Microsoft Word -dokument används för att bädda in funktioner i ett dokument eller för specifik placering av textblock. Ibland genererar ett skannat dokument automatiskt textramar när programvaran för teckenigenkänning omvandlar dokumentet till MS Word -format. Att ta bort ramar från ett

Datornätverk © https://sv.whycomputer.com