Wikimore

The article PDF/de on Wikipedia projects:

(en) PDF

Wikidata contains data entry Q42332 related to these Wikipedia articles.

PDF ist ein Dateiformat für Dokumente. Auf dieser Seite findest du einige Tipps zur Verwendung von PDF.

Suche nach PDF in Wikimedia Commons

Versuche die Suchschaltfläche oben, um die Suchergebnisse auf PDF zu beschränken. Dies wird erreicht, indem du filemime:pdf in die Suchbegriffe aufnimmst.

Verwendung von PDF in Wikimedia-Projekten

Seite

Normalerweise wird Seite 1 aus einer PDF- oder DjVu-Datei verwendet, um die Miniaturansicht zu erzeugen. Mit dem Parameter |page= kann eine andere Seite verwendet werden: [[File:IMSLP01578-Ravel - Bolero Full Score Durand 1929.pdf|thumb|page=2|''Boléro'': Seite 2 aus der Partitur]]:

PDF-Software

Siehe die Liste von PDF-Software. Du kannst zum Beispiel die kostenlose Software Okular zum Lesen von PDFs, LibreOffice Draw zum Bearbeiten von PDFs und ImageMagick zum Bearbeiten von PDFs verwenden.

PDF-Dateien erstellen

Verarbeitung von Bildern, die von Scannern stammen

Bilder, die von Scannern stammen, müssen in der Regel bearbeitet werden, bevor sie in ein PDF- oder DJVU-Format umgewandelt werden können: Zuschneiden, Drehen, Aufteilen, Verkleinern, Konvertieren in TIFF usw. Die Open-Source-Anwendung ScanTailor-Universal wurde für diesen Zweck entwickelt. Sie kann von der Release-Seite des Projekts heruntergeladen werden.

Erstellen von PDF aus Bildern

Wenn du ImageMagick installiert hast, kannst du convert ./page*.png ./output.pdf ausführen, um Bilder mit dem Namen z.B. page_1.png (Beispiel) entsprechend ihrer Sortierung in ein PDF zu konvertieren.

img2pdf, ein Open-Source-Befehlszeilenprogramm, wurde entwickelt, um Bilder verlustfrei in PDF zu konvertieren. Es kann auch Metadaten (wie Titel und Autor) festlegen und bestimmen, wie die resultierende PDF-Datei von einem PDF-Anzeigeprogramm dargestellt werden soll.

Mit dem folgenden Befehl werden alle Dateien im aktuellen Ordner in eine einzige PDF-Datei mit dem Namen test.pdf und den Metadaten Titel und Autor konvertiert:

img2pdf --title "My First PDF" --author "Jack Example" --output test.pdf *

Beachte, dass dies voraussetzt, dass das aktuelle Verzeichnis keine Nicht-Bilddateien oder Unterordner enthält. Wenn alle deine Quelldateien von einem einzigen Typ sind, z. B. JPEGs, kannst du stattdessen *.jpg als Eingabe angeben. Du kannst auch mehrere Eingabedateien einzeln angeben.

Siehe img2pdf --help für alles, was img2pdf tun kann.

img2pdf ist über den Python Package Index erhältlich und ist auch in den Repositories vieler Linux-Distributionen enthalten. Eine ausführbare Windows-Version ist auch über dem Projekt Appveyor verfügbar.

ImageMagick und GraphicsMagick können auch verwendet werden, um Bilder in PDF-Dateien zu konvertieren, wenn GhostScript installiert ist.

Der folgende Befehl verwendet das ImageMagick-Werkzeug mogrify, um alle JPEG-Dateien in einzelne PDF-Dateien zu konvertieren und sie in einem Unterordner namens „pdf“ abzulegen:

mogrify -format pdf -path pdf/ *.jpg

Bei einigen Linux-Distributionen blockiert die Standard-Sicherheitsrichtlinie von ImageMagick den Umgang des Programms mit PDF-Dateien. Unter dieser StackOverflow-Frage erfährst du, wie du die Sicherheitsrichtlinie ändern kannst.

Erstellen von PDF aus bitonalen Bildern

Bitonale Bilder (d. h. Bilder, die nur eine einzige Schwarz-Weiß-Schattierung enthalten) sind eine sehr effiziente Methode zur Speicherung gescannter Dokumente, die nur Text oder andere einfache Elemente enthalten, die nur zwei Farben benötigen, um klar dargestellt zu werden. Eine hochwertige bitonale Textseite ist in der Regel nur wenige Kilobyte groß.

Es gibt zwei bitonale Kompressionsmethoden, die in PDF-Dateien verwendet werden, nämlich die CCITT Gruppe 4 Fax-Kompression und die JBIG2-Kompression. Letztere ist effizienter, hat aber einige patentrechtliche Probleme, die dazu führen, dass die JBIG2-Kodierungsfunktion in PDF-Erstellungssoftware oft fehlt oder deaktiviert ist. Manchmal ist es jedoch möglich, diese Funktion zu aktivieren, indem man den Encoder selbst installiert.

Es gibt eine Reihe von Werkzeugen zur Konvertierung von Bildern in bitonale Kompression. ScanTailor-Universal ist ein Open-Source-Tool zur Verarbeitung gescannter Seiten, das bitonale Bilder ausgeben kann. ImageMagick und GraphicsMagick sind ebenfalls in der Lage, dies mit der Option -threshold zu tun.

Der folgende ImageMagick-Befehl konvertiert alle .jpg-Dateien in einem Ordner in bitonale TIF-Dateien mit Group 4-Kompression und legt sie in einem Ordner mit dem Namen „bitonal“ ab:

mogrify -format tif -compress Group4 -path bitonal/ -threshold 50% *.jpg

Spiele mit dem Wert von -threshold, um einen Wert zu finden, der gute Ergebnisse für deinen Inhalt liefert.

JBIG2-Konvertierung

OCRmyPDF ist ein Open-Source-Kommandozeilenprogramm, das hauptsächlich dazu dient, gescannten PDF-Dateien eine OCR-Textebene hinzuzufügen. Eine seiner zusätzlichen Funktionen ist die Möglichkeit, PDF-Dateien zu optimieren, wozu auch die Konvertierung anderer bitonaler Bildformate in JBIG2 gehört. Dies erfordert die Installation des jbig2enc-Encoders. Kompilierungs- und Installationsanweisungen für Linux-Benutzer sind verfügbar hier, und eine ausführbare Windows-Datei eines Drittanbieters ist hier verfügbar. Die in Homebrew verpackte MacOS-Version enthält bereits jbig2enc.

Siehe hier für eine Anleitung zur Installation von OCRmyPDF unter Windows. Bei vielen Linux-Distributionen ist ein OCRmyPDF-Paket in den Repositories enthalten, das allerdings veraltet sein kann. OCRmyPDF ist auch verfügbar via pip.

Der folgende Befehl verwendet OCRmyPDF, um einer PDF-Datei eine OCR-Textebene hinzuzufügen und die PDF-Datei so anzuordnen, dass ein Webbrowser sie anzeigen kann, bevor sie vollständig heruntergeladen wurde:

ocrmypdf --output-type pdf --fast-web-view 0 test.pdf test-OCR.pdf

OCRmyPDF optimiert das PDF standardmäßig verlustfrei, so dass bitonale Bilder automatisch in JBIG2 konvertiert werden, wenn jbig2enc installiert ist.

Wenn du den OCR-Prozess überspringen möchtest, weil du die PDF-Datei nicht mit OCR bearbeiten musst, verwende --tesseract-timeout 0, um OCR ganz zu überspringen.

Siehe dieOCRmyPDF-Dokumentation für weitere Anwendungsbeispiele.

Siehe auch

Help:DjVu

Category:Digitisation help/Translations Category:PDF files Category:Commons help