Mit LaTeX erzeugte PDF copy-und-paste-bar und durchsuchbar machen

Mit LaTeX erzeugte PDF copy-und-paste-bar und durchsuchbar machen

Habt Ihr schon mal versucht, in einem mit pdflatex erzeugten PDF Text zu markieren und zu kopieren? Falls ja, habt Ihr wahrscheinlich ein ähnlich verdutztes Gesicht gemacht wie ich gerade eben: es geht nämlich nicht. Die Zeichen, die in der Zwischenablage landen, sind Buchstabensalat, obwohl das PDF selbst komplett normal aussieht.

Das gleiche Problem werden Ihr bekommen, wenn Ihr versucht diese PDF-Dateien zu indizieren, etwa zur Volltextsuche. Oder bei Text-basierten Diffs.

Ich weiß zwar auch nicht, warum es passiert, aber ich habe eine Lösung gefunden.

Bessere PDFs mit LaTeX erzeugen

Es gibt zwei Varianten. Die erste funktioniert anscheinend nur, wenn man T1 encoding verwendet, aber zumindest deutsche Nutzer, die ja Umlaute verwenden wollen, dürften das heutzutage eh alle tun. Die Lösung ist,

\usepackage{cmap}

als erstes Paket einzufügen.

(Falls Ihr T1 nicht verwenden solltet: man aktiviert es mit dem Befehl \usepackage[T1]{fontenc} im Kopf der Datei).

Der zweite Weg, der bei mir allerdings nicht funktionierte, ist die Verwendung folgender Zeilen im Header:

\input glyphtounicode

\pdfgentounicode=1

Nachdem man eine der beiden Varianten eingefügt hat, sollte copy&paste, diff, Indizierung und alle anderen Anwendungen von plaintext in PDF funktionieren.

Let's Get In Touch!


Do you have a question? A project proposal? Something special in mind? Contact me, and let’s talk about how I can make your team, your products, and your life better