Compresser un pdf numérisé

Le procédé dont je faisais récemment état au sujet de la numérisation d’un document long en document PDF, s’il est plutôt satisfaisant du point de vue de sa réalisation, pose néanmoins un sacré problème quant au volume des fichiers générés. Comme je le remarquais en conclusion, les problèmes posés par cet embonpoint sont multiples : lenteur à l’ouverture comme à la navigation, impossibilité pour l’envoyer par courrier électronique, stockage problématique en cas de multiplication de fichiers de ce type. Une cure d’amaigrissement post-numérisation sera donc souvent indispensable.

L’outil Ghostscript fonctionne aussi bien sous MS Windows, Mac OSX que GNU/Linux, voici donc de quoi vous débrouiller quelque soit votre système d’exploitation, avec en prime un aperçu comparatif des résultats obtenus.

Avant d’entrer dans le vif du sujet, notez bien que ce procédé ne donne de résultats probants que si votre document PDF contient une proportion significative d’images, comme c’est le cas pour un document numérisé. Si au contraire le document à compresser est essentiellement composé de texte (par exemple créé à l’aide de la suite bureautique OpenOffice.org), vous remarquerez peut-être comme moi que l’effet est inverse.

Ghostscript via le terminal

Ghostscript est un logiciel très pointu, destiné à l’édition et l’impression de document PS et PDF. C’est concrètement un interpréteur de commande, c’est à dire un outil à qui l’on donne des instructions écrites (au clavier) en vue d’une action prédéterminée, ici pour la manipulation d’un document PDF choisi. Il existe des interfaces graphiques pour faciliter l’usage de cet outil, mais qui ne nous seront pas d’une grande aide ici.

Une seule instruction va suffire pour effectuer le travail, qui diffère légèrement selon le système d’exploitation utilisé (voir ci-dessous le paragraphe qui vous convient). Le paramètre -dPDFSETTINGS est laissé à votre appréciation, selon que le degré de compression voulu :

  • /screen : Compression forte, qualité faible. Destine le document à une lecture basique sur écran uniquement.
  • /ebook : Compression forte, qualité moyenne. Réglage optimisé pour une lecture électronique confortable. Très bon compromis, comme on s’en aperçoit ici en conclusion.
  • /printer : Compression moyenne, qualité moyenne. Le document reste de bonne qualité en cas d’impression papier.
  • /prepress : Compression faible, qualité haute. À utiliser en cas d’impression professionnelle prévue.

Remarques :  Laisser le champ -dPDFSETTINGS vide équivaut au paramètre /default, qui donne un résultat intermédiaire entre /screen et /ebook. Également, il ne faudra pas oublier d’adapter à votre situation input.pdf et output.pdf, respectivement le nom du fichier à modifier et le nom du nouveau fichier (la version allégée).

En pratique, sous GNU/Linux

Installation. Cet outil est très probablement déjà installé sur votre système. Si ce n’est pas le cas, référez-vous aux dépôts de votre distribution qui ne manquera pas de le proposer en standard.

Préalable. Ouvrez un terminal, et placez-vous dans le répertoire adéquat (sur le bureau dans cet exemple), avec la commande suivante (remplacez éventuellement « Bureau » par « Desktop ») :

cd ~/Bureau

Compression. Recopiez dans le terminal la commande suivante, en adaptant le paramètre de compression choisi et avec les noms des fichiers d’entrée et de sortie adéquats :

gs -q -dSAFER -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -dPDFSETTINGS=/printer  -sOUTPUTFILE=output.pdf -f input.pdf

Il ne vous reste plus qu’à valider !

Nota : Pour rendre les choses encore plus faciles, j’ai concocté une action nautilus qui devrait pouvoir vous aider (si toutefois vous utilisez GNOME sur votre plateforme GNU/Linux, et non pas KDE par exemple).

En pratique, sous Mac OSX

Installation. Vous trouverez un installateur sur cette page, normalement en dernière version. Inutile ici d’installer Foomatic, seul nous intéresse Ghostscript for Mac OS X. Notez que deux versions sont disponibles : pour Panther (10.3.x) ainsi que pour Jaguar (10.2.x).

Préalable. Ouvrez un terminal, et placez-vous dans le répertoire adéquat (sur le bureau dans cet exemple), avec la commande suivante (remplacez éventuellement « Bureau » par « Desktop ») :

cd ~/Bureau

Compression. Recopiez dans le terminal la commande suivante, en adaptant le paramètre de compression choisi et avec les noms des fichiers d’entrée et de sortie adéquats :

/usr/local/bin/gsos2 -q -dSAFER -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -dPDFSETTINGS=/printer  -sOUTPUTFILE=output.pdf -f input.pdf

Il ne vous reste plus qu’à valider !

En pratique, sous MS Windows

Installation. Sur cette page, choisissez la dernière version disponible et, en bas de la page qui s’affiche, vous trouverez le fichier d’installation. Installer Ghostscript, en utilisant surtout l’emplacement proposé par défaut.

Préalable. Ouvrez un terminal par le menu Démarrer > Exécuter, en tapant « cmd ». Placez-vous dans le répertoire adéquat (sur le bureau dans cet exemple), avec la commande suivante :

cd %HOMEPATH%\Bureau

Compression. Recopiez dans le terminal la commande suivante, en adaptant le paramètre de compression choisi et avec les noms des fichiers d’entrée et de sortie adéquats :

"C:\Program Files\gs\gs8.64\bin\gswin32c.exe" -q -dSAFER -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -dPDFSETTINGS=/printer  -sOUTPUTFILE=output.pdf -f input.pdf

Prenez garde à adapter - dans le premier terme de la commande - la version de Ghostscript utilisée (ici « 8.64 ») en fonction de celle installée par vos soins (par exemple « 8.71 »).

Il ne vous reste plus qu’à valider !

Conclusion

Reprenons alors notre document témoin, le premier chapitre de l’ouvrage « Les structures élémentaires de la vie religieuse » d’Émile Durkheim (1929). Pour rappel, les 29 pages scannées deux par deux (format poche), avec une résolution de 300 dpi (pour une impression confortable), ont généré un document PDF de 15 images pour un volume total de 78 Mo.

Concernant notre document témoin, nous obtenons après un passage à la moulinette Ghostscript :

Je vous laisse juger par vous-même le rendu à l’écran, avec les documents ci-joints. Pour ma part, je considère qu’à l’impression, du point de vue de la qualité de rendu, le /screen est à proscrire ; et du point de vue du volume en Mo, le mode /printer reste ridibitoire même si la qualité d’impression est très bonne.

Les performances du mode /ebook sont elles plutôt étonnantes, mais les faits sont là : très petit volume (comparé au mode /printer), et très bonne qualité (comparé au mode /screen). En définitive, un excellent rapport qualité/compression, équilibre tout à fait idéal pour qui souhaite un document léger et une qualité d’impression correcte, ou tout simplement bien fichu.

1 commentaire

#1 mercredi 04 septembre 2013 @ 12:28 Jonathan a dit :

Désolé à celles et ceux qui avaient posté des commentaires au bas de cette page. Lors de la migration de SPIP vers Pluxml, ils ont malheureusement disparus.
Milles excuses... :/

Écrire un commentaire

Quelle est la deuxième lettre du mot rojm ? :