Come estrarre e salvare immagini da un file PDF in Linux

Come estrarre e salvare immagini da un file PDF in Linux
Come estrarre e salvare immagini da un file PDF in Linux

Video: Come estrarre e salvare immagini da un file PDF in Linux

Video: Come estrarre e salvare immagini da un file PDF in Linux
Video: 25 Things You Can Do With QuickTime Player - YouTube 2024, Aprile
Anonim
È possibile convertire facilmente i file PDF in testo modificabile in Linux utilizzando lo strumento da riga di comando "pdftotext". Tuttavia, se nel file PDF originale sono presenti immagini, non vengono estratte. Per estrarre immagini da un file PDF, puoi utilizzare un altro strumento da riga di comando chiamato "pdfimages".
È possibile convertire facilmente i file PDF in testo modificabile in Linux utilizzando lo strumento da riga di comando "pdftotext". Tuttavia, se nel file PDF originale sono presenti immagini, non vengono estratte. Per estrarre immagini da un file PDF, puoi utilizzare un altro strumento da riga di comando chiamato "pdfimages".

NOTA: quando diciamo di digitare qualcosa in questo articolo e ci sono citazioni attorno al testo, NON digitare le virgolette, a meno che non specifichiamo diversamente.

Lo strumento "pdfimages" fa parte del pacchetto poppler-utils. Puoi verificare se è installato sul tuo sistema e installarlo se necessario utilizzando i passaggi descritti in questo articolo.

Per estrarre immagini da un file PDF utilizzando pdfimages, premere "Ctrl + Alt + T" per aprire una finestra di Terminale. Digitare il seguente comando al prompt.

pdfimages /home/lori/Documents/SampleWithImages.pdf /home/lori/Documents/ExtractedImages/image

NOTA: per tutti i comandi mostrati in questo articolo, sostituire il primo percorso nel comando e il nome file PDF nel percorso e nel nome file per il file PDF originale. Il secondo percorso dovrebbe essere il percorso della cartella radice in cui si desidera salvare le immagini estratte. La parola "immagine" alla fine del secondo percorso rappresenta qualunque cosa tu voglia prefiggere il nome del tuo file con. I nomi dei file delle immagini sono numerati automaticamente (000, 001, 002, 003, ecc.). Se vuoi aggiungere del testo all'inizio di ogni immagine, inserisci quel testo alla fine del secondo percorso. Nel nostro esempio, ciascun nome file dell'immagine inizierà con "immagine", ad esempio image-001.ppm, image-002.ppm, ecc. Viene aggiunto un trattino tra il testo specificato e il numero.

Il formato immagine predefinito è PPM (pixmap portatile) per immagini non monocromatiche o PBM (bitmap portatile) per immagini monocromatiche. Questi formati sono progettati per essere facilmente scambiati tra piattaforme.
Il formato immagine predefinito è PPM (pixmap portatile) per immagini non monocromatiche o PBM (bitmap portatile) per immagini monocromatiche. Questi formati sono progettati per essere facilmente scambiati tra piattaforme.

NOTA: è possibile ottenere due file immagine per ogni immagine nel file PDF. La seconda immagine per ogni immagine è vuota, quindi sarai in grado di dire quali immagini contengono le immagini dal file con la miniatura sul file nel File Manager.

Per creare file con estensione jpg, aggiungi l'opzione "-j" al comando, come mostrato di seguito.
Per creare file con estensione jpg, aggiungi l'opzione "-j" al comando, come mostrato di seguito.

pdfimages -j /home/lori/Documents/SampleWithImages.pdf /home/lori/Documents/ExtractedImages/image

NOTA: Puoi anche cambiare l'output di default in PNG usando l'opzione "-png" o TIFF usando l'opzione "-tiff".

Il file immagine principale per ogni immagine viene salvato come file.jpg. La seconda immagine vuota è ancora un file.ppm o.pbm.
Il file immagine principale per ogni immagine viene salvato come file.jpg. La seconda immagine vuota è ancora un file.ppm o.pbm.
Se si desidera convertire solo le immagini su e dopo una determinata pagina, utilizzare l'opzione "-f" con un numero per indicare la prima pagina da convertire, come mostrato nel seguente comando di esempio.
Se si desidera convertire solo le immagini su e dopo una determinata pagina, utilizzare l'opzione "-f" con un numero per indicare la prima pagina da convertire, come mostrato nel seguente comando di esempio.

pdfimages -f 2 -j /home/lori/Documents/SampleWithImages.pdf /home/lori/Documents/ExtractedImages/image

NOTA: abbiamo combinato l'opzione "-j" con l'opzione "-f" in modo da ottenere le immagini.jpg e abbiamo fatto lo stesso con l'opzione "-l" menzionata di seguito.

Per convertire tutte le immagini prima e su una determinata pagina, utilizzare l'opzione "-l" (una "L" minuscola, non il numero "1") con un numero per indicare l'ultima pagina da convertire, come mostrato di seguito.
Per convertire tutte le immagini prima e su una determinata pagina, utilizzare l'opzione "-l" (una "L" minuscola, non il numero "1") con un numero per indicare l'ultima pagina da convertire, come mostrato di seguito.

pdfimages -l 1 -j /home/lori/Documents/SampleWithImages.pdf /home/lori/Documents/ExtractedImages/image

NOTA: è possibile utilizzare le opzioni "-f" e "-l" insieme per convertire le immagini in un intervallo di pagine specifico nel mezzo del documento.

Se è presente una password del proprietario nel file PDF, utilizzare l'opzione "-opw" e la password tra virgolette singole, come illustrato di seguito. Se la password del file PDF è una password utente, utilizzare l'opzione "-upw" con la password.
Se è presente una password del proprietario nel file PDF, utilizzare l'opzione "-opw" e la password tra virgolette singole, come illustrato di seguito. Se la password del file PDF è una password utente, utilizzare l'opzione "-upw" con la password.

NOTA: assicurarsi che vi siano singole virgolette sulla password nel comando.

pdfimages -opw ‘password’ -j /home/lori/Documents/SampleWithImages.pdf /home/lori/Documents/ExtractedImages/image

Consigliato: