Di seguito troverai le pagine che utilizzano il termine “PDF”
Programma in Python per copiare testo da vari PDF e raccoglierlo in un unico documento in linguaggio Markdown.
- 1. Oggetto dell’articolo.
- 2. Analisi del sorgente in Python.
- 3. Il codice sorgente completo in Python.
1. Oggetto dell’articolo.
L’obiettivo è quello di generare un semplice programma che permetta di raccogliere il testo contenuto in vari PDF generati direttamente da programmi di videoscrittura e di inserire i vari frammenti in un unico documento in linguaggio Markdown separando i frammenti con titoli di secondo livello corrispondenti al nome dei documenti di provenienza.
Ridurre la dimensione di documenti PDF singoli o multipli in GNU/Linux Bash e Python
Abstract: la compressione di documenti PDF è una tecnica utile per ridurre lo spazio occupato da questi file e facilitarne la trasmissione e l’archiviazione. In questo articolo, partendo da una pagina dedicata alla compressione di PDF singoli, presento due metodi per comprimere documenti PDF multipli. La pagina di riferimento è la seguente: “Linux shell script to reduce PDF file size (è richiesta una semplice verifica per entrare) e consente di operare su PDF singoli in codice bash a linea di comando nel terminale di GNU/Linux. Sulla base del precedente ho provato ad estendere la procedura per operare su PDF multipli. Alla fine presento una semplice applicazione in Python con interfaccia grafica. Ammetto di avere chiesto alcuni aiuti a ChatGPT e Copilot.
Generazione automatica di collegamenti ipertestuali, in ambiente LaTeX mediante le Espressioni Regolari di Vim, tra atti giudiziari e documenti prodotti.
Abstract: Vim è un editor dalle infinite risorse. Può anche anche generare, grazie alle Espressioni Regolari incorporate, collegamenti ipertestuali in linguaggio LaTeX verso altri documenti presenti in locale. Per gli Avvocati ciò significa collegare un atto principale con le relative produzioni documentali. Questa è l’analisi del procedimento.
- 1. Oggetto di questo articolo.
- 2. Prima di cominciare.
- 3. Configurazione del documento principale.
- 4. Formula in RegEx per la generazione automatica dei collegamenti.
- 5. Spiegazione della formula RegEx.
- 6. Gestione del “carattere di sottolineatura”.
- 7. Collegamenti all’interno del testo
1. Oggetto di questo articolo.
A volte occorre inserire in un documento principale in PDF una lista di documenti da richiamare con specifici collegamenti ipertestuali dedicati ad ogni elemento della lista.
Potente sistema di Riconoscimento Ottico di Caratteri sotto GNU/Linux per documenti PDF gestito da riga di comando e con rifinitura in Vim.
Premessa
L’idea è nata dalla lettura di questo articolo a proposito del riconoscimento ottico dei caratteri (OCR) in ambiente GNU/Linux da immagini e PDF, gestito da linea di comando.
Ovviamente i documenti PDF sono quelli di tipo scansionato da originale cartaceo, ovvero non ottenuti da salvataggio diretto di documento in formato digitale. Per questi ultimi non occorre alcun OCR.
L’articolo è scritto molto bene ed il risultato finale è ottimo.
Mi sono chiesto se fosse possibile aggregare tutti i passaggi in un unico comando di testo.
Documenti di testo: da PDF ad immagini vettoriali
Oggetto di questo articolo
Recentemente ho avuto necessità di convertire alcuni documenti in formato PDF, contenti testo generato da LaTeX in sistemi operativi GNU/Linux, in immagini vettoriali.
Evitando la conversione da servizi online, ho trovato sostanzialmente tre soluzioni interessanti: due a linea di comando (pdf2svg e pdftocairo) ed una, famosissima, di tipo grafico (inkscape).
In questo articolo riporto la mie valutazioni evidenziando alcune differenze derivante dalla fonte dei documenti in PDF e dal comportamento di tre distribuzioni Linux.