Estrarre testo da un PDF o da una immagine con Google Docs

PDF OCR Google Docs continua ad aggiungere nuove funzioni alla sua applicazione online. Così, insieme alla possibilità di caricare file di qualsiasi tipo e dimensione (in Google Drive), adesso aggiunge una novità davvero molto interessante, la funzione OCR, che consente di estrarre testo da un PDF o da una immagine.
Diventa quindi chiaro quanto possa tornare utile, sia in ambito lavorativo che per il quotidiano, poter catturare il testo da una immagine scansionata e da un documento PDF protetto.
Ad esempio si potrebbe, in teoria, usare lo scanner per salvare sul computer un libro, estrarre il testo e modificarlo oppure si può prendere una documentazione già fatta, modificarla e riciclarla (attenzione però al copia e incolla da documenti protetti da copyright).
Vediamo insieme come estrarre testo da un PDF o da una immagine con Google Docs; per completezza d'informazione vi mostreremo anche alcune valide alternative per poter estrarre testo tramite OCR.

Come estrarre testo con Google Docs

Per attivare la funzione OCR su Docs apriamo la pagina di Google Drive, premiamo sull'icona a forma di ingranaggio in alto a desta e successivamente su Impostazioni; nella finestra che si aprirà apportiamo il segno di spunta sulla voce Converti i file caricati nel formato dell'editor di Documenti Google.
Documenti Drive

A questo punto, basterà caricare un PDF o un'immagine con del testo in Google Drive, successivamente premere col tasto destro sul file appena caricato e usare l'opzione Apri con - Google Documenti. Il PDF o l'immagine non verrà caricata nel suo formato di partenza, ma otterremo un foglio di testo direttamente modificabile con gli strumenti di Google Docs. Il file di testo potrà poi essere salvato nuovamente in formato PDF sul computer oppure in un file Word, in un TXT, in RTF o in un formato compatibile con Libreoffice (ODT).
Chiaramente, se si carica un PDF e si fa l'estrazione del testo, si perde la formattazione dei paragrafi anche se le impostazioni del carattere, i corsivi ed i grassetti dovrebbero rimanere (molto dipende dalla qualità delle immagini di cui si compone il PDF originale). Resta comunque una possibilità veloce e facile per portare libri di carta sul computer senza doverli riscrivere da zero.

Come estrarre testo su Windows 10

Se l'OCR di Google Docs non ci ha convinto fino in fondo, possiamo utilizzare in alternativa il tool PDF24, disponibile gratuitamente per qualsiasi versione di Windows.
PDF 24

Dopo aver installato l'app avviamola, premiamo sulla voce Riconosci testo e, nella finestra successiva, premiamo su Aggiungi file e successivamente su Avvia. Il programma inizierà a catturare automaticamente il testo dalle immagini presenti nel PDF; a fine lavoro premiamo su Salva file, così da poter creare un nuovo PDF con il testo estratto dalle immagini (decisamente più leggibile e curato).

In alternativa sempre su Windows possiamo utilizzare il programma FreeOCR, uno dei migliori tool gratuiti.
FreeOCR

Una volta aperto il programma premiamo su Open PDF e scegliamo il PDF da caricare, così da poter estrarre il testo contenuto all'interno, e premiamo in alto su OCR. Al termine del processo scegliamo se salvare il testo recuperato su un nuovo file PDF (scelta consigliata) o in qualsiasi altro formato testuale supportato.

Per testare da vicino altre alternative per Windows vi consigliamo di leggere la nostra guida ai programmi OCR per convertire immagini, fax e pdf dallo scanner.

Come estrarre testo da un PDF su Mac

Se cerchiamo qualcosa di simile ai programmi visti in alto per Mac, possiamo provare OCRKit, disponibile in prova gratuita per 14 giorni.
OCRKit

Una volta aperto questo piccolo tool basterà caricare il PDF con le immagini e avviare la conversione: in pochi minuti otterremo la lettura di tutte le immagini e verrà generato un file con tutto il testo estratto, pronto per essere copiato, modificato o condiviso.

Come estrarre testo da un PDF online

Se non possiamo installare nessun programma sul nostro PC aziendale o lavoriamo su un PC con un utente con permessi limitati, possiamo comunque estrarre il testo da un PDF composto da immagini o scansioni utilizzando il servizio online onlineocr.net.
onlineocr.net

Una volta aperto il sito premiamo sul pulsante Seleziona file, carichiamo il file PDF con il testo da estrarre, selezioniamo ITALIAN e Microsoft Word (docx) dal menu a tendina accanto e premiamo infine su Converti.
Il PDF verrà letto e convertito in documento Word facilmente editabile e scaricato dal browser come un file qualsiasi, pronto per essere editato con Word o con LibreOffice Writer (la versione gratuita accessibile a tutti).

Se il sito in alto non ci convince e vogliamo provarne un altro, possiamo ottenere un OCR gratuito per PDF portandoci nel sito Convertio, che dispone di una sezione dedicata proprio alla lettura dei caratteri dalle scansioni o dalle immagini.
Convertio

Per utilizzare il sito premiamo sul tasto Scegli i file, carichiamo il PDF da scansionare, controlliamo se tutte le opzioni corrispondono alle nostre esigenze quindi premiamo in basso su Riconosce. Il sito provvederà a leggere subito tutte le immagini e a generare un file Word modificabile, pronto all'uso.
Nella versione gratuita possiamo convertire solo 10 pagine; se ci servono più pagine dovremo effettuare la registrazione pigiando in alto a desta su Registrati prima di fare qualsiasi cosa.

Conclusioni

Come abbiamo avuto modo di vedere i metodi per Estrarre testo da un PDF o da una immagine sono davvero molti: siamo partiti da Google Docs (lo strumento più semplice e immediato) per mostrarvi in seguito altri tool e programmi utili allo scopo.

Sempre a tema di PDF possiamo modificare questo tipo di file leggendo le nostre guide Come modificare file PDF e Migliori 10 programmi per modificare PDF.
Se invece cerchiamo un modo per modificare e compilare i PDF sul nostro telefono, vi raccomandiamo la lettura del nostro articolo Come modificare e compilare PDF da Android e iPhone.

Posta un commento

Comments (0)

Nuova Vecchia