Nota #374 del 10/03/2026

Un mio commento sul Post in risposta all'articolo Per le intelligenze artificiali i PDF sono un problema, che si basa sul nulla:

L'articolo solleva il problema sbagliato. L'OCR serve solo se il contenuto è stato rasterizzato o è frutto di scansione, che non è la normalità (fuori dalla PA italiana almeno).

Il formato PDF resta però comunque problematico perché non contiene concetti come "paragrafo di testo", "pié di pagina" o "tabella" ed è quindi molto difficile associare le singole parole/righe di testo (solitamente leggibili senza OCR) al flusso della pagina. In casi complessi come pagine a più colonne servono una miriade di euristiche per provare a ricostruire il testo correttamente, perché non c'è legame tra gli elementi.

Non è un problema risolvibile al 100% ma è comunque in gran parte superato e negli ultimi 3 anni è spuntata diversa ricerca e molti nuovi strumenti anche open source per attaccare il problema.

Detto questo, del presunto "obiettivo di lungo termine" di sostituire il formato PDF sinceramente non trovo traccia e non ne ho mai sentito parlare pur avendo realizzato sistemi AI che ingeriscono PDF. A prova della tesi l'articolo menziona solo questa startup israeliana completamente sconosciuta nel settore, il cui sito sembra indicare che sia semplicemente una piattaforma cloud (a cui non ci si può nemmeno iscrivere), più che un formato di file. Di cosa stiamo parlando?

Note di Matteo