Un benchmark sulle tecnologie moderne di OCR, dove incredibilmente sono gli LLM a vincere in accuratezza specialmente sull'handwriting.
Quello che il benchmark mi pare non consideri del tutto sono le allucinazioni. Se ho un'immagine il cui contenuto è apparentemente testo ma in realtà non è nulla di sensato, gli LLM di solito sputano fuori qualcosa di apparentemente coerente (del testo, magari proprio delle frasi) ma completamente errato.
