Note di Matteo


#ai

TIL Nano Banana per la generazione di immagini AI non è un diffusion model ma autoregressive, a differenza delle generazioni precedenti di Imagen e a differenza di DALL-E 2 e 3. E Midjourney e Stable Diffusion.

Of note, gpt-image-1, the technical name of the underlying image generation model, is an autoregressive model. While most image generation models are diffusion-based to reduce the amount of compute needed to train and generate from such models, gpt-image-1 works by generating tokens in the same way that ChatGPT generates the next token, then decoding them into an image. It’s extremely slow at about 30 seconds to generate each image at the highest quality (the default in ChatGPT), but it’s hard for most people to argue with free.

In August 2025, a new mysterious text-to-image model appeared on LMArena: a model code-named “nano-banana”. This model was eventually publically released by Google as Gemini 2.5 Flash Image, an image generation model that works natively with their Gemini 2.5 Flash model. Unlike Imagen 4, it is indeed autoregressive, generating 1,290 tokens per image. After Nano Banana’s popularity pushed the Gemini app to the top of the mobile App Stores, Google eventually made Nano Banana the colloquial name for the model as it’s definitely more catchy than “Gemini 2.5 Flash Image”.

#154 /
15 novembre 2025
/
20:57
/ #ai#google#openai

"I was wrong"

Meglio di "You're absolutely right", probabilmente.

(Claude Code)

#141 /
11 novembre 2025
/
16:21
/ #ai#anthropic#claude

Magika 1.0

Scrivevo un anno e mezzo fa:

In uno dei suoi tremila blog ieri Google ha annunciato anche un nuovo interessante progetto open source chiamato Magika. Serve a identificare il tipo di un file in automatico e si basa su un modello deep learning molto piccolo e molto efficiente, con tempi di inferenza di pochi millisecondi anche su CPU.

Finora il riconoscimento del tipo di un file era basato sul suo nome (es. estensione .pdf) o sull'analisi dei "magic byte", delle sequenze binarie presenti all'inizio dei file che in molti casi ne permettono l'identificazione. Magika è però di gran lunga superiore rispetto a queste tecniche, con le metriche precision, recall e F1 che superano il 99% e per alcuni tipi di file raggiungono il 100%.

Magika si può usare facilmente con Python o JavaScript, infatti la demo ufficiale funziona nel browser: https://google.github.io/magika/

Ora Magika ha raggiunto la 1.0:

Today, we are happy to announce the release of Magika 1.0, a first stable version that introduces new features and a host of major improvements since last announcement. Here are the highlights:

  • Expanded file type support for more than 200 types (up from ~100). -A brand-new, high-performance engine rewritten from the ground up in Rust.
  • A native Rust command-line client for maximum speed and security.
  • Improved accuracy for challenging text-based formats like code and configuration files.
  • A revamped Magika Python and TypeScript module for even easier integrations.

Prestazioni notevoli:

Magika is able to identify hundreds of files per second on a single core and easily scale to thousands per second on modern multi-core CPUs thanks to the use of the high-performance ONNX Runtime for model inference and Tokio for asynchronous parallel processing, For example, as visible in the chart below, on a MacBook Pro (M4), Magika processes nearly 1,000 files per second.

#137 /
9 novembre 2025
/
20:26
/ #ai#google#open-source

Uno spot Coca Cola mostra i limiti dell'AI generativa nei video:

Palesemente non una buona idea, eppure.

#136 /
9 novembre 2025
/
18:50
/ #ai

Come funziona Discover Weekly di Spotify:

Discover Weekly is far more sophisticated than the Music Genome project. It starts by pulling in songs from playlists created by its users, then matches them against a taste profile for each individual user, using technology from a company called The Echo Nest that it purchased in 2014. Then it performs additional fine-tuning and filtering, including machine learning analysis of raw audio data, before building you a unique 30-song playlist.

#135 /
9 novembre 2025
/
18:05
/ #ai

We’ve now seen reports of non-developers trying to use Gemma in AI Studio and ask it factual questions. We never intended this to be a consumer tool or model, or to be used this way. To prevent this confusion, access to Gemma is no longer available on AI Studio. It is still available to developers through the API.

(Google)

#128 /
2 novembre 2025
/
23:46
/ #ai#google

Can ChatGPT Land an Airplane? (video) è una delle cose più frustranti che ho mai visto. Sarà che la modalità vocale di ChatGPT è pensata per conversazioni leggere, ma sembra di parlare con GPT-3.5, cioè quando gli LLM dicevano qualsiasi cosa con convinzione, entusiasmo e nonchalance senza considerare il contesto, senza fare domande essenziali per risolvere il problema, senza mostrare un briciolo di incertezza, pianificazione, attenzione alle richieste, consapevolezza dei fondamentali, ecc. (Lo fanno ancora, ma il problema è stato in buona parte mitigato, specialmente con il reasoning.)

#127 /
2 novembre 2025
/
18:02
/ #ai#openai

Interessante 0github.com:

To try it, replace github.com with 0github.com in any GitHub pull request url. Under the hood, we clone the repo into a VM, spin up gpt-5-codex for every diff, and ask it to output a JSON data structure that we parse into a colored heatmap.

#125 /
1 novembre 2025
/
13:41
/ #dev#ai

AI slop

Nel caso non fosse ancora entrato nel vostro vocabolario, con AI slop si intendono contenuti di qualità medio-bassa creati con strumenti di intelligenza artificiale, secondo The Conversation. A me piace più la definizione su Wikipedia: “un contenuto digitale realizzato con l’intelligenza artificiale generativa, in particolare quando viene percepito come privo di impegno, qualità o significato profondo e caratterizzato da un volume di produzione eccessivo”.

Carola Frediani in Guerre di rete.

#116 /
29 ottobre 2025
/
21:20
/ #ai



Anthropic punta sul B2B, mentre OpenAI domina il mercato di massa consumer:

Anthropic has generated much less mass-market appeal. The company has said about 80% of its revenue comes from corporate customers. Last month it said it had some 300,000 of them.

Anthropic is also surprisingly close to OpenAI when it comes to revenue. The company is already at a $7 billion annual run rate and expects to get to $9 billion by the end of the year—a big lead over its better-known rival in revenue per user.

(WSJ)

#106 /
26 ottobre 2025
/
10:43
/ #ai#anthropic

I grandi temi nell'AI negli ultimi 4 anni:

  • 2022: ChatGPT
  • 2023: Multimodality
  • 2024: Modelli di reasoning
  • 2025: Agenti e browser AI

Vedremo il 2026!

#94 /
22 ottobre 2025
/
16:43
/ #ai


In Firefox 144 ora si può cercare un'immagine con Google Lens dal menù "tasto destro".

#74 /
16 ottobre 2025
/
14:55
/ #ai#browser

Essere cattivi con gli LLM potrebbe aiutare a ottenere risultati migliori:

Contrary to expectations, impolite prompts consistently outperformed polite ones, with accuracy ranging from 80.8% for Very Polite prompts to 84.8% for Very Rude prompts. These findings differ from earlier studies that associated rudeness with poorer outcomes, suggesting that newer LLMs may respond differently to tonal variation.

Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy

#70 /
14 ottobre 2025
/
22:16
/ #ai

Google AI Mode

È arrivato Google AI Mode in Italia. Vediamo se è all'altezza di Perplexity. In Firefox, si può configurare come motore di ricerca personalizzato con questo URL:

https://www.google.com/search?udm=50&q=%s

E poi invocarlo ad esempio con @ai seguito dalla query di ricerca:

#65 /
13 ottobre 2025
/
23:42
/ #ai#browser

AI e giornali

Una nuova ricerca del Reuters Institute ha raccolto le esperienze e le opinioni di circa 12mila persone in sei paesi del mondo a proposito dell'uso dei software di "intelligenza artificiale". Ne sono uscite molte considerazioni ma quelle più rilevanti per il dannato futuro dei giornali sono due.

Una è che continua ad aumentare l'uso di simili servizi per la ricerca di informazioni di vario genere, e questo va a scapito dei siti di news, tradizionali fornitori di molte di queste informazioni. Ormai le prove di questa tendenza sono tante. Solo un terzo degli interpellati dice di cliccare con frequenza sui link dopo aver letto le sintesi offerte in testa alle pagine dei risultati di Google: un terzo dice di non farlo mai.

La seconda questione su cui riflettere è più complessa: a quanto pare sempre più persone usano abitualmente e serenamente i vari software di intelligenza artificiale per le proprie necessità, accettando il margine di insicurezza dei risultati in termini di qualità e accuratezza. Ma se si chiede alle stesse persone un giudizio sull'uso degli stessi software da parte dei giornali, una gran parte se ne dice critica e diffidente.

Le letture di questa contraddizione possono essere due. Una è che ci sia una specie di ipocrisia che ci rende severi contro l'uso delle AI da parte di altri, ma indulgenti le usiamo noi. O una specie di supponenza che ci fa pensare di saper essere più prudenti o esperti degli altri: non da escludere, è una tendenza assai comune. [...] Dovremmo abituarci a valutare i risultati di un lavoro giornalistico (è accurato o no? è completo o no? svolge adeguatamente la sua funzione di informazione?) piuttosto che l'insignificante percorso della sua costruzione (ci sono testi prodotti dalle "AI" che hanno maggiore accuratezza di certi testi prodotti dagli umani, per dire).

La seconda - più apprezzabile - lettura della contraddizione è che le nostre aspettative nei confronti del lavoro giornalistico siano maggiori di quelle che abbiamo per noi stessi. E che laddove consentiamo alle nostre ricerche di informazioni un margine di mediocrità e approssimazione - non dando a quelle ricerche ruoli rilevanti: non scegliendo delle cure mediche, per esempio -, diamo una maggiore credibilità al lavoro giornalistico e lo assumiamo per farci un'idea più radicata e affidabile del mondo. È una pretesa lusinghiera per i giornali, ma che deve imparare a fare i conti col costo di quella differenza: e capire che un lavoro giornalistico, se lo si vuole migliore di quello che fa ChatGPT, ha dei costi a cui serve contribuire. Nessuno è obbligato, basta che poi non si pretenda che giornali in crisi di risorse economiche non ricorrano sciattamente alle "AI".

Luca Sofri nella newsletter Charlie del 12 ottobre 2025.

#63 /
12 ottobre 2025
/
13:44
/ #ai#informazione


Figure 03. Pazzesco che probabilmente tra pochi anni non sarà utopia avere un assistente domestico robotico.

Tocca rispolverare le leggi della robotica di Asimov.

#59 /
9 ottobre 2025
/
17:49
/ #ai