Note di Matteo


#open-source

Claude Code riscrive chardet ("Python character encoding detector") con prestazioni 48 volte superiori alla versione precedente. La licenza open source cambia da LGPL a MIT perché è un rewrite totale. È un lavoro indipendente oppure un lavoro derivato? La questione si ripresenterà sempre più spesso.

Last week, Dan Blanchard, the maintainer of chardet—a Python library for detecting text encodings used by roughly 130 million projects a month—released a new version. Version 7.0 is 48 times faster than its predecessor, supports multiple cores, and was redesigned from the ground up. Anthropic's Claude is listed as a contributor. The license changed from LGPL to MIT.

Blanchard's account is that he never looked at the existing source code directly. He fed only the API and the test suite to Claude and asked it to reimplement the library from scratch. The resulting code shares less than 1.3% similarity with any prior version, as measured by JPlag. His conclusion: this is an independent new work, and he is under no obligation to carry forward the LGPL.

#379 /
13 marzo 2026
/
09:38
/ #ai#open-source


Magika 1.0

Scrivevo un anno e mezzo fa:

In uno dei suoi tremila blog ieri Google ha annunciato anche un nuovo interessante progetto open source chiamato Magika. Serve a identificare il tipo di un file in automatico e si basa su un modello deep learning molto piccolo e molto efficiente, con tempi di inferenza di pochi millisecondi anche su CPU.

Finora il riconoscimento del tipo di un file era basato sul suo nome (es. estensione .pdf) o sull'analisi dei "magic byte", delle sequenze binarie presenti all'inizio dei file che in molti casi ne permettono l'identificazione. Magika è però di gran lunga superiore rispetto a queste tecniche, con le metriche precision, recall e F1 che superano il 99% e per alcuni tipi di file raggiungono il 100%.

Magika si può usare facilmente con Python o JavaScript, infatti la demo ufficiale funziona nel browser: https://google.github.io/magika/

Ora Magika ha raggiunto la 1.0:

Today, we are happy to announce the release of Magika 1.0, a first stable version that introduces new features and a host of major improvements since last announcement. Here are the highlights:

  • Expanded file type support for more than 200 types (up from ~100). -A brand-new, high-performance engine rewritten from the ground up in Rust.
  • A native Rust command-line client for maximum speed and security.
  • Improved accuracy for challenging text-based formats like code and configuration files.
  • A revamped Magika Python and TypeScript module for even easier integrations.

Prestazioni notevoli:

Magika is able to identify hundreds of files per second on a single core and easily scale to thousands per second on modern multi-core CPUs thanks to the use of the high-performance ONNX Runtime for model inference and Tokio for asynchronous parallel processing, For example, as visible in the chart below, on a MacBook Pro (M4), Magika processes nearly 1,000 files per second.

#137 /
9 novembre 2025
/
20:26
/ #ai#google#open-source


MinIO sta diventando crescentemente un progetto prevalentemente commerciale:

  • MinIO removed web management features from its open-source community version, forcing users to command-line tools or paid upgrades
  • MinIO Community version was downgraded to basic object browser only with no account management, policy configuration, or administrative functions
  • The cost of MinIO’s paid version is substantial: software and support alone cost a MINIMUM of $96,000 per year, rising to $244,032 per year for 1 PB of usable capacity, according to MinIO’s website.

Ora la versione community non è più su Docker Hub ed è sparita anche la documentazione community apparentemente.

#95 /
23 ottobre 2025
/
09:35
/ #open-source#storage