Strumenti AI

12 LLM Open Source da Conoscere nel 2026

Guida ai 12 migliori LLM open source del 2026: Llama 4, DeepSeek V4, Qwen3, Gemma 4, GLM 5.2 e altri. Punti di forza, licenze e come installarli con Ollama.

··11 min di lettura
Griglia editoriale dei loghi dei principali LLM open source del 2026 (Meta, DeepSeek, Alibaba Qwen, Google Gemma, Microsoft, Mistral, Z.ai GLM) su carta cream con rete neurale
In breve. Per due anni la regola non scritta era che l'AI seria passasse solo dalle API chiuse: OpenAI, Anthropic, Google. Nel 2026 quella regola si è rotta. DeepSeek V4 pareggia la frontiera chiusa sul coding, GLM 5.2 batte GPT-5.5 su un benchmark di ingegneria del software con licenza MIT, e i pesi te li scarichi e li fai girare sul tuo hardware. Sotto trovi 12 modelli open che contano davvero, il punto di forza di ognuno, le licenze (che non sono tutte uguali) e come provarli in locale con Ollama. Più una nota che molti si dimenticano: girare in casa aiuta col GDPR, ma da solo non ti mette in regola con l'AI Act.

La domanda che mi fanno più spesso le PMI quest'anno non è "quale AI è la più potente". È "posso usare l'AI senza mandare i dati dei miei clienti a un server americano". Fino a un anno fa la risposta era complicata. Oggi molto meno.

L'open source ha recuperato terreno, e in fretta. Non parliamo più di modellini buoni per i compiti facili. DeepSeek-V4-Pro arriva all'80,6% su SWE-bench Verified, uno dei test più duri sul software reale, e si siede accanto ai modelli chiusi di punta. La differenza è che questi pesi puoi scaricarli e farli girare dove vuoi. Per un'azienda cambia tutto: niente costo per token, niente dati che escono di casa, nessun fornitore che decide al posto tuo quando spegnere o cambiare un modello.

Ecco i 12 da tenere d'occhio. Non c'è un vincitore unico. C'è quello giusto per la tua licenza, il tuo hardware e il caso d'uso che hai davanti.

1. Llama 4 Scout (Meta): il contesto più lungo che esista

Scout è il primo open di Meta nato multimodale, testo e immagini insieme. Architettura mixture-of-experts: 109 miliardi di parametri totali ma solo 17 attivi per token, quindi risponde in fretta rispetto alla sua mole. Il numero che fa girare la testa è la finestra di contesto da 10 milioni di token, di gran lunga la più ampia tra i modelli aperti. Ci metti dentro un intero archivio documentale e lo interroghi tutto in una volta. Attenzione alla licenza: è la Llama 4 Community, non una licenza open classica, e ha clausole d'uso commerciale da leggere prima di metterla in produzione.

2. DeepSeek V4 (DeepSeek): coding al livello dei chiusi, licenza MIT

Il rilascio open più ambizioso dell'anno. La famiglia V4 è uscita ad aprile in due tagli: V4-Pro da 1,6 trilioni di parametri (49 miliardi attivi) e V4-Flash da 284 miliardi (13 attivi), tutti e due con finestra da 1 milione di token e licenza MIT, quindi uso commerciale libero senza cavilli. Il Pro tocca l'80,6% su SWE-bench Verified e sul coding agentico non sfigura davanti a nessuno. Se ti serve un modello che scrive e corregge codice vero, e ti serve poterlo ospitare in casa, questo è il primo della lista.

3. Qwen3 (Alibaba): multilingua e a doppia marcia

Qwen è la famiglia più versatile in circolazione, sotto licenza Apache 2.0 (la più pulita per chi vende). La trovata è la modalità pensiero commutabile: accendi il ragionamento esteso quando il problema è complesso, lo spegni quando vuoi una risposta secca e veloce, sullo stesso modello. Le versioni più recenti coprono oltre 200 lingue e dialetti, italiano incluso e ben supportato. Ecosistema enorme di fine-tuning e quantizzazioni pronte. Per chi parte adesso e non sa ancora cosa gli serve, è la scelta meno rischiosa.

4. Gemma 4 (Google): il migliore da tenere in locale

Gemma è la linea aperta di Google, derivata dalla ricerca dietro Gemini. La quarta versione gestisce vision e tool calling insieme, cosa rara tra i modelli che girano su una macchina sola, e ha la copertura linguistica più larga di qualsiasi modello open. Contesto da 128K sui modelli piccoli, 256K sui medi. È la raccomandazione pratica quando vuoi qualcosa di solido che parta su un buon portatile o una workstation, senza tirare su un server. Con Gemma 4 Google è passata ad Apache 2.0, quindi niente termini d'uso proprietari da decifrare: la usi anche in commerciale senza vincoli.

5. Phi 4 (Microsoft): piccolo, sveglio, da mettere sul dispositivo

Phi è la dimostrazione che la taglia non è tutto. Microsoft lo addestra su dati sintetici curati invece che sul solito web a caso, e ne esce un modello compatto che ragiona meglio di quanto la sua dimensione lascerebbe pensare. La variante mini gira con appena 3,8 miliardi di parametri e contesto fino a 128K. È pensato per l'edge e l'on-device: lo fai girare su un PC modesto, dentro un'app, perfino su hardware industriale, senza chiamare nessun cloud. Licenza permissiva (MIT). Per automazioni leggere e riservate è perfetto.

6. Mistral Small 3.1 (Mistral): il VLM che sta su un laptop

I francesi di Mistral hanno una linea di modelli piccoli che fa quello che promette: gira su hardware consumer e non chiede un data center. Small 3.1 è un modello visione-linguaggio con contesto lungo, licenza Apache 2.0, nessun limite d'uso e nessuna royalty. È la via europea per chi vuole un modello capace ma sobrio, da tenere sotto controllo. Le iterazioni successive della famiglia spingono l'efficienza ancora più in là con poche teste di esperti attive per token.

7. GLM 5.2 (Z.ai): il re open del coding

L'ultimo arrivato pesante, da Z.ai (l'ex Zhipu cinese), uscito il 13 giugno. Mixture-of-experts da 744 miliardi di parametri, 40 attivi, contesto portato a 1 milione di token e licenza MIT. Il dato che ha fatto rumore è su SWE-bench Pro, dove segna 62,1 e supera GPT-5.5 (58,6), restando dietro solo a Claude Opus 4.8. Sono punteggi misurati sugli scaffold dei rispettivi vendor, quindi non un test unico al millimetro, ma la direzione è chiara: un modello aperto e gratuito da ospitare si siede tra i due chiusi di punta. Una cautela sull'uso via API ufficiale cinese: pone temi di dove finiscono i dati, motivo in più per scaricarlo e tenerlo in casa.

SWE-bench Pro: l'open GLM 5.2 tra due modelli chiusi di punta
Claude Opus 4.8 69,2 GLM 5.2 (open) 62,1 GPT-5.5 58,6 Fonte: punteggi SWE-bench Pro dichiarati dai rispettivi vendor, giugno 2026 (scaffold differenti, valori arrotondati)

Altri 5 da tenere d'occhio

I sette qui sopra sono i nomi grossi. Ma il campo è più affollato, e alcuni di questi risolvono problemi specifici meglio dei generalisti.

  • Kimi K2.6 (Moonshot): in cima all'indice neutrale di Artificial Analysis tra i modelli aperti. Forte sui compiti agentici, dove il modello deve pianificare ed eseguire più passi.
  • MiniMax-M3 (MiniMax): pensato per spremere il contesto lungo a costi bassi, buon compromesso quando devi processare tanto testo senza spendere una fortuna.
  • Command A (Cohere): il più orientato all'azienda, costruito per il RAG (rispondere sui tuoi documenti) e per il multilingua di lavoro. Occhio alla licenza, la versione aperta è per ricerca, l'uso commerciale passa da un accordo.
  • Granite 4 (IBM): la scelta noiosa nel senso buono. Apache 2.0, taglie contenute, pensato per la governance e la tracciabilità che un'azienda regolata pretende.
  • OLMo 2 (Allen Institute): l'unico completamente aperto, non solo i pesi ma anche i dati di addestramento e il codice. Per chi fa ricerca, audit o ha bisogno di sapere esattamente cosa c'è dentro, non ha rivali sulla trasparenza.

La mappa in una tabella

Modello Azienda Punto di forza Licenza Contesto
Llama 4 Scout Meta Contesto da 10M, multimodale Llama 4 Community 10M token
DeepSeek V4 DeepSeek Coding alla pari dei chiusi MIT 1M token
Qwen3 Alibaba Multilingua, doppia marcia Apache 2.0 256K
Gemma 4 Google Il migliore in locale Apache 2.0 128K-256K
Phi 4 Microsoft Compatto, edge/on-device MIT 128K
Mistral Small 3.1 Mistral VLM su laptop consumer Apache 2.0 lungo
GLM 5.2 Z.ai Re open del coding MIT 1M token
Kimi K2.6 Moonshot Compiti agentici MIT modificata lungo
MiniMax-M3 MiniMax Contesto lungo a basso costo aperta lungo
Command A Cohere RAG e multilingua aziendale ricerca / commerciale 256K
Granite 4 IBM Governance enterprise Apache 2.0 medio
OLMo 2 Allen Institute Apertura totale (dati+codice) Apache 2.0 medio
10M Token di contesto di Llama 4 Scout, il più lungo tra gli open Meta
80,6% SWE-bench Verified di DeepSeek V4 Pro DeepSeek
200+ Lingue supportate da Qwen3 Alibaba
MIT La licenza di DeepSeek V4 e GLM 5.2: uso commerciale libero DeepSeek · Z.ai

Come provarli in locale con Ollama

La parte bella è che non serve un dottorato per metterli in moto. Ollama è lo strumento che ha reso banale far girare un LLM sul proprio computer. Lo installi (macOS, Linux, Windows), scarichi un modello e lo usi. Due righe:

ollama pull gemma4
ollama run gemma4

Stessa logica per gli altri della famiglia "da laptop":

ollama run qwen3
ollama run phi4
ollama run mistral-small

Ollama espone anche un endpoint compatibile con le API di OpenAI su localhost:11434: vuol dire che il codice che hai già scritto per ChatGPT lo punti al tuo modello locale cambiando un indirizzo, senza riscrivere nulla.

Sui requisiti, regoliamoci. I modelli compatti, da Phi 4 a Gemma 4 nei tagli piccoli, girano su un portatile recente con 16-32 GB di RAM o una GPU con 12-24 GB di memoria. I mostri come DeepSeek V4 (ollama run deepseek-v4-pro, o la più snella deepseek-v4-flash) o GLM 5.2 (744B) vogliono un server o una versione quantizzata e ridotta, oppure li ospiti su un fornitore europeo. La regola pratica: parti da un modello medio e sali solo se la qualità non ti basta.

In pratica
Prima di firmare l'ennesimo abbonamento a un'API, prova in locale: scarica Gemma 4 o Qwen3 con Ollama, collegalo a un caso d'uso reale (per esempio riassunti o risposte sui tuoi documenti) e vedi se la qualità regge. Spesso il modello open in casa basta, e il dato non esce mai.

Perché tutto questo conta per l'AI Act

Qui sta il punto che interessa davvero un imprenditore. Quando un modello gira sul tuo hardware, i dati non lasciano la tua infrastruttura. Niente trasferimento a terzi, niente fornitore cloud che potrebbe loggare o riusare quello che gli mandi. Per il GDPR e per la sovranità del dato è la posizione più comoda che ci sia, e per molte aziende europee l'open in casa è la via più diretta verso un'AI di produzione difendibile.

Però non confondiamo due cose. Far girare l'AI in locale non ti rende automaticamente conforme all'AI Act. La privacy del dato è una parte. L'AI Act chiede anche governance, tracciabilità, log delle decisioni e documentazione del rischio, soprattutto per i sistemi classificati ad alto rischio. Sulle scadenze tieni gli occhi aperti: gli obblighi per l'alto rischio erano fissati ad agosto 2026, ma il pacchetto Digital Omnibus dell'UE ne propone il rinvio (le bozze parlano del 2027) e il quadro si sta ancora assestando. Un modello open ti dà il controllo tecnico per costruire tutto questo, non te lo regala già fatto. Se vuoi capire cosa cambia in concreto per la tua azienda, ne ho scritto in cosa cambia con l'AI Act per le imprese italiane.

Il quadro completo, se devi scegliere: confronta gli open con i chiusi guardando GPT, Claude e Gemini a confronto, valuta se ha senso interrogare più modelli insieme invece di sceglierne uno solo, e parti dagli usi che rendono prima, quelli che trovi nei migliori strumenti AI per le PMI. Se invece vuoi qualcuno che imposti l'infrastruttura e la conformità al posto tuo, è il lavoro che facciamo come esperti AI per PMI.

Il 2026 ha tolto un alibi. Non puoi più dire che l'AI seria costa troppo o che ti obbliga a spedire i dati fuori. I modelli ci sono, sono aperti, e girano dove decidi tu. Quello che resta è una scelta di metodo, e quella spetta a te.

Tag

LLM open sourceDeepSeek V4GLM 5.2Llama 4Qwen3OllamaAI Act

Articolo scritto da

Ritratto di Gabriele Pecchioli
Gabriele Pecchioli

Consulente IT & AI per PMI italiane · Prato

Founder di Unicorn Digital. Consulente IT e AI per PMI italiane, basato a Prato. Scrive di intelligenza artificiale applicata alle imprese dal 2015.

Letture correlate

Indice · 11 sezioni