12 LLM Open Source da Conoscere nel 2026
Guida ai 12 migliori LLM open source del 2026: Llama 4, DeepSeek V4, Qwen3, Gemma 4, GLM 5.2 e altri. Punti di forza, licenze e come installarli con Ollama.

La domanda che mi fanno più spesso le PMI quest'anno non è "quale AI è la più potente". È "posso usare l'AI senza mandare i dati dei miei clienti a un server americano". Fino a un anno fa la risposta era complicata. Oggi molto meno.
L'open source ha recuperato terreno, e in fretta. Non parliamo più di modellini buoni per i compiti facili. DeepSeek-V4-Pro arriva all'80,6% su SWE-bench Verified, uno dei test più duri sul software reale, e si siede accanto ai modelli chiusi di punta. La differenza è che questi pesi puoi scaricarli e farli girare dove vuoi. Per un'azienda cambia tutto: niente costo per token, niente dati che escono di casa, nessun fornitore che decide al posto tuo quando spegnere o cambiare un modello.
Ecco i 12 da tenere d'occhio. Non c'è un vincitore unico. C'è quello giusto per la tua licenza, il tuo hardware e il caso d'uso che hai davanti.
1. Llama 4 Scout (Meta): il contesto più lungo che esista
Scout è il primo open di Meta nato multimodale, testo e immagini insieme. Architettura mixture-of-experts: 109 miliardi di parametri totali ma solo 17 attivi per token, quindi risponde in fretta rispetto alla sua mole. Il numero che fa girare la testa è la finestra di contesto da 10 milioni di token, di gran lunga la più ampia tra i modelli aperti. Ci metti dentro un intero archivio documentale e lo interroghi tutto in una volta. Attenzione alla licenza: è la Llama 4 Community, non una licenza open classica, e ha clausole d'uso commerciale da leggere prima di metterla in produzione.
2. DeepSeek V4 (DeepSeek): coding al livello dei chiusi, licenza MIT
Il rilascio open più ambizioso dell'anno. La famiglia V4 è uscita ad aprile in due tagli: V4-Pro da 1,6 trilioni di parametri (49 miliardi attivi) e V4-Flash da 284 miliardi (13 attivi), tutti e due con finestra da 1 milione di token e licenza MIT, quindi uso commerciale libero senza cavilli. Il Pro tocca l'80,6% su SWE-bench Verified e sul coding agentico non sfigura davanti a nessuno. Se ti serve un modello che scrive e corregge codice vero, e ti serve poterlo ospitare in casa, questo è il primo della lista.
3. Qwen3 (Alibaba): multilingua e a doppia marcia
Qwen è la famiglia più versatile in circolazione, sotto licenza Apache 2.0 (la più pulita per chi vende). La trovata è la modalità pensiero commutabile: accendi il ragionamento esteso quando il problema è complesso, lo spegni quando vuoi una risposta secca e veloce, sullo stesso modello. Le versioni più recenti coprono oltre 200 lingue e dialetti, italiano incluso e ben supportato. Ecosistema enorme di fine-tuning e quantizzazioni pronte. Per chi parte adesso e non sa ancora cosa gli serve, è la scelta meno rischiosa.
4. Gemma 4 (Google): il migliore da tenere in locale
Gemma è la linea aperta di Google, derivata dalla ricerca dietro Gemini. La quarta versione gestisce vision e tool calling insieme, cosa rara tra i modelli che girano su una macchina sola, e ha la copertura linguistica più larga di qualsiasi modello open. Contesto da 128K sui modelli piccoli, 256K sui medi. È la raccomandazione pratica quando vuoi qualcosa di solido che parta su un buon portatile o una workstation, senza tirare su un server. Con Gemma 4 Google è passata ad Apache 2.0, quindi niente termini d'uso proprietari da decifrare: la usi anche in commerciale senza vincoli.
5. Phi 4 (Microsoft): piccolo, sveglio, da mettere sul dispositivo
Phi è la dimostrazione che la taglia non è tutto. Microsoft lo addestra su dati sintetici curati invece che sul solito web a caso, e ne esce un modello compatto che ragiona meglio di quanto la sua dimensione lascerebbe pensare. La variante mini gira con appena 3,8 miliardi di parametri e contesto fino a 128K. È pensato per l'edge e l'on-device: lo fai girare su un PC modesto, dentro un'app, perfino su hardware industriale, senza chiamare nessun cloud. Licenza permissiva (MIT). Per automazioni leggere e riservate è perfetto.
6. Mistral Small 3.1 (Mistral): il VLM che sta su un laptop
I francesi di Mistral hanno una linea di modelli piccoli che fa quello che promette: gira su hardware consumer e non chiede un data center. Small 3.1 è un modello visione-linguaggio con contesto lungo, licenza Apache 2.0, nessun limite d'uso e nessuna royalty. È la via europea per chi vuole un modello capace ma sobrio, da tenere sotto controllo. Le iterazioni successive della famiglia spingono l'efficienza ancora più in là con poche teste di esperti attive per token.
7. GLM 5.2 (Z.ai): il re open del coding
L'ultimo arrivato pesante, da Z.ai (l'ex Zhipu cinese), uscito il 13 giugno. Mixture-of-experts da 744 miliardi di parametri, 40 attivi, contesto portato a 1 milione di token e licenza MIT. Il dato che ha fatto rumore è su SWE-bench Pro, dove segna 62,1 e supera GPT-5.5 (58,6), restando dietro solo a Claude Opus 4.8. Sono punteggi misurati sugli scaffold dei rispettivi vendor, quindi non un test unico al millimetro, ma la direzione è chiara: un modello aperto e gratuito da ospitare si siede tra i due chiusi di punta. Una cautela sull'uso via API ufficiale cinese: pone temi di dove finiscono i dati, motivo in più per scaricarlo e tenerlo in casa.
Altri 5 da tenere d'occhio
I sette qui sopra sono i nomi grossi. Ma il campo è più affollato, e alcuni di questi risolvono problemi specifici meglio dei generalisti.
- Kimi K2.6 (Moonshot): in cima all'indice neutrale di Artificial Analysis tra i modelli aperti. Forte sui compiti agentici, dove il modello deve pianificare ed eseguire più passi.
- MiniMax-M3 (MiniMax): pensato per spremere il contesto lungo a costi bassi, buon compromesso quando devi processare tanto testo senza spendere una fortuna.
- Command A (Cohere): il più orientato all'azienda, costruito per il RAG (rispondere sui tuoi documenti) e per il multilingua di lavoro. Occhio alla licenza, la versione aperta è per ricerca, l'uso commerciale passa da un accordo.
- Granite 4 (IBM): la scelta noiosa nel senso buono. Apache 2.0, taglie contenute, pensato per la governance e la tracciabilità che un'azienda regolata pretende.
- OLMo 2 (Allen Institute): l'unico completamente aperto, non solo i pesi ma anche i dati di addestramento e il codice. Per chi fa ricerca, audit o ha bisogno di sapere esattamente cosa c'è dentro, non ha rivali sulla trasparenza.
La mappa in una tabella
| Modello | Azienda | Punto di forza | Licenza | Contesto |
|---|---|---|---|---|
| Llama 4 Scout | Meta | Contesto da 10M, multimodale | Llama 4 Community | 10M token |
| DeepSeek V4 | DeepSeek | Coding alla pari dei chiusi | MIT | 1M token |
| Qwen3 | Alibaba | Multilingua, doppia marcia | Apache 2.0 | 256K |
| Gemma 4 | Il migliore in locale | Apache 2.0 | 128K-256K | |
| Phi 4 | Microsoft | Compatto, edge/on-device | MIT | 128K |
| Mistral Small 3.1 | Mistral | VLM su laptop consumer | Apache 2.0 | lungo |
| GLM 5.2 | Z.ai | Re open del coding | MIT | 1M token |
| Kimi K2.6 | Moonshot | Compiti agentici | MIT modificata | lungo |
| MiniMax-M3 | MiniMax | Contesto lungo a basso costo | aperta | lungo |
| Command A | Cohere | RAG e multilingua aziendale | ricerca / commerciale | 256K |
| Granite 4 | IBM | Governance enterprise | Apache 2.0 | medio |
| OLMo 2 | Allen Institute | Apertura totale (dati+codice) | Apache 2.0 | medio |
Come provarli in locale con Ollama
La parte bella è che non serve un dottorato per metterli in moto. Ollama è lo strumento che ha reso banale far girare un LLM sul proprio computer. Lo installi (macOS, Linux, Windows), scarichi un modello e lo usi. Due righe:
ollama pull gemma4
ollama run gemma4
Stessa logica per gli altri della famiglia "da laptop":
ollama run qwen3
ollama run phi4
ollama run mistral-small
Ollama espone anche un endpoint compatibile con le API di OpenAI su localhost:11434: vuol dire che il codice che hai già scritto per ChatGPT lo punti al tuo modello locale cambiando un indirizzo, senza riscrivere nulla.
Sui requisiti, regoliamoci. I modelli compatti, da Phi 4 a Gemma 4 nei tagli piccoli, girano su un portatile recente con 16-32 GB di RAM o una GPU con 12-24 GB di memoria. I mostri come DeepSeek V4 (ollama run deepseek-v4-pro, o la più snella deepseek-v4-flash) o GLM 5.2 (744B) vogliono un server o una versione quantizzata e ridotta, oppure li ospiti su un fornitore europeo. La regola pratica: parti da un modello medio e sali solo se la qualità non ti basta.
Perché tutto questo conta per l'AI Act
Qui sta il punto che interessa davvero un imprenditore. Quando un modello gira sul tuo hardware, i dati non lasciano la tua infrastruttura. Niente trasferimento a terzi, niente fornitore cloud che potrebbe loggare o riusare quello che gli mandi. Per il GDPR e per la sovranità del dato è la posizione più comoda che ci sia, e per molte aziende europee l'open in casa è la via più diretta verso un'AI di produzione difendibile.
Però non confondiamo due cose. Far girare l'AI in locale non ti rende automaticamente conforme all'AI Act. La privacy del dato è una parte. L'AI Act chiede anche governance, tracciabilità, log delle decisioni e documentazione del rischio, soprattutto per i sistemi classificati ad alto rischio. Sulle scadenze tieni gli occhi aperti: gli obblighi per l'alto rischio erano fissati ad agosto 2026, ma il pacchetto Digital Omnibus dell'UE ne propone il rinvio (le bozze parlano del 2027) e il quadro si sta ancora assestando. Un modello open ti dà il controllo tecnico per costruire tutto questo, non te lo regala già fatto. Se vuoi capire cosa cambia in concreto per la tua azienda, ne ho scritto in cosa cambia con l'AI Act per le imprese italiane.
Il quadro completo, se devi scegliere: confronta gli open con i chiusi guardando GPT, Claude e Gemini a confronto, valuta se ha senso interrogare più modelli insieme invece di sceglierne uno solo, e parti dagli usi che rendono prima, quelli che trovi nei migliori strumenti AI per le PMI. Se invece vuoi qualcuno che imposti l'infrastruttura e la conformità al posto tuo, è il lavoro che facciamo come esperti AI per PMI.
Il 2026 ha tolto un alibi. Non puoi più dire che l'AI seria costa troppo o che ti obbliga a spedire i dati fuori. I modelli ci sono, sono aperti, e girano dove decidi tu. Quello che resta è una scelta di metodo, e quella spetta a te.
Tag
Articolo scritto da
Consulente IT & AI per PMI italiane · Prato
Founder di Unicorn Digital. Consulente IT e AI per PMI italiane, basato a Prato. Scrive di intelligenza artificiale applicata alle imprese dal 2015.
Letture correlate

SpaceX compra Cursor per 60 miliardi: il vibe coding entra nella guerra AI
SpaceX acquisisce Cursor per 60 miliardi di dollari in azioni. Cosa significa davvero per chi sviluppa software in Italia e perché il vibe coding ora pesa.

OpenRouter Fusion: più modelli AI in parallelo, una risposta sola
OpenRouter Fusion manda la stessa domanda a più modelli AI insieme e un giudice li sintetizza: consensus, contraddizioni, costi reali e quando conviene davvero.

IPO di OpenAI e Anthropic: cosa cambia davvero (e perché Microsoft è nervosa)
OpenAI e Anthropic hanno depositato l'S-1 per la borsa a giugno 2026. Valutazioni, il precedente SpaceX, la tensione con Microsoft e cosa significa per chi usa l'AI in azienda.