Strumenti AI

Lo stack tecnico di un AI Agent: i 6 livelli che contano

Un AI Agent non è un chatbot con più memoria. In produzione servono 6 livelli tecnici distinti: dal loop Pensa-Agisci-Osserva al MCP, dallo state management ai guardrails. Guida tecnica pratica.

··9 min di lettura
Stack tecnico AI Agent: 6 livelli architetturali da LLM Core a Guardrails, diagramma paper editorial cream e blu
In breve. Un AI Agent in produzione ha 6 livelli tecnici che il classico stack chatbot/RAG non ha: LLM Core, loop Pensa-Agisci-Osserva, State Management, Tool Access (MCP), Memory Persistente, Guardrails e Orchestrazione. Capire la differenza tra questi livelli è la condizione necessaria per non trasformare un progetto pilota in un disastro operativo. Il loop ReAct (Reasoning + Acting) è l'unità atomica di tutto il resto.

C'è una domanda che si sente spesso nelle aziende che hanno già un chatbot aziendale funzionante: "ma un agente AI, alla fine, cos'è di diverso?"

La risposta breve è: quasi tutto.

Il chatbot riceve un input, recupera contesto (RAG), genera una risposta, finisce. Stateless, un ciclo, nessuna azione sul mondo esterno. L'agente riceve un obiettivo, pianifica una sequenza di passi, esegue azioni, valuta il risultato di ciascuna, decide cosa fare dopo, ripete. Il numero di cicli non è predeterminato.

Questo cambia lo stack tecnico in modo sostanziale.

< 1%
tasso di fallimento end-to-end richiesto per un agente usabile in produzione senza supervisione continua
70%
riduzione stimata dei costi API con semantic caching attivo su chiamate LLM ripetitive
6
livelli tecnici distinti necessari in uno stack agente production-grade
94%
dei responsabili engineering segnala gap di competenze sull'AI agentica nei propri team

Il loop che cambia tutto: Pensa-Agisci-Osserva

Prima di entrare nei 6 livelli vale la pena capire il meccanismo centrale.

Il pattern si chiama ReAct (Reasoning + Acting) ed è la struttura di ragionamento alla base della maggior parte degli agenti in produzione. Il modello riceve un obiettivo, pensa a quale azione intraprendere, agisce (chiama uno strumento, scrive su un database, esegue del codice), osserva il risultato, e ricomincia il ciclo con il nuovo contesto. Si ferma quando l'obiettivo è raggiunto o quando incontra un caso che non sa gestire.

Un RAG classico fa una sola iterazione: recupera, genera, restituisce. Un agente fa N iterazioni e ciascuna può modificare lo stato del mondo esterno.

Questa differenza non è astratta: ha conseguenze dirette su ogni livello dello stack.

I 6 livelli dello stack

Stack tecnico AI Agent: 6 livelli da LLM Core a Guardrails 6 — GUARDRAILS & ORCHESTRAZIONE MULTI-AGENTE policy layer, safety checks, coordinamento tra agenti, human-in-the-loop 5 — MEMORY PERSISTENTE working memory (sessione) + episodic memory (lungo termine) + retrieval semantico 4 — TOOL ACCESS (MCP) strumenti con schema strutturato, protocollo MCP, validazione input/output, retry logic 3 — STATE MANAGEMENT checkpoint persistenti, stato conversazione, ripresa dopo errore, audit trail 2 — LOOP PENSA-AGISCI-OSSERVA (ReAct) ragionamento → azione → osservazione → ripete. unità atomica dell'agente 1 — LLM CORE (GPT-4o, Claude, Gemini, modelli open)
Stack agente: ogni livello sopra dipende da quelli sotto. Rimuovere il livello 3 (state management) significa perdere la capacità di riprendere da un errore.

Livello 1: LLM Core

Il modello linguistico è la base, ma in uno stack agente il suo ruolo è più preciso che in un chatbot. Non genera semplicemente testo: decide quale strumento usare, con quali parametri, e valuta se il risultato ottenuto è sufficiente per procedere. Modelli diversi hanno capacità di function calling diverse, latenze diverse e costi per token diversi. La scelta del modello non è solo una decisione di qualità: è una decisione architetturale che impatta budget, latenza e affidabilità dell'intero sistema.

Livello 2: Loop Pensa-Agisci-Osserva

Il cuore dell'agente. Ogni iterazione del loop consiste in tre operazioni: il modello ragiona su cosa fare (pensiero, spesso interno e non visibile), esegue un'azione attraverso uno strumento, riceve un'osservazione (il risultato dell'azione) e decide se l'obiettivo è raggiunto o se serve un altro ciclo.

La variante alternativa al ReAct è il pattern Plan-and-Execute: l'agente pianifica tutti i passi upfront e li esegue in sequenza senza ragionare ad ogni step. Costi più prevedibili e latenza più bassa, ma molto meno adatto a ambienti dove il risultato di un passo cambia cosa si deve fare al passo successivo.

Livello 3: State Management

Questo è il livello che più spesso manca nei prototype e che più spesso causa il fallimento in produzione.

Un agente stateless non sa cosa ha fatto. Se il sistema si interrompe a metà di un processo a 12 step, ricomincia da capo. Se due agenti paralleli accedono allo stesso dato, possono andare in conflitto. Lo state management risolve questi problemi: checkpoint persistenti che permettono la ripresa dopo un errore, isolamento delle sessioni, audit trail completo di ogni decisione presa.

Framework come LangGraph implementano state management tramite grafi ciclici con checkpoint. Il dato pratico è semplice: ogni agente che fa più di tre azioni in sequenza ha bisogno di state management esplicito.

Livello 4: Tool Access e protocollo MCP

Gli strumenti sono quello che rende un agente utile. Senza accesso a strumenti, l'agente può solo ragionare a parole: non può cercare su web, non può leggere un database, non può inviare una mail, non può eseguire codice.

Il protocollo MCP (Model Context Protocol, introdotto da Anthropic) ha standardizzato come i modelli si connettono agli strumenti. Prima di MCP ogni integrazione era custom. Con MCP gli strumenti espongono un'interfaccia standard che qualsiasi modello compatibile può usare. L'adozione è rapida: Microsoft, Google e i principali framework lo supportano già.

Una regola di ingegneria che vale la pena ricordare: è molto più sicuro esporre cinque strumenti specifici che uno strumento generico con accesso ampio. Ogni strumento deve avere schema strutturato, validazione dell'input e gestione degli errori. Un tool che fallisce silenziosamente è peggio di uno che non esiste.

Livello 5: Memory Persistente

Un chatbot non ricorda nulla tra sessioni. Un agente aziendale utile deve sapere che due settimane fa ha già elaborato quella fattura, o che quel cliente ha specificato una preferenza il mese scorso.

La memoria in uno stack agente ha due livelli: working memory (contesto della sessione corrente, veloce, non persistente) e episodic memory (dati che sopravvivono alla sessione, recuperabili con ricerca semantica). I sistemi più avanzati aggiungono anche memory a lungo termine con policy di retention: dopo 90 giorni certi dati si comprimono o si eliminano per ragioni di privacy e costo.

La ricerca semantica sulla memoria di lungo termine usa gli stessi embedding e database vettoriali del RAG, ma con un contesto diverso: non si recuperano documenti aziendali, si recuperano interazioni passate dell'agente.

Livello 6: Guardrails e Orchestrazione multi-agente

Il livello che separa il prototipo dalla produzione.

I guardrails sono i controlli che l'agente deve rispettare: autorizzazione per le azioni ad alto impatto (non puoi cancellare un ordine senza conferma umana), prevenzione delle prompt injection (un documento malevolo non deve dirottare il comportamento dell'agente), conformità GDPR (l'agente non deve estrarre dati che non dovrebbe vedere).

L'orchestrazione multi-agente entra in gioco quando un singolo agente non basta. Il pattern più comune è Orchestratore-Worker: un agente centrale riceve l'obiettivo, lo decompone in sotto-task e li assegna ad agenti specializzati che lavorano in parallelo. Riduce i tempi di esecuzione e isola i fallimenti, ma aggiunge complessità di coordinamento.

La tabella che chiarisce la differenza

Aspetto RAG classico AI Agent
Cicli di esecuzione 1 (fisso) N (variabile)
Stato Nessuno (stateless) Persistente tra step
Azioni sul mondo No Sì (tool execution)
Memoria cross-sessione No Sì (episodic memory)
Supervisione richiesta Bassa Alta (fino al <1% failure rate)
Costo imprevedibile No Sì (numero cicli variabile)
Il problema del < 1%. In produzione, un agente che fallisce il 5% delle volte è inutilizzabile: su un processo da 20 azioni consecutive, la probabilità di completare tutto senza errori scende sotto il 36%. Il target realistico per un deployment senza supervisione continua è un tasso di fallimento end-to-end inferiore all'1%. Questo richiede error handling esplicito, retry logic, fallback su ogni strumento, e human-in-the-loop per le operazioni ad alto rischio.

Cosa significa in pratica per un'azienda

Costruire un agente che funziona in demo è relativamente semplice. Portarlo in produzione su processi aziendali reali è un lavoro di ingegneria che richiede tutti e 6 i livelli.

Il principale motivo per cui i progetti agente si bloccano tra pilot e produzione non è il modello linguistico: è l'autenticazione (gestire le credenziali di decine di sistemi interni per migliaia di utenti), l'integrazione con legacy (Oracle, SAP, sistemi con API datate), e la mancanza di observability (non sapere perché un agente ha preso una certa decisione).

Costruire l'autenticazione e il logging dal giorno uno, non come afterthought, è la singola decisione che più spesso divide i progetti che scalano da quelli che restano piloti.

Per chi sta valutando l'introduzione di agenti AI in azienda, abbiamo analizzato il mercato degli strumenti pratici in migliori strumenti AI per le PMI italiane. Sul percorso per costruire competenze interne su questi stack, la guida è in come diventare l'esperto AI della tua azienda.

Tag

AI Agentarchitettura AIMCPLLMstate managementguardrailsAI in produzione

Articolo scritto da

Ritratto di Gabriele Pecchioli
Gabriele Pecchioli

Consulente IT & AI per PMI italiane · Prato

Founder di Unicorn Digital. Consulente IT e AI per PMI italiane, basato a Prato. Scrive di intelligenza artificiale applicata alle imprese dal 2015.

Letture correlate

Indice · 4 sezioni