Un token è l'unità elementare con cui i modelli LLM leggono e generano testo. Non corrisponde esattamente a una parola: circa 1 token equivale a 0.75 parole in italiano. I token determinano i limiti della context window (memoria della conversazione) e sono la base su cui vengono calcolate le prestazioni dei modelli AI.
Cos'è un Token?
I modelli di linguaggio non processano testo lettera per lettera né parola per parola: usano "token", unità di testo che corrispondono approssimativamente a sillabe, parole o parti di parole. Il processo di divisione del testo in token si chiama tokenizzazione e viene effettuato da un algoritmo specifico (tokenizer) prima che il testo venga passato al modello.
La tokenizzazione più comune nei modelli moderni usa l'algoritmo BPE (Byte Pair Encoding) che costruisce il vocabolario dei token in modo automatico partendo dai dati di training. Il risultato è un vocabolario di circa 50.000-100.000 token che copre tutte le parole e parti di parole più frequenti nella lingua.
Capire i token è essenziale per chiunque lavori con chatbot AI: determina quanto è lunga la memoria della conversazione, influenza la velocità delle risposte e, nel caso delle API, determina il volume di dati processato.
Come Funziona la Tokenizzazione
Esempi Pratici di Token in Italiano
Parole Comuni (1 token)
"ciao" → [ciao] = 1 token
"il" → [il] = 1 token
"casa" → [casa] = 1 token
"?" → [?] = 1 token
Parole Complesse (2+ token)
"appuntamento" → [appunt][amento] = 2
"internazionale" → [intern][azion][ale] = 3
"2024" → [20][24] = 2 token
"e-commerce" → [e][-][commerce] = 3
Nota: la tokenizzazione esatta dipende dal tokenizer specifico del modello (GPT-4 usa cl100k_base).
Riferimenti Pratici di Conversione
1K
token
≈ 700 parole
≈ 1 pagina A4
4K
token
≈ 2.800 parole
≈ 4 pagine A4
32K
token
≈ 22.000 parole
≈ un libro breve
200K
token
≈ 140.000 parole
≈ un romanzo
Context Window: La Memoria del Chatbot
Cos'è la Context Window
La context window è il numero massimo di token che un LLM può considerare simultaneamente. Comprende tutto: il system prompt, la storia della conversazione e il messaggio corrente dell'utente. Quando si supera questo limite, i messaggi più vecchi vengono rimossi o compressi.
Come Viene Usata la Context Window nel Chatbot
Ottimizzare l'Uso dei Token
Strategie di Gestione dei Token in V Support
- Caching delle risposte: domande frequenti vengono memorizzate in cache, evitando di processare nuovamente tutti i token per risposte identiche
- Compressione del contesto RAG: solo i paragrafi rilevanti dei documenti vengono inclusi, non i documenti interi (risparmio 60% token)
- Gestione della storia conversazionale: la conversazione viene ottimizzata mantenendo i messaggi più recenti e riassumendo quelli più vecchi
- Selezione del modello: domande semplici usano GPT-4o-mini (più veloce, meno token), domande complesse usano GPT-4o per massima accuratezza
Cosa Succede Quando Si Supera il Limite
Se la conversazione supera la context window disponibile, il sistema deve gestire il problema. Le strategie comuni sono:
- Truncation: rimozione dei messaggi più vecchi (rischio: perdita contesto)
- Summarization: riassunto automatico della conversazione passata tramite LLM
- Sliding window: finestra mobile che mantiene sempre gli ultimi N token
Per conversazioni di customer support standard (5-20 messaggi), questo problema non si presenta con i modelli moderni che hanno context window di 128K token.
Domande Frequenti
Cos'è un token?
Un token è l'unità base con cui un LLM processa il testo. Non corrisponde esattamente a una parola: in italiano circa 1 parola equivale a 1.3-1.5 token. Il modello legge e genera testo token per token, non parola per parola.
Quanti token ha una parola?
In italiano, in media 1 parola = circa 1.3-1.5 token. Parole brevi come "il", "di", "un" sono 1 token. Parole lunghe come "internazionalizzazione" possono essere 4-5 token. Come regola pratica: 1000 token ≈ 700 parole in italiano.
Perché i token sono importanti per i chatbot?
I token determinano i limiti della context window (quanta conversazione il chatbot può "ricordare") e influenzano i tempi di risposta. Ottimizzare l'uso dei token significa conversazioni più fluide e chatbot più efficienti anche su thread molto lunghi.
Termini Correlati
Implementa Token nella Tua Azienda
Scopri come V Support può aiutarti a sfruttare l'AI per il tuo customer service. Demo gratuita di 30 minuti.