RAG (Retrieval-Augmented Generation)
Tecnica in cui un LLM recupera frammenti rilevanti da un corpus di documenti al momento della query, per poi generare una risposta contestualizzata.
Descrizione
In un sistema RAG classico (NotebookLM, ChatGPT file uploads, la maggior parte dei sistemi enterprise), il flusso è:
- I documenti vengono indicizzati (spesso come embedding vettoriali)
- Ad ogni query, i frammenti più simili vengono recuperati
- L'LLM usa quei frammenti come contesto per generare la risposta
Il vantaggio è la semplicità di setup e la capacità di gestire grandi volumi di documenti. Lo svantaggio è che non c'è accumulo: l'LLM ri-deriva la conoscenza da zero ad ogni query. Domande che richiedono sintesi di cinque documenti obbligano l'LLM a trovare e ricomporre i frammenti ogni volta.
Contrasto con LLM Wiki
| RAG | LLM Wiki | |
|---|---|---|
| Conoscenza | Ri-derivata ad ogni query | Compilata una volta, aggiornata |
| Cross-reference | Costruiti al momento | Già presenti nel wiki |
| Sintesi | Ogni volta da zero | Già riflessa nelle pagine |
| Manutenzione | Automatica (re-index) | LLM aggiorna attivamente |
| Scala | Ottima per grandi corpus | Ottima a scala moderata |
Relazioni
- LLM Wiki — il pattern alternativo/complementare