RAG (Retrieval-Augmented Generation)

Tecnica in cui un LLM recupera frammenti rilevanti da un corpus di documenti al momento della query, per poi generare una risposta contestualizzata.

Descrizione

In un sistema RAG classico (NotebookLM, ChatGPT file uploads, la maggior parte dei sistemi enterprise), il flusso è:

I documenti vengono indicizzati (spesso come embedding vettoriali)
Ad ogni query, i frammenti più simili vengono recuperati
L'LLM usa quei frammenti come contesto per generare la risposta

Il vantaggio è la semplicità di setup e la capacità di gestire grandi volumi di documenti. Lo svantaggio è che non c'è accumulo: l'LLM ri-deriva la conoscenza da zero ad ogni query. Domande che richiedono sintesi di cinque documenti obbligano l'LLM a trovare e ricomporre i frammenti ogni volta.

Contrasto con LLM Wiki

	RAG	LLM Wiki
Conoscenza	Ri-derivata ad ogni query	Compilata una volta, aggiornata
Cross-reference	Costruiti al momento	Già presenti nel wiki
Sintesi	Ogni volta da zero	Già riflessa nelle pagine
Manutenzione	Automatica (re-index)	LLM aggiorna attivamente
Scala	Ottima per grandi corpus	Ottima a scala moderata

Relazioni

LLM Wiki — il pattern alternativo/complementare

Fonti

LLM Wiki Pattern

Keys	Action
`?`	Open this help
`n`	Next page
`p`	Previous page
`s`	Search