RAG (Retrieval-Augmented Generation)

Tecnica in cui un LLM recupera frammenti rilevanti da un corpus di documenti al momento della query, per poi generare una risposta contestualizzata.

Descrizione

In un sistema RAG classico (NotebookLM, ChatGPT file uploads, la maggior parte dei sistemi enterprise), il flusso è:

  1. I documenti vengono indicizzati (spesso come embedding vettoriali)
  2. Ad ogni query, i frammenti più simili vengono recuperati
  3. L'LLM usa quei frammenti come contesto per generare la risposta

Il vantaggio è la semplicità di setup e la capacità di gestire grandi volumi di documenti. Lo svantaggio è che non c'è accumulo: l'LLM ri-deriva la conoscenza da zero ad ogni query. Domande che richiedono sintesi di cinque documenti obbligano l'LLM a trovare e ricomporre i frammenti ogni volta.

Contrasto con LLM Wiki

RAG LLM Wiki
Conoscenza Ri-derivata ad ogni query Compilata una volta, aggiornata
Cross-reference Costruiti al momento Già presenti nel wiki
Sintesi Ogni volta da zero Già riflessa nelle pagine
Manutenzione Automatica (re-index) LLM aggiorna attivamente
Scala Ottima per grandi corpus Ottima a scala moderata

Relazioni

  • LLM Wiki — il pattern alternativo/complementare

Fonti