Retrieval-Augmented Generation — AI-en henter informasjon fra en database før den svarer, i stedet for å bruke kun treningsdataene.
Retrieval-Augmented Generation (RAG) er en teknikk der en språkmodell først henter relevante dokumenter fra en ekstern database, og deretter bruker disse som kontekst når den genererer et svar. I stedet for å svare utelukkende fra treningsdataene, kan modellen referere til oppdatert og spesifikk informasjon.
RAG kombinerer to steg: henting (retrieval) og generering (generation). Først konverteres brukerens spørsmål til en vektor som sammenlignes med dokumentvektorer i en database. De mest relevante dokumentene hentes og legges inn i prompten. Modellen genererer deretter et svar basert på denne konteksten. Populære vektordatabaser inkluderer Pinecone, Weaviate og pgvector i PostgreSQL.
RAG har blitt standardarkitekturen for bedrifts-AI. Det løser hallusineringsproblemet ved å gi modellen faktiske dokumenter å referere til, og det slipper behovet for kostbar fine-tuning. Med kontekstvinduer som nå når 1 million tokens, kan RAG-systemer prosessere hele kodebaser eller dokumentsamlinger i én forespørsel.