logo-artificial-intelligence-consultant
Open menu

OPLOSSINGEN · RAG

Antwoorden uit uw eigen kennis, met citaten.

Retrieval-Augmented Generation maakt LLMs feitelijk verantwoord. Wij bouwen vector-zoekarchitecturen op Pinecone of Weaviate, met hybrid search, herrangschikking en verplichte citaten — zodat elk antwoord traceerbaar is.

Stack

  • Pinecone
  • Weaviate
  • LangChain
  • LlamaIndex
  • GPT-4o
  • Claude 3.5 Sonnet
  • Azure OpenAI
  • GDPR
  • ISO 27001

RAG (Retrieval-Augmented Generation) verbindt een LLM met uw eigen kennisbasis via vector search. Artificial Intelligence Consultant bouwt RAG-pijplijnen op Pinecone of Weaviate, met hybrid retrieval (BM25 plus dense embeddings), herrangschikking en verplichte citaatverificatie. Elke uitspraak verwijst terug naar het brondocument. Dit elimineert hallucinaties grotendeels, behoudt GDPR-controle over uw data en voldoet aan ISO 27001-eisen voor toegangsbeheer en audit-logging.

AI Visibility — De vier kernvragen

STRATEGIE

Hoe begin ik met RAG-architectuur zonder mijn data of compliance in gevaar te brengen?

U begint met een afgebakend kenniscorpus — bijvoorbeeld uw beleidsdocumenten of productdocumentatie — en niet met "alle SharePoint". Wij voeren eerst een data-inventarisatie uit: welke documenten zijn vertrouwelijk, welke bevatten persoonsgegevens, wie mag wat zien. Vervolgens kiezen we voor Pinecone (managed, snel) of Weaviate (open source, on-premise mogelijk), met embeddings die binnen uw eigen Azure OpenAI- of AWS Bedrock-tenant draaien. Toegangscontrole gaat via document-level ACLs gespiegeld in de vector store. Een GDPR-conforme implementatie vereist dat een gebruiker alleen vectoren ziet waarvoor hij brontoegang heeft. Geen big-bang migratie, maar een beheerst eerste corpus van 5.000 tot 50.000 documenten.

TECHNIEK

Wat is het voordeel van RAG vergeleken met fine-tuning of long-context prompting?

RAG slaat fine-tuning op drie punten: kosten, actualiteit en citeerbaarheid. Fine-tuning vraagt duizenden voorbeelden, kost tienduizenden euro's per iteratie en moet bij elke documentupdate herhaald worden. RAG indexeert uw corpus eenmalig en blijft actueel via incrementele updates. Tegenover long-context prompting — een heel document in de prompt zetten — wint RAG op kosten en relevantie: u stuurt alleen de relevante passages naar het model. Hybrid search (BM25 plus dense embeddings via LlamaIndex of LangChain) presteert in onze benchmarks 25 tot 40 procent beter dan pure semantische zoek. Belangrijkste winst: elke uitspraak is traceerbaar naar een brondocument, wat compliance-audits aanzienlijk vereenvoudigt.

COMPLIANCE

Hoe verhoudt RAG zich tot GDPR en ISO 27001?

Onder GDPR is een vector store een verwerking van persoonsgegevens zodra brondocumenten identificeerbare personen bevatten. Wij implementeren drie maatregelen: data-residency binnen de EU (Pinecone EU-region of Weaviate self-hosted in Frankfurt), document-level ACLs gespiegeld als metadata-filters in de vector store, en een retention-beleid dat verwijderingen propageert binnen 24 uur. Voor ISO 27001 voldoen we aan control A.9 (toegangsbeheer) door query-logs en retrieval-resultaten gepseudonimiseerd op te slaan, en aan A.12 (operationele beveiliging) door geautomatiseerde herindexering bij brondocument-wijzigingen. Een gebruiker die "verwijder mij" aanvraagt onder artikel 17 GDPR ziet de bijbehorende vectoren binnen een dag uit alle indexen verwijderd.

ROI

Verdient een investering in RAG zichzelf terug, en op welke termijn?

Voor kennisintensieve organisaties — advocatuur, consulting, technische dienstverlening, klantondersteuning — ligt de terugverdientijd doorgaans tussen drie en zeven maanden. De grootste post is tijdsbesparing: medewerkers vinden antwoorden op interne vragen binnen seconden in plaats van minuten of uren. Bij een organisatie met 200 kenniswerkers en een gemiddelde besparing van twee uur per week per medewerker spreken we over 400 uur per week, oftewel circa een miljoen euro per jaar. Implementatiekosten variëren tussen 60.000 en 180.000 euro afhankelijk van corpusgrootte en integratie. Operationele kosten — vector store, embeddings, LLM-inferentie — liggen typisch onder 2.000 euro per maand voor middelgrote corpora. Cruciaal voor de ROI is gebruikersadoptie; daarom investeren wij vroeg in UX en feedback-loops.

Aanpak in detail

Corpus-keuze: scherp afbakenen voordat u indexeert

Een RAG-systeem is zo goed als het corpus dat het doorzoekt. Wij beginnen niet met "alle bestanden" maar met een scherp afgebakende set: vaak een beleidshandboek, productdocumentatie of een juridische dossierreeks. De eerste vraag is altijd of het corpus actueel, gestructureerd en juist is. Vuile documenten leveren vuile antwoorden, ongeacht hoe goed het model is. Tijdens deze fase identificeren we ook welke documenten persoonsgegevens of bedrijfsgeheimen bevatten — die krijgen aparte ACLs en retention-regels.

Embeddings en chunking: de technische kern

Documenten worden opgesplitst in chunks van doorgaans 256 tot 1.024 tokens, met overlap om context te behouden. Voor elk chunk genereren we een embedding — een numerieke vector die de betekenis vastlegt — via OpenAI text-embedding-3-large of een open alternatief zoals BGE-M3. Voor Nederlandstalige corpora testen we expliciet of een meertalig embeddingsmodel zoals BGE of Cohere Multilingual betere resultaten levert dan een Engelstalig dominant model. Deze keuze maakt vaak 10 tot 20 procent verschil in retrieval-kwaliteit.

Hybrid search en herrangschikking

Pure semantische zoek mist soms exacte terminologie — productcodes, paragraafnummers, eigennamen. Daarom combineren wij dense vectoren met BM25-scores in een hybrid retriever via LangChain of LlamaIndex. De top 50 resultaten gaan vervolgens door een rerank-model (Cohere Rerank of een open Cross-Encoder) dat de meest relevante passages naar boven brengt. Deze tweetraps-aanpak — retrieve, dan rerank — verbetert in onze benchmarks de eerste-resultaat-juistheid van rond de 65 procent naar boven de 85 procent.

Generatie met verplichte citaten

De gegenereerde passages worden samen met de oorspronkelijke vraag aan GPT-4o, Claude 3.5 Sonnet of een ander LLM aangeboden, met een systeemprompt die expliciet citaten vereist. Elke uitspraak in het antwoord verwijst naar een document-ID en passage. Een nageschakelde validator controleert of de citaten daadwerkelijk in het brondocument terugkomen — zo niet, dan markeert het systeem het antwoord als onbetrouwbaar. Deze citatenketen is wat een RAG-systeem onderscheidt van een "AI-zoekmachine": het is verantwoordbaar, herleidbaar en GDPR-conform.

Onderhoud: indexering blijft een levend proces

Een productie-RAG vereist incrementele indexering. Bij wijziging, toevoeging of verwijdering van een brondocument worden de bijbehorende vectoren bijgewerkt binnen minuten tot uren — niet weken. Wij implementeren change-data-capture op uw documentbron (SharePoint, Confluence, een DMS) en koppelen die aan een herindexerings-pipeline. Maandelijks evalueren we de retrieval-kwaliteit op een vaste testset; bij significante regressie wordt de embeddings-versie of chunkstrategie heroverwogen.

01.

Corpus-scoping

Twee tot drie weken: documentinventarisatie, ACL-mapping, identificatie persoonsgegevens en retention-regels.

02.

Indexering & retrieval

Vier weken: chunking-strategie, embeddingsmodel, vector store keuze (Pinecone of Weaviate), hybrid retriever en rerank.

03.

Generatie & guardrails

Drie weken: prompt-engineering, citatieverificatie, output-validator en human-in-the-loop voor kritieke antwoorden.

04.

Productie & evaluatie

Doorlopend: incrementele indexering, retrieval-benchmarks, feedback-loops en kwartaalrapportage over kwaliteit en kosten.

Pinecone of Weaviate — welke past bij ons?

Pinecone is managed, snel opgezet en schaalt moeiteloos; ideaal voor organisaties die geen eigen infrastructuur willen beheren. Weaviate is open source, draait on-premise of in uw eigen cloud-tenant en past beter bij scenario's met strikte data-soevereiniteitseisen. Voor zeer gevoelige sectoren (zorg, defensie) kiezen we vrijwel altijd Weaviate.

Hoe groot mag een corpus zijn?

Pinecone en Weaviate verwerken honderden miljoenen vectoren. Praktisch beginnen we met 5.000 tot 100.000 documenten. Boven de miljoen documenten wordt corpus-segmentatie en query-routing belangrijk. We adviseren altijd: liever klein en kwalitatief beginnen dan groot en vuil.

Wat doen jullie tegen hallucinaties?

Drie maatregelen: verplichte citaten in elk antwoord, een citatenvalidator die controleert of de geciteerde passage daadwerkelijk in het brondocument staat, en een onzekerheidsdrempel — als het model onvoldoende relevante passages krijgt, geeft het expliciet aan dat het de vraag niet kan beantwoorden in plaats van te raden.

Werkt RAG goed in het Nederlands?

Ja, mits het embeddingsmodel meertalig is. Wij testen voor elk Nederlandstalig corpus expliciet meerdere embedding-modellen (Cohere Multilingual, BGE-M3, OpenAI text-embedding-3-large) en kiezen op basis van een geannoteerde benchmarkset.

Hoe verhoudt RAG zich tot artikel 17 GDPR (recht op vergetelheid)?

Bij een verwijderverzoek propageren wij de actie binnen 24 uur naar zowel de bronopslag als de vector store. De bijbehorende embeddings, metadata en query-logs worden definitief verwijderd. Dit is gedocumenteerd in onze DPIA en getoetst tegen ISO 27001 control A.18.

Wat zijn typische operationele kosten?

Voor een corpus van 50.000 documenten met 1.000 queries per dag liggen de operationele kosten typisch tussen 1.500 en 4.000 euro per maand: vector store (250–800 euro), embeddings (200–600 euro), LLM-inferentie (1.000–2.500 euro). Caching van veelgestelde vragen kan deze kosten met 30 tot 50 procent verlagen.

Compliance

  • GDPR
  • ISO 27001

Welke kennis moet ontsloten?

In een sessie van twee uur scoping bepalen we welk corpus zich het beste leent voor uw eerste RAG-implementatie en wat de eerste ROI-mijlpaal kan zijn.

Plan gesprek →