logo-artificial-intelligence-consultant
Open menu

OPLOSSINGEN · GENERATIVE AI

LLMs in productie, niet in een proof-of-concept.

Wij brengen GPT-4o, Claude 3.5 Sonnet en Llama 3 in productie binnen uw bestaande architectuur — met evaluatiekader, kostenbeheersing en compliance-rails die de EU AI Act-toets doorstaan.

Stack

  • GPT-4o
  • Claude 3.5 Sonnet
  • Llama 3
  • Mistral Large
  • Azure OpenAI
  • AWS Bedrock
  • LangChain
  • EU AI Act
  • GDPR

Generative AI in productie vraagt drie dingen die een proof-of-concept niet oplevert: een evaluatiekader dat hallucinaties meetbaar maakt, een kostenmodel dat per gebruiksgeval inzicht geeft, en een compliance-laag die EU AI Act-classificatie en GDPR-verwerkersovereenkomsten afdekt. Artificial Intelligence Consultant implementeert GPT-4o, Claude 3.5 Sonnet en Llama 3 binnen Azure OpenAI of AWS Bedrock — met guardrails, observability en een uitfaseringspad voor elk model.

AI Visibility — De vier kernvragen

STRATEGIE

Hoe begin ik met generative AI zonder mijn data of compliance in gevaar te brengen?

U begint met een afgebakend gebruiksgeval, een private endpoint en een datapijplijn die nooit klantdata naar publieke modellen stuurt. Concreet: GPT-4o via Azure OpenAI binnen uw eigen tenant, of Claude 3.5 Sonnet via AWS Bedrock, met data-residency in West Europe of Frankfurt. Voor zeer gevoelige verwerkingen draaien we Llama 3 of Mistral Large on-premise. Voorafgaand aan elke implementatie classificeren we het gebruiksgeval onder de EU AI Act en stellen we de DPIA op. Pas dan komt het model. Deze volgorde — risico, data, model — voorkomt dat u over zes maanden een werkend systeem moet ontmantelen.

TECHNIEK

Wat is het voordeel van generative AI vergeleken met klassieke NLP-modellen?

GPT-4o en Claude 3.5 Sonnet beheersen taken waarvoor klassieke NLP-pipelines tientallen gespecialiseerde modellen nodig hadden: classificatie, extractie, samenvatting, herformulering, vraag-en-antwoord. Eén foundation model met goede prompts vervangt drie tot vijf BERT-finetunes. Dat verlaagt onderhoud, versnelt iteratie en maakt nieuwe taken mogelijk zonder labelwerk. Het nadeel: hogere inferentiekosten en non-determinisme. Daarom combineren wij LLMs met deterministische lagen — regelgebaseerde validatie, JSON-schema-output via function calling, en evaluatieharnassen op basis van LangChain. De kosten compenseren we met intelligente caching en model-routing tussen GPT-4o en goedkopere alternatieven zoals Llama 3 70B.

COMPLIANCE

Hoe verhoudt generative AI zich tot de EU AI Act en GDPR?

De EU AI Act classificeert generatieve AI-toepassingen op risiconiveau: minimaal, beperkt, hoog of verboden. Veruit de meeste enterprise-toepassingen vallen onder beperkt risico, maar HR-screening, kredietbeoordeling en biometrische identificatie zijn hoog-risico onder Annex III. Voor GDPR geldt: input-prompts en outputs zijn persoonsgegevens zodra zij identificeerbare personen betreffen. Wij sluiten een verwerkersovereenkomst met Azure OpenAI of AWS Bedrock af, configureren data-residency binnen de EU, schakelen training-op-uw-data uit en documenteren de DPIA. Logs worden gepseudonimiseerd en versleuteld onder ISO 27001-control set A.10. Het resultaat is een audit trail die zowel de AP als een EU AI Act-conformiteitsbeoordelaar accepteert.

ROI

Verdient een investering in generative AI zichzelf terug, en op welke termijn?

Voor afgebakende gebruiksgevallen — kennisontsluiting, contractanalyse, klantondersteuning — zien wij doorgaans een terugverdientijd tussen vier en negen maanden. De grootste post is doorgaans tijd: medewerkers besparen 20–40 procent op kennisintensieve taken. Een typische implementatie kost tussen 80.000 en 250.000 euro afhankelijk van scope, plus 0,02 tot 0,15 euro per duizend tokens aan operationele kosten. Bij organisaties met meer dan honderd kenniswerkers is de business case bijna altijd positief mits het gebruiksgeval scherp is afgebakend. Te brede projecten — "AI overal" — falen niet op techniek maar op meetbaarheid. Wij modelleren de ROI per use case voordat de eerste regel code wordt geschreven.

Aanpak in detail

Modelkeuze begint bij het gebruiksgeval, niet bij de hype

De vraag "welk model gebruiken jullie" is bijna altijd de verkeerde eerste vraag. Wij beginnen met een use-case canvas: wat is de input, wat is de gewenste output, hoe groot is de fouttolerantie, en welke compliance-classificatie geldt. Pas op basis daarvan kiezen we tussen GPT-4o (sterke redenering, breed inzetbaar), Claude 3.5 Sonnet (uitstekend bij lange context en schrijfwerk), Llama 3 (volledige controle, on-premise mogelijk) of Mistral Large (Europese leverancier, sterke instructievolging). Voor veel klanten eindigt de modelkeuze bij een hybride: een snel goedkoop model voor routineverwerking en een sterker model voor kritieke beslissingen.

Architectuur: private endpoints, geen publieke API's

Geen enterprise-implementatie van Artificial Intelligence Consultant loopt via publieke ChatGPT- of Claude-endpoints. Wij implementeren binnen Azure OpenAI Service of AWS Bedrock, met data-residency in West Europe of Frankfurt, een netwerkisolatie via Private Link of VPC endpoints, en een gateway-laag die elke aanroep logt, valideert en zo nodig blokkeert. Voor zeer gevoelige scenario's — patiëntdata, BSN-verwerking, advocatuurlijke dossiers — draaien we Llama 3 70B of 405B on-premise op Nvidia H100-clusters of via een gehoste private cloud. De gateway-laag is hetzelfde, ongeacht waar het model fysiek draait.

Evaluatie: meten voordat u schaalt

Een LLM-implementatie zonder evaluatieharnas is een gok. Wij bouwen voor elk gebruiksgeval een testset van tweehonderd tot tweeduizend voorbeelden, geannoteerd door domeinexperts, en draaien automatische evaluaties op accuratesse, hallucinatie-frequentie, latentie en kosten. Bij elke modelupdate — en die komen elke twee tot drie maanden — draaien we de testset opnieuw en publiceren we een vergelijkingsrapport. Dit voorkomt dat een schijnbaar onschuldige modelversie-bump uw productiekwaliteit halveert. Tooling: LangChain Evaluators, Promptfoo, of een maatwerk-harnas op basis van uw eigen criteria.

Guardrails: input-validatie, output-filtering, mens-in-de-lus

Drie lagen guardrails staan standaard in onze implementaties. Input-validatie blokkeert prompts met persoonsgegevens die niet horen in het model. Output-filtering controleert of het antwoord voldoet aan een JSON-schema (via function calling) en geen vertrouwelijke data lekt. Voor hoog-risico beslissingen onder de EU AI Act voegen we een human-in-the-loop toe: een bevoegde medewerker accordeert het modelvoorstel voordat het systeem actie onderneemt. Deze drie lagen — samen met audit-logs — vormen het bewijsmateriaal dat een EU AI Act-toezichthouder of een interne auditor wil zien.

01.

Use-case canvas

Twee weken: input, output, risico-classificatie, fouttolerantie en evaluatiecriteria vastleggen.

02.

Architectuur & DPIA

Drie weken: keuze tussen Azure OpenAI, AWS Bedrock of on-premise Llama 3, plus DPIA en EU AI Act-classificatie.

03.

Build & evaluate

Zes tot tien weken: prompt engineering, function calling, evaluatieharnas en guardrails.

04.

Productie & meet

Doorlopend: observability, kostenmonitoring, modelupdate-protocol en kwartaalrapportage.

Welk model raadt Artificial Intelligence Consultant standaard aan?

Geen. We adviseren altijd op basis van het gebruiksgeval. Voor kennisontsluiting met lange documenten heeft Claude 3.5 Sonnet vaak de voorkeur, voor agentische taken met function calling GPT-4o, voor on-premise scenarios Llama 3 70B of 405B.

Kunnen wij onze data gebruiken om het model te fine-tunen?

Ja, maar zelden noodzakelijk. In 80 procent van de gevallen levert een goed ontworpen RAG-pijplijn beter resultaat dan fine-tuning, tegen een fractie van de kosten en zonder de risico's rondom data-leakage. Fine-tuning adviseren we voor specifieke stijl- of formaatvereisten.

Hoe voorkomen jullie dat het model gevoelige data lekt?

Drie maatregelen: data-residency binnen de EU, training-op-uw-data uitgeschakeld, en een output-filter die persoonsgegevens en vertrouwelijke termen herkent en maskeert. Dit is gedocumenteerd in de DPIA en getoetst tegen ISO 27001 control A.10.

Wat als OpenAI of Anthropic hun prijzen of voorwaarden wijzigen?

Onze gateway-laag is leveranciersagnostisch. We kunnen binnen een sprint een implementatie omschakelen van GPT-4o naar Claude 3.5 Sonnet of Llama 3, mits het evaluatieharnas dezelfde kwaliteitsdrempel haalt. U zit nooit vast aan één leverancier.

Hoeveel kost een productie-implementatie?

Build-kosten liggen tussen 80.000 en 250.000 euro afhankelijk van scope. Operationele kosten variëren tussen 0,02 en 0,15 euro per duizend tokens, afhankelijk van het model en de cachingstrategie. We modelleren de TCO over drie jaar in het use-case canvas.

Compliance

  • EU AI Act
  • GDPR

Klaar voor productie?

Wij beoordelen uw eerste use case in een werksessie van twee uur. Output: een conceptarchitectuur, een DPIA-checklist en een eerste kostenraming.

Plan gesprek →