logo-artificial-intelligence-consultant
Open menu

Infrastructuur

Inference

Inference is het uitvoeren van een getraind AI-model om voorspellingen of antwoorden te genereren op nieuwe input. Het is de productiefase van een model, waar latency, throughput en kosten cruciaal zijn voor enterprise-workloads op Azure OpenAI, AWS Bedrock of een private LLM stack.

Wat is Inference

Inference is de fase waarin een getraind AI-model daadwerkelijk wordt gebruikt om voorspellingen, antwoorden of inzichten te leveren op basis van nieuwe input. Voor enterprise-toepassingen is dit de fase waarin het bedrijfswaarde levert, en waarin operationele aspecten zoals latency, throughput, kosten en betrouwbaarheid centraal staan.

Hoe werkt inference

Bij inference wordt de gebruikersinput omgezet in tokens, door het model verwerkt en als output teruggegeven. De rekenkracht hangt af van de modelgrootte, het aantal tokens in de context window en de gekozen optimalisaties. Technieken als quantisatie, KV-caching, batching en speculative decoding kunnen de prestaties verveelvoudigen.

Hosted versus zelf gehost

Organisaties kunnen kiezen tussen managed inference via Azure OpenAI of AWS Bedrock, of zelf gehoste inference in een private LLM stack op eigen GPUs. De keuze hangt af van datasoevereiniteit, kosten, latency en compliance-vereisten zoals GDPR en NIS2.

Optimalisatie

Inference-kosten kunnen snel oplopen bij hoge volumes. Modeloptimalisatie via distillation, quantisatie of MoE-architecturen verlaagt kosten significant. Frameworks zoals vLLM, TensorRT-LLM en Triton Inference Server bieden enterprise-grade serving capaciteiten.

Monitoring en compliance

Voor productie-inference zijn observability, alerting en logging onmisbaar. Onder de EU AI Act moeten beslissingen reproduceerbaar en traceerbaar zijn, wat vereist dat input, output en modelversie systematisch worden vastgelegd.

Voorbeelden

Artificial Intelligence Consultant ontwerpt inference-architecturen die balanceren tussen GPT-4o, Claude 3.5 en open-source modellen zoals Llama 3 en Mistral Large. Door slimme routering tussen modellen wordt per query het optimum tussen kwaliteit, kosten en latency bereikt voor klanten in finance, telecom en industrie.

Synoniemen

  • modelaanroep
  • voorspelling
  • model serving

Voorbeelden

  • Real-time inference op GPT-4o via Azure
  • Batch inference met Llama 3 op GPU-cluster
  • Edge inference op gequantiseerde Mistral

Laatst bijgewerkt: 15 april 2026

Vraag of voorstel?

Mist u een term of wilt u feedback geven? Onze redactie reageert binnen één werkdag.

Neem contact op →