Compliance & Governance
Data Lineage
Data lineage is het traceren van de oorsprong, bewerkingen en stromen van data door een organisatie heen. Voor AI-systemen is data lineage essentieel om te kunnen aantonen welke data is gebruikt voor training, fine-tuning of inference, een kernvereiste onder GDPR en de EU AI Act.
Wat is Data Lineage
Data lineage is het systematisch volgen van data door alle fasen van zijn levenscyclus: van bron, via transformaties en opslag, tot uiteindelijk gebruik in rapportages, modellen of beslissingen. Voor AI-systemen omvat dit ook welke data in pre-training, fine-tuning, embedding of inference is gebruikt.
Waarom belangrijk
Zonder data lineage kan een organisatie niet aantonen op welke data een AI-beslissing is gebaseerd. Dat maakt naleving van GDPR (recht op inzage, rectificatie en verwijdering), EU AI Act (kwaliteit en herkomst van trainingsdata) en NIS2 (incidentanalyse) onmogelijk. Lineage is daarmee een fundament voor data-governance.
Componenten van data lineage
Volledige lineage omvat technische metadata (welke pipeline, welke transformatie, welk model) en bedrijfsmetadata (welk doel, welke eigenaar, welke gevoeligheidsclassificatie). Tools zoals Apache Atlas, OpenLineage en Microsoft Purview ondersteunen dit, vaak geïntegreerd in MLOps-pipelines.
Lineage in LLM-context
Voor RAG-systemen betekent lineage dat elk antwoord traceerbaar is naar de specifieke documenten in de vector database (zoals Pinecone of Weaviate) die de context vormden. Voor fine-tuning gaat het om de exacte trainingsset, parameters en versie van het foundation model.
Compliance en audit
Bij audits onder de EU AI Act, NIS2 of ISO 27001 wordt expliciet om data lineage gevraagd. Een goed lineage-systeem vermindert audit-kosten enorm omdat bewijsvoering geautomatiseerd beschikbaar is. Daarnaast versnelt het incident response wanneer een datalek of modelfout onderzocht moet worden.
Voorbeelden
Artificial Intelligence Consultant implementeert lineage-frameworks die naadloos integreren met Azure OpenAI, AWS Bedrock en private LLM stacks. Bij een Nederlandse bank werd zo elk modeladvies traceerbaar tot bronsystemen, transformaties en gebruikt LLM, wat zowel toezicht als doorlopende verbetering ondersteunt.
Synoniemen
- dataherkomst
- data provenance
- datatraceerbaarheid
Voorbeelden
- Volgen van trainingsdata in een fine-tuning project
- Traceren van bronnen in een RAG-pipeline
- Data lineage in MLOps voor compliance
Laatst bijgewerkt: 15 april 2026