Kan een RAG-systeem de AVG-risico’s van uw bedrijfs-AI verminderen?

Generatieve AI zoals ChatGPT is niet meer weg te denken, maar voor veel bedrijven blijft de vraag knagen: hoe gebruiken we deze krachtige technologie zonder de strenge regels van de Algemene Verordening Gegevensbescherming (AVG) te schenden? Het antwoord ligt mogelijk in een techniek genaamd Retrieval-Augmented Generation (RAG). Deze methode kan, mits correct geïmplementeerd, cruciale risico’s aanzienlijk verminderen en de deur openen naar een rechtsgeldig gebruik van AI met uw eigen bedrijfsgegevens.

De inherente AVG-problemen van standaard AI-modellen

Grote taalmodellen (LLMs) vormen de motor van veel populaire AI-tools. Hun kracht is tegelijk hun grootste zwakte vanuit een juridisch perspectief. Deze modellen worden getraind op immense datasets, vaak verzameld via ‘web scraping’, waarbij persoonlijke en soms zelfs gevoelige gegevens worden opgenomen. Dit leidt tot een aantal fundamentele problemen voor elke organisatie die ze wil inzetten:

  • Hallucinaties en onnauwkeurigheid: LLMs kunnen feitelijk onjuiste informatie genereren, de zogenaamde ‘hallucinaties’. Wanneer dit gebeurt met persoonsgegevens, leidt dit tot een schending van het AVG-principe van nauwkeurigheid.
  • Gebrek aan actualiteit: De kennis van een LLM is bevroren in de tijd; ze stopt op het moment dat de training is afgerond. Vragen over recente gebeurtenissen leiden onvermijdelijk tot foute of verouderde antwoorden.
  • Beperkte controle: De trainingsdata maken integraal deel uit van het model. Het is daardoor uiterst complex, zo niet onmogelijk, om specifieke persoonsgegevens te corrigeren of te wissen, wat de uitoefening van de rechten van betrokkenen (zoals het recht op rectificatie en wissing) belemmert.
  • Gebrek aan transparantie: De werking van een LLM is een ‘black box’. Het is nagenoeg onmogelijk om te achterhalen waarom een model een bepaald antwoord geeft.

Een AI-model dat onrechtmatig is getraind, blijft onrechtmatig, ook als u het voor legitieme doeleinden probeert in te zetten. De vraag is dus hoe u de voordelen van generatieve AI kunt benutten zonder de AVG te overtreden.

Wat is Retrieval-Augmented Generation (RAG) en hoe werkt het?

Retrieval-Augmented Generation is een technische methode die een standaard LLM combineert met een externe, gecontroleerde kennisdatabase. In plaats van enkel te vertrouwen op zijn vooraf getrainde kennis, krijgt het AI-systeem toegang tot een specifieke, door u geselecteerde informatiebron (bv. uw interne bedrijfsdocumenten, producthandleidingen of juridische archieven).

Het proces verloopt, eenvoudig uitgelegd, als volgt:

  1. Voorbereiding (Indexing): Uw documenten worden opgedeeld in logische stukken (‘chunks’) en omgezet in een numerieke weergave (’embeddings’). Deze worden opgeslagen in een speciale vector-database.
  2. Zoekopdracht (Retrieval): Wanneer een gebruiker een vraag stelt, wordt die vraag ook omgezet in een vector. Het systeem zoekt in de vector-database naar de ‘chunks’ met de grootste semantische gelijkenis.
  3. Verrijking (Augmentation): De relevante gevonden informatiechunks worden aan de oorspronkelijke vraag van de gebruiker toegevoegd.
  4. Generatie (Generation): Deze verrijkte, uitgebreide vraag wordt naar het LLM gestuurd. Het LLM krijgt de instructie om het antwoord primair te baseren op de meegeleverde informatie, en zijn eigen ‘kennis’ enkel te gebruiken voor de taalkundige formulering.

Het LLM wordt dus voornamelijk gebruikt voor zijn taalvaardigheid, terwijl de feitelijke kennis uit uw eigen, gecontroleerde bronnen komt.

De voordelen: hoe kan RAG de AVG naleving verbeteren?

De RAG-methode biedt concrete oplossingen voor enkele van de grootste AVG-pijnpunten. De Duitse conferentie van privacytoezichthouders (DSK) erkent in haar recente richtlijnen dat RAG positieve effecten kan hebben op de naleving van de AVG.

Verbeterde juistheid en minder hallucinaties

Omdat de antwoorden gebaseerd zijn op specifieke, actuele referentiedocumenten, wordt het risico op het genereren van onjuiste persoonsgegevens drastisch verlaagd. Als informatie in uw brondocumenten verouderd of incorrect is, kunt u deze eenvoudig aanpassen, waarna het AI-systeem onmiddellijk over de juiste data beschikt. Dit helpt te voldoen aan het principe van juistheid (Art. 5(1)(d) AVG).

Meer transparantie en controle

Hoewel de interne werking van het LLM een zwarte doos blijft, maakt RAG de input van het model transparant. Het is mogelijk om te documenteren welke specifieke bronnen of ‘chunks’ zijn gebruikt om een antwoord te genereren. Dit verhoogt de controleerbaarheid en de mogelijkheid om verantwoording af te leggen.

Betere waarborging van integriteit en vertrouwelijkheid

Met RAG is het mogelijk om te werken met kleinere, minder complexe taalmodellen die lokaal (‘on-premise’) draaien. Hierdoor hoeven persoonsgegevens uw eigen IT-infrastructuur niet te verlaten en worden ze niet gedeeld met externe AI-leveranciers. Bovendien kunnen op de databank met referentiedocumenten klassieke beveiligingsmaatregelen worden toegepast, zoals toegangscontrole via een rechten- en rollenconcept. Dit maakt het zelfs mogelijk om op een meer gecontroleerde manier gevoelige gegevens te verwerken.

Eenvoudiger beheer van de rechten van betrokkenen

Dit is misschien wel het grootste voordeel. Het recht op wissing (Art. 17 AVG) en het recht op rectificatie (Art. 16 AVG) worden praktisch uitvoerbaar. De data zit immers niet langer ‘vast’ in het AI-model, maar in uw eigen brondocumenten en de bijhorende ‘vector database’. Een verzoek tot verwijdering of aanpassing kan worden uitgevoerd door de data simpelweg uit deze controleerbare bronnen te halen.

De valkuilen: RAG is geen magische oplossing

Hoewel RAG een significante stap voorwaarts is, is het cruciaal om de beperkingen en nieuwe risico’s te erkennen.

Een onwettig getraind model blijft onwettig

De RAG-methode verandert niets aan de manier waarop het onderliggende taalmodel (LLM) oorspronkelijk is getraind. Als dat model is getraind met data die onrechtmatig is verzameld, blijft dat fundamentele juridische probleem bestaan. De keuze van een ‘proper’ en proportioneel LLM blijft dus essentieel.

Nieuwe risico’s: de kwaliteit van uw data is cruciaal

Het RAG-systeem is volledig afhankelijk van de kwaliteit, actualiteit en volledigheid van uw referentiedocumenten. Onvolledige of verouderde data leiden onvermijdelijk tot onjuiste output. Een robuust databeheer is dus een absolute voorwaarde.

Het risico op onbedoelde gegevenskoppeling

Er ontstaat een nieuw risico: persoonsgegevens uit uw gecontroleerde databank worden doorgegeven aan het LLM. Daar kunnen ze potentieel worden gekoppeld aan persoonsgegevens die al in het model aanwezig zijn. Dit kan leiden tot nieuwe, onvoorziene verwerkingen die de doelbinding schenden. Het is een complex risico dat bij het ontwerp van het systeem moet worden geëvalueerd.

Conclusie: Een pragmatische stap richting AVG-compliance

Retrieval-Augmented Generation is geen magische oplossing die alle AVG-problemen van generatieve AI wegneemt. De kernproblematiek van een potentieel onrechtmatig getraind LLM blijft bestaan.

De RAG-methode biedt echter een krachtige set van technische maatregelen die de risico’s voor de rechten en vrijheden van betrokkenen aanzienlijk kunnen beperken. Het verhoogt de nauwkeurigheid, controle en veiligheid van de data die u verwerkt. In de context van de AVG kan de implementatie van RAG worden beschouwd als een risicobeperkende maatregel die, afhankelijk van de specifieke toepassing, het verschil kan maken tussen een onaanvaardbaar hoog risico en een beheersbaar risico.


Joris Deene

Advocaat-partner bij Everest Advocaten

Contact

Vragen? Advies nodig?
Neem contact op met Advocaat Joris Deene.

Telefoon: 09/280.20.68
E-mail: joris.deene@everest-law.be

Topics