Conversatie-ai-assistenten zoals Copilot, Claude en Gemini zijn krachtig, maar hun hallucinaties blijven een groot risico. Wat kunnen organisaties doen om dit gevaar technisch en organisatorisch te beperken zónder de voordelen te verliezen?
Ai‑assistenten zijn razendsnel en overtuigend, maar juist dat maakt hun fouten verraderlijk. Een hallucinerende Copilot, Claude of Gemini is geen incidentje, maar een ingebakken eigenschap: het model vult gaten in met plausibele onzin. Voor organisaties die afhankelijk zijn van betrouwbare informatie creëert dat een reëel risico. De eerste stap is dus acceptatie: ja, ai-assistenten zúllen hallucineren. De echte aandacht? Hoe herken je hallucinaties, hoe beperk je ze en hoe maak je ze beheersbaar. Computable heeft dat op een rijtje gezet.
Risico’s in de praktijk
‘Een onnauwkeurigheid in een juridisch document kan de uitkomst van een zaak beïnvloeden,’ waarschuwt onder andere het Amerikaanse ict-vakblad Computerworld. Zulke fouten kunnen niet alleen rechtszaken doen kantelen, maar ook investeerders afschrikken en beleidskeuzes ondermijnen.
Onderzoek van Stanford University laat zien dat zulke ai-assistenten, algemene large language modellen (llm), in zo’n drie kwart van juridische queries hallucineren. Zelfs domeinspecifieke modellen geven in één op de drie of vier gevallen nog foutieve citaties. Deloitte rapporteerde dat vier op de tien executives verkeerde beslissingen nemen op basis van foutieve ai-output.
Voor cio’s en risk officers betekent dit dat ai-governance niet optioneel is. Zonder controles en verificatieprocessen kan een enkele fout doorwerken in beleid, investeringsbeslissingen of juridische claims.
Data en retrieval als fundament
‘Als de input verouderd of inconsistent is, kun je geen betrouwbare output verwachten’, verwoordt ai-beveiliger Knostic het bekende ‘garbage in, garbage out’. In de praktijk betekent dit dat organisaties hun kennisbanken net zo zorgvuldig moeten beheren als hun financiële administratie.
Retrieval-augmented generation (rag) kan hallucinaties beperken, mits de pijplijn robuust is ingericht, legt de cybersecurityexpert uit. Dat betekent: vectorindexen opschonen, embeddings valideren, documentversies beheren en retrieval-resultaten monitoren. Zonder die discipline kan een oud hr-document zomaar als actuele regelgeving worden gepresenteerd.
Wie rag inzet, moet dus niet alleen investeren in techniek, maar ook in processen voor datakwaliteit en monitoring. Alleen zo kan de belofte van betrouwbaardere output worden waargemaakt.
Gebruikersgedrag maakt verschil
‘Als je vraagt om vijf voorbeelden terwijl er maar vier bestaan, gaat het model het ontbrekende voorbeeld gewoon verzinnen,’ illustreert OpenAI zelf de rol van de menselijk gebruiker bij hallucinerende ai’s. Zulke promptfouten ontstaan vaak onbewust, maar vergroten de kans dat medewerkers hallucinaties voor waar aannemen.
Best practices voor gebruikers zijn daarom: hypothetische scenario’s expliciet markeren, abrupte onderwerpwisselingen vermijden en formuleren in termen van ‘tot vijf voorbeelden’ in plaats van een exact aantal. Ook helpt het om Copilot te instrueren in een zakelijke toon en contextuele informatie mee te geven.
Voor organisaties betekent dit dat training in promptvaardigheden een noodzakelijke investering is, om de betrouwbaarheid van ai-output te vergroten. Zo adviseert Microsoft zelf de ICE-methode voor betere prompts: Instructies die direct en specifiek zijn, Condities om duidelijke grenzen te stellen (‘alleen uit deze documenten’) en Escalatie om terugvalgedrag te definiëren (zeg ‘Ik weet het niet’ als je het niet zeker weet’).
Typen hallucinaties herkennen
‘Je kunt pas effectief mitigeren als je weet met welk type hallucinatie je te maken hebt,’ verdiept Microsoft de aanpak van foute ai’s. Pas dan kan er gericht naar een oplossing gezocht worden.
Men onderscheidt zes typen hallucinatie: feitelijke, temporele, contextuele, linguïstische, extrinsieke en intrinsieke hallucinaties. Feitelijke fouten vragen om strakkere bronverificatie, temporele fouten om actuele datasets, linguïstische fouten om domeinspecifieke modellen. Ook hyperparameters spelen een rol: lagere temperatuurinstellingen (0,1–0,4) reduceren variatie en daarmee de kans op verzinsels.
Door patronen in fouten te analyseren, kunnen organisaties gericht maatregelen nemen. Zo kan een team dat vooral contextuele hallucinaties ziet, de retrieval-pijplijn aanscherpen, terwijl linguïstische fouten juist vragen om gespecialiseerde modellen. Daarbij zet ai-expert Datamatics wel een belangrijke kanttekening: hoewel zulke specifiekere oplossingen (vaak small language models, slm genoemd) vaak betere antwoorden geven en doorgaans minder vatbaar zijn voor hallucineren, zijn ze zeker niet immuun.
Governance boven techniek
‘Hallucinaties zijn geen productfouten die met een firmware-update kunnen worden gepatcht, maar een ontwerp- en governance-probleem,’ vat WindowsForum het allemaal samen. De focus moet verschuiven van techniek naar organisatiebrede borging.
Het forum benadrukt dat governance-onderzoeken blijvende zorgen signaleren over provenance en databeheer, ondanks dat Copilot bijvoorbeeld gebruik maakt van tenant-grounding en gelicentieerde content. Voor organisaties betekent dit dat ze beleid moeten opstellen voor bronverplichting en groundedness-checks, logging en auditability, escalatieprocedures en rolgebaseerde toegang.
Cruciaal is ook de menselijke factor: outputs in hoog-risico-domeinen moeten áltijd door experts worden nagekeken. Want hoe goed ook, elke ai-assistent ‘maakt fouten op onvoorspelbare momenten, kan waarheid niet van onwaarheid onderscheiden en heeft geen notie van betekenis,’ herhaalt Pascal Wiggers, sinds kort lector Responsible IT aan de Hogeschool van Amsterdam. ‘Deze tekortkomingen zullen nooit volledig verdwijnen. Nadenken is de enige remedie.’
To do’s om ai-hallucinaties te voorkomen:
1: Duidelijke prompts
 Formuleer vragen zakelijk, concreet en met voldoende context: ‘ICE ICE baby!’.
2: Betrouwbare bronnen
 Gebruik rag en koppel de ai-assistenten aan gecontroleerde databronnen.
3: Redenering & verificatie
 Vraag om stap-voor-stap uitleg en controleer citaties en feiten.
4: Hertraining & controle
 Verzamel feedback, hertrain de modellen en laat outputs in risicodomeinen nakijken door experts.
5: Governance & opleiding
 Bouw processen in voor monitoring en train medewerkers in verificatievaardigheden.
Verklarende woordenlijst voor ai-modellen
- Domeinspecifieke modellen
 Ai-modellen die getraind zijn op data uit een specifieke sector of vakgebied.
 Bijvoorbeeld een medisch taalmodel voor radiologieverslagen, of een juridisch model voor contractanalyse.
- Embeddings
 Numerieke vectorrepresentaties van woorden, zinnen of documenten waarmee semantische overeenkomsten berekend kunnen worden.
 Bijvoorbeeld zoeken naar soortgelijke producten in een webshop, of clusteren van nieuwsartikelen.
- Gelicentieerde content
 Data of materiaal dat met toestemming en onder contractuele voorwaarden gebruikt wordt voor training of output.
 Bijvoorbeeld: een dataset van een uitgeverij, of stockfoto’s met gebruikslicentie.
- Groundedness-checks
 Mechanismen om te controleren of een ai-antwoord gebaseerd is op betrouwbare bronnen of context.
 Bijvoorbeeld: verificatie dat een samenvatting overeenkomt met de originele tekst, of fact-checking tegen een kennisbank.
- Hallucinatie, de zes typen
 1. Contextuele: antwoord past niet bij de vraag. Bijvoorbeeld bij een vraag over netwerken een recept voor appeltaart geven.
 2. Extrinsieke: informatie wordt verzonnen die niet in de bron staat. Bijvoorbeeld een niet-bestaande auteur toevoegen aan een artikel.
 3. Feitelijke: feitelijke onjuistheden. Bijvoorbeeld zeggen dat Parijs in Duitsland ligt.
 4. Linguïstische: grammaticaal correct maar betekenisloos. Bijvoorbeeld “De kwantumwolk harmoniseert de semantische vector.”
 5. Intrinsieke: interne tegenstrijdigheden in het antwoord. Bijvoorbeeld eerst zeggen dat een bedrijf in 2010 is opgericht en later in dezelfde tekst 2015 noemen.
 6. Temporele: verkeerde tijdsaanduidingen. Bijvoorbeeld beweren dat Windows 95 in 2005 is uitgebracht.
- Hyperparameters
 Instelbare waarden die het leerproces van een model sturen, maar niet door het model zelf geleerd worden.
 Bijvoorbeeld leersnelheid, of aantal lagen in een neuraal netwerk.
- Provenance
 Herkomst en traceerbaarheid van data of informatie.
 Bijvoorbeeld bronvermelding bij een dataset, of logbestanden die laten zien waar een document vandaan komt.
- Retrieval-augmented generation (rag)
 Techniek waarbij een model externe documenten ophaalt en combineert met generatieve output.
 Bijvoorbeeld een chatbot die actuele wetgeving ophaalt, of een zoekfunctie die documenten samenvat.
- Temperatuur
 Parameter die de mate van creativiteit of variatie in modeluitvoer bepaalt.
 Bijvoorbeeld gebruik van lage temperatuur voor feitelijke antwoorden, of hoge temperatuur voor creatieve teksten.
- Tenant-grounding
 Het koppelen van ai-antwoorden aan de specifieke data en context van één organisatie of gebruiker.
 Bijvoorbeeld een ai-bedrijfsassistent die alleen interne documenten van dat bedrijf gebruikt.
- Vectorindexen
 Databasestructuren die embeddings opslaan en efficiënt doorzoekbaar maken.
 Bijvoorbeeld een vectorindex voor semantische zoekopdrachten in klantmails, of een index voor beeldherkenning.

 
             
             
             
         
         
         
         
         
        
Hoe zit dat dan als je AI gebruikt om je site geschikt te maken voor anderstaligen? Is er dan ook kans op hallucinatie?
Of als je AI inzet als Chatbot, dan heb je geen grip op de ICE-heid van de input.
Mag ik een woordje spenderen aan naar mijn mening verkeerde toepassing van het inmiddels wijd verbreide begrip hallucinatie?
De definitie van een hallucinatie is dat het een bedrieglijke waarneming is; het is het waarnemen van iets zonder dat er een externe prikkel voor is. Dit betekent dat het brein iets waarneemt (ziet, hoort, voelt, ruikt of proeft) dat er in werkelijkheid niet is, terwijl de ervaring voor de persoon wel echt lijkt. AI systemen zijn geen persoon (toch)?
Wat is het dan wel? Het staat er min of meer al in de zes varianten, het niet organisch AI systeem verzint maar wat.
Hallucinatie verwijst naar valse zintuiglijke waarnemingen die optreden zonder externe stimuli, terwijl confabulatie de onbedoelde creatie van plausibele maar valse herinneringen inhoudt, vaak als reactie op hiaten in kennis of geheugentekorten. Confabuleren komt daarmee dichter in de buurt van daar gaande is.
Misschien gaat het nog goedkomen als AI ooit ook echt gaat hallucineren. Correcte output van sensoren verkeerd interpreteren.
“Hallucinaties zijn geen productfouten die met een firmware-update kunnen worden gepatcht, maar een ontwerp- en governance-probleem.”
No shit, Sherlock — want de wens is misschien wel de vader van de gedachte, maar de moeder van mislukking blijft de aanname. De chain of credibility in beleid, wetenschap of AI-output wordt opgebouwd alsof de waarheid iets lineairs is. Een keten van correcte feiten, transparante bronnen en controleerbare logica gaat echter meer om de chain of custody. En dat idee van eenduidigheid is zelf een juridisch en bureaucratisch artefact door de realiteit van morgen. Want we construeren geloofwaardigheid door context te reduceren, complexiteit te normeren en twijfel zoveel mogelijk te disciplineren. Zeker in juridische processen waarin onschuld een feit is en schuld nog onbewezen moet worden. De Belastingdienst hanteert de omgekeerde schuldpresumptie en de toeslagenaffaire is een goed voorbeeld van hallucinaties op basis van garbage in, garbage out.
O tempora, o mores! Wat ooit een verzuchting was over de zeden van de mens, is nu een diagnose van onze datasystemen. We bouwen AI-economieën die menselijke twijfel willen elimineren, terwijl juist twijfel het begin van inzicht is. Zolang beleid AI inzet als versneller van de communicatie in plaats van als bewaker van herleidbaarheid, blijven we geloofwaardigheid verwarren met geloof. De echte hallucinatie is tenslotte niet dat AI dingen (erbij) verzint, maar dat bestuurders denken dat ze de werkelijkheid kunnen outsourcen aan algoritmen en modellen.
Alleen God kent de waarheid in haar totaliteit, de mens moet het doen met sporen. Digitale archieven zijn die sporen. Geen waarheden, maar getuigenissen van intentie en context. Ze vormen de chain of custody die bewaart hoe de kennis, besluiten en beleid tot stand kwamen. Tenminste dat zouden ze moeten doen want na de Rutte Doctrine gaat de echte verkiezingsvraag niet om de keus maar de spijt achteraf als we wederom bestuurlijke incompetentie op het schild hebben gehesen. Ik kan wat ik gisteren zei grotendeel herhalen op de nieuwe waan van de dag:
https://www.computable.nl/2025/10/29/de-echte-verkiezingsvraag-zijn-we-klaar-voor-de-ai-economie/
Onderzoek vanuit het verleden kijkt niet naar morgen, dat doet de archivering van vandaag als voorbode van de wetgeving die komt. De nieuwe Archiefwet en de Wet modernisering elektronisch bestuurlijk verkeer zullen pas betekenis krijgen wanneer we ook de twijfel durven te bewaren die technologie nu probeert uit te wissen. AI kan in dat landschap een nieuw soort archivaris worden, geen orakel maar een curator van geloofwaardigheid. Zeker bij een domeinspecifieke inzet van AI zoals bij bestuur, rechtspraak en toezicht, waar de herkomst van informatie even zwaar weegt als de inhoud zelf.
Want rechtmatigheid van archiveren is het geheugen waarin de chain of custody wordt vastgelegd met metadata, maar rechtvaardigheid is het geweten waarmee context aan die data wordt gegeven. Tussen die twee beweegt bestuur, zolang het zich de waarom herinnert en durft te voelen blijft het geloofwaardig.