Hoe meet je llm-prestaties? Plus 7 andere vragen over grote taalmodellen

Large language models (llm’s) zijn in korte tijd uitgegroeid tot de motor achter generatieve ai‑toepassingen. Toch blijft de technologie voor veel organisaties een zwarte doos. Wat doet een llm precies, hoe werkt het, en waarom praten leveranciers niet langer over het aantal parameters? In dit artikel zetten we acht belangrijke vragen en antwoorden over llm’s op een rij.

1. Wat is een llm (large language model)?
Een llm is een vorm van kunstmatige intelligentie die getraind is om menselijke taal te begrijpen en te genereren. Het model leert patronen te herkennen in enorme hoeveelheden tekst en kan daardoor vragen beantwoorden, teksten schrijven, vertalen, redeneren en samenvatten. In essentie is een llm een ai‑systeem dat taal verwerkt en produceert op een manier die dicht in de buurt komt van menselijke communicatie.

2. Hoe werkt een llm?
Een llm wordt getraind op gigantische hoeveelheden tekst. Bijvoorbeeld uit boeken, websites, artikelen, code en andere bronnen. Tijdens die training leert het model onder meer patronen herkennen in taal, voorspellen welk woord logisch volgt op een ander woord, context interpreteren en specifieke taken uitvoeren via het fijn slijpen van het systeem.

Onder de motorkap draait een llm op een neuraal netwerk: een computermodel, geïnspireerd op de werking van het menselijk brein, dat patronen leert te herkennen door miljoenen voorbeelden te analyseren. Dat gebeurt zonder expliciet geprogrammeerde regels. Het neurale netwerk is meestal gebaseerd op de transformer‑architectuur dat, geïntroduceerd in 2017, uitblinkt in het verwerken en analyseren van sequentiële data zoals tekst doordat het de context van woorden in een zin beter begrijpt dan eerder gebruikte architecturen. Zo’n netwerk bestaat uit miljoenen tot miljarden parameters. Dat zijn interne waarden die bepalen hoe het model taal interpreteert en verbanden legt. (zie ook vraag over parameters).

3. Voor welke toepassingen wordt een llm gebruikt?
Llm’s zijn vooral bekend van de inzet bij generatieve ai. Ofwel ai om iets te creëren of te genereren, zoals het schrijven van teksten, e‑mails, scripts, samenvattingen, vertalingen en het genereren van code en creatieve content zoals slogans of verhalen. Maar de inzet van llm’s reikt veel verder. Er zijn ook niet‑generatieve toepassingen zoals classificatie, bijvoorbeeld spamdetectie, informatie‑extractie, zoals namen of juridische termen herkennen, semantisch zoeken, vraag‑antwoord‑systemen, conversatie‑interfaces zoals Copilot. De technologie is dus breder inzetbaar dan alleen voor het genereren van tekst.

4. Zijn er ook sector‑specifieke llm’s?
Ja, domeinspecifieke llm’s zijn sterk in opkomst. Bijvoorbeeld medische llm’s. Deze modellen worden getraind op medische literatuur, richtlijnen en patiëntinformatie. Ze ondersteunen onder meer triage, medische documentatie en klinische besluitvorming. Vanwege privacy‑ en veiligheidsrisico’s zijn ze vrijwel altijd gesloten systemen.

Ook zijn er bijvoorbeeld juridische llm’s. Deze modellen zijn getraind op wetboeken, jurisprudentie en contracten. Ze worden gebruikt voor contractanalyse, wetsinterpretatie en juridische zoekmachines. Ook hier geldt dat de onderliggende data vaak auteursrechtelijk beschermd zijn, waardoor de modellen niet openbaar beschikbaar zijn.

5. Wat zijn de meest gebruikte llm’s wereldwijd?
De markt wordt gedomineerd door een handvol grote spelers. Denk aan: GPT‑4 en GPT‑4.1 van OpenAI, Gemini 1.5 en 2.0 van Google, Claude 3 van Anthropic, Llama 3 (een opensource-llm van Meta) en Mistral‑modellen, dat zijn open-source-modellen van Mistral AI.

6. Wat is een parameter van een llm?
Een parameter is een numerieke waarde in het neurale netwerk die bepaalt hoe het model taal verwerkt. Tijdens training worden deze waarden voortdurend aangepast. Je kunt ze zien als de interne knoppen waarmee het model leert: welke woorden belangrijk zijn, hoe zinnen samenhangen, hoe betekenis wordt opgebouwd. Een llm met bijvoorbeeld 70 miljard parameters beschikt dus over 70 miljard van dit soort interne waarden.

7. Waardoor zijn parameter‑aantallen steeds minder relevant?
De industrie is de afgelopen jaren fundamenteel veranderd. Waar vroeger voor parameters gold: ‘hoe meer, hoe beter’, is dat nu niet meer het geval. Dat komt door een drietal ontwikkelingen. Allereerst is de werkwijze van llm’s verandert. Moderne modellen zoals GPT‑4, Claude 3 en Gemini gebruiken zogenoemde mixture of experts‑architecturen. Daarbij heeft het model weliswaar enorme aantallen parameters, maar wordt per opdracht of bevraging (token) slechts een klein deel geactiveerd. Het totale aantal parameters zegt daardoor weinig over de daadwerkelijke rekenkracht of kwaliteit.

Ook komt de kwaliteitsverbetering van llm’s vooral uit verbeteredetrainingsdata, betere filtering, instructie-tuning, voortdurend leren van nieuwe inzichten (reinforcement learning) en optimalisatie van de architectuur. Kleinere modellen kunnen daardoor grotere modellen op specifieke taken verslaan. Een derde verandering is de opkomst van multimodale modellen. Moderne llm’s bestaan uit modules. Modellen zoals Gemini 2.0 en GPT‑4.1 bestaan uit meerdere gespecialiseerde componenten: taal, beeld, audio, geheugen en tool‑interfaces. Eén enkel parametergetal is dan niet meer representatief.

Anders dan opensource-aanbieders delen commerciële partijen als OpenAI, Google en Anthropic bewust geen parameter‑aantallen meer. Omdat het weinig zegt over kwaliteit van het llm en doordat architecturen complexer zijn geworden.

8. Hoe kun je dan wél onderscheid maken in prestaties van llm’s?
Dat gebeurt via benchmarks. Dat zijn gestandaardiseerde tests die meten wat een model daadwerkelijk kan. Voorbeelden zijn: MMLU dat een indruk geeft van de algemene kennis en het niveau van redeneren van het llm. Bij de inzet van een llm voor het schrijven van of software-ontwikkeling wordt bijvoorbeeld SWE-bench Verified gebruikt. Het is een belangrijke standaard voor de evaluatie van van llm’s op bestaande, complexe software-engineering-taken die gedeeld worden op ontwikkelaarsplatform GitHub. Deze test is belangrijk nu door ai-agents steeds vaker code wordt gegenereerd.

AIME 2025 (American Invitational Mathematics Examination) is één van de zwaarste wiskundige benchmarks om het redeneervermogen van llm’s te testen. Om modellen te vergelijken wordt anno 2026 ook veel gekeken naar de Artificial Analysis Intelligence Index. Deze staat bekend om zijn multi-dimensionale vergelijkingen zoals prestatie versus snelheid en kosten.

GPT-NL
Nederland ontwikkelt eigen llm’s om minder afhankelijk te zijn van Amerikaanse aanbieders en beter aan te sluiten op Nederlandse taal, cultuur en wetgeving. Projecten als GPT‑NL (een initiatief van TNO, NFI, SURF en andere publieke partners), Bloom‑NL en het Europese OpenGPT‑X richten zich op soevereiniteit, privacy en publieke data. Beschikbaarheid varieert: sommige modellen zijn open, andere zijn alleen beschikbaar voor de publieke sector en wetenschap.