Waarom voor taalmodellen kiezen – als werkelijke waarde in gestructureerde data zit?

02 maart 2026 - 17:006 minuten leestijdAchtergrondData & AISAP

Op LinkedIn woedt een interessante discussie over SAP RPT-1, aangezwengeld door analist John Santaferraro. In een besloten sessie op SAP TechEd in Berlijn schetste cto Philipp Herzig hoe een intern onderzoeksproject – ooit gestart als alternatief voor een eigen groot taalmodel (llm) – uitgroeide tot een nieuw type foundationmodel dat niet in woorden denkt, maar in cellen van tabellen. Niet wéér een llm boven op documenten, maar een model dat patronen leert in grootboekposten, orderregels en facturen.

Twee jaar geleden stelde SAP zichzelf de vraag of het een eigen llm moest ontwikkelen. Het antwoord was ‘nee’. De argumentatie: de markt zou overspoeld worden met generieke modellen, getraind op publieke tekstdata. Voor enterprise-softwarebedrijven als SAP is toegang tot de enorme hoeveelheden gestructureerde bedrijfsdata in Hana – en andere relationele databases – veel interessanter, plus de governance en toestemming om daar geanonimiseerd op te experimenteren.

Daaruit ontstond RPT-1: Relational Pretrained Transformer. Waar llm’s tokens definiëren als woorden of subwoorden, beschouwt dit model de database-cel als token. Het model is van de grond af aan getraind op relationele tabellen en leidt daar de afhankelijkheden tussen rijen, kolommen en tabellen uit af.

SAP positioneert RPT-1 als een zogeheten ‘table-native foundation model’: niet bedoeld om teksten te genereren, maar om direct voorspellingen te doen op tabulaire data, met zo min mogelijk extra training of feature engineering.

Paper

Het technische fundament van RPT-1 is beschreven in het NeurIPS-paper ‘ConTextTab: A Semantics-Aware Tabular In-Context Learner’. ConTextTab is in feite de onderzoeksversie van RPT-1; de code staat als ‘sap-rpt-1-oss’ op GitHub.

In ConTextTab wordt tabular in-context learning (ICL) geïntroduceerd. Waar taalmodellen context halen uit opeenvolgende woorden, haalt ConTextTab context uit rijen en kolommen. Het model gebruikt gespecialiseerde embedding-lagen voor:

Kolomnamen en tabelnamen (semantische context)
Categorische en tekstvelden (Bert-achtige vectoren)
Datums (tijdsbewuste representatie)
Numerieke waarden (gestandaardiseerd en lineair geprojecteerd)

Daarnaast gebruikt het een tweedimensionale attention-architectuur: afwisselend over kolommen en over rijen. Zo kan het model zowel relaties tussen kenmerken (kolommen) als tussen records (rijen) leren, zonder dat de volgorde van rijen of kolommen uitmaakt – wat cruciaal is bij tabulaire data.

In benchmarks zoals Carte, OpenML en TabReD haalt ConTextTab state-of-the-art-resultaten, vaak beter dan table-native modellen zoals TabPFN en TabICL, en concurrerend met geavanceerde gradient-boosting-ensembles zoals AutoGluon en CatBoost op semantisch rijke datasets.

Drie varianten

Met SAP RPT-1 brengt SAP deze architectuur naar de productwereld als een relational foundation-model voor bedrijfsdata. Het model wordt in drie varianten aangeboden:

RPT-1 Small: geoptimaliseerd voor snelheid en efficiency;
RPT-1 Large: gericht op maximale nauwkeurigheid;
RPT-1 OSS: als opensource-variant voor experimenten en eigen implementaties.

Belangrijk is de inzet op in-context learning: klanten leveren tabellen met enkele voorbeeldrijen inclusief gewenste uitkomst. Het model kan vervolgens direct voorspellingen doen voor nieuwe records, zonder aparte trainingsstap of fine tuning. SAP claimt dat zo weken aan klassiek ml-werk (data-engineering, modelselectie, training, tuning) worden teruggebracht tot een configuratie in uren.

RPT-1 wordt binnenkort algemeen beschikbaar via SAP’s generatieve-ai-hub, terwijl de open weight-variant nu al op Hugging Face en in een web-gebaseerde playground te testen is.

Taaktabel

Een kernconcept in RPT-1 is de external task table. Voor iedere use-case definieert de gebruiker een taaktabel met de targetwaarden die voorspeld moeten worden (bijvoorbeeld ‘wordt deze order te laat geleverd?’ of ‘hoeveel dagen vertraging?’). Deze tabel wordt als gewone relationele tabel behandeld en vormt samen met de brontabellen de context voor de voorspelling.

Daarbovenop introduceert SAP een relational attention-mechanisme dat expliciet rekening houdt met:

Kolomdistributies (patronen binnen een kolom);
Rijcontext (combinatie van waarden binnen één record);
Neighborhood-relaties via primaire en vreemde sleutels (relaties tussen tabellen).

In SAP’s positionering vervangt dit deels wat in de llm-wereld met RAG (retrieval-augmented generation), prompt-engineering en uitgebreide fine-tuning wordt opgelost. Het model werkt direct op de relationele structuur, in plaats van eerst alles via tekstrepresentaties te laten lopen.

Initiatieven

RPT-1 staat niet op zichzelf. In de research- en opensource-wereld lopen al langer initiatieven om ai dichter bij relationele data te brengen. Denk aan:

RelBench biedt een open benchmark voor modellen die moeten redeneren over relationele en tabulaire data, inclusief realistische bedrijfsdatasets;
TabPFN en aanverwante tabular-modellen winnen aan aandacht als generieke, pretrained modellen voor gestructureerde datasets, met sterke prestaties op traditionele ml-taken;
DB-GPT koppelt llm’s direct aan SQL-databases, zodat natuurlijke-taalvragen kunnen worden vertaald naar queries en resultaten, zonder dat het onderliggende schema naar buiten lekt;
De community rond DuckDB experimenteert met het combineren van analytische SQL-workloads en ai, juist omdat DuckDB als in-process engine bedoeld is voor snelle iteraties op tabulaire data.

In blogposts en analyses wordt RPT-1 daarom geregeld vergeleken met deze opensource-projecten: als een enterprise-variant van hetzelfde idee – een generiek, pretrained model dat tabulaire patronen leert, in plaats van telkens een apart ml-model per use-case.

Discussies

Niet alle commentaren in discussies als op LinkedIn zijn juichend. Sommige auteurs wijzen erop dat ConTextTab en RPT-1 vooralsnog onderzoeksprojecten zijn: het model is getraind op de publieke T4-dataset en geëvalueerd op benchmarks als Carte en OpenML, niet op echte SAP-productiedata.

Ook is de schaal van de training bescheiden – één H100-gpu in plaats van een supercomputercluster – wat RPT-1 methodologisch interessant maakt, maar nog geen bewijs levert voor alle enterprise-scenario’s.

Daarnaast schalen tabular ICL-architecturen nog niet onbeperkt. Bij erg grote tabellen of extreem hoge recordaantallen blijven klassieke gradient-boosting-methoden of domeinspecifieke modellen voorlopig concurrerend, stellen sommige criticasters. Ook ontbreekt het nog aan echt grote, semantisch rijke open tabulaire benchmarks die de complexiteit van erp-landschappen volledig benaderen.

‘Revolutie’

Voor it- en businessafdelingen is de vraag minder of RPT-1 en andere tabular foundation models een ‘revolutie’ kan zijn, maar meer hoe dit in de architectuur en governance past. Enkele praktische aandachtspunten die uit de discussies naar voren komen:

Positionering ten opzichte van bestaande ml-stacks: RPT-1 richt zich op generieke classificatie- en regressietaken bovenop tabellen. Dat kan veel kleinere ml-projecten vervangen, maar gespecialiseerde modellen voor bijvoorbeeld beeld, tekst of zeer specifieke domeinen blijven nodig;

Integratie met SAP-omgevingen: de kracht van RPT-1 zal in hoge mate afhangen van de integratie met S/4Hana, Datasphere en SAP’s AI Foundation. Daar ligt ook het risico op extra afhankelijkheid van één leverancier;

Relatie met opensource: doordat RPT-1 ook als open-weight beschikbaar is, kunnen organisaties experimenteren buiten SAP-clouds om, of het model combineren met bestaande ml-ops-omgevingen en datawarehouses.

De bredere trend is echter helder: voor veel enterprise-organisaties zal ai de komende jaren verschuiven van generieke llm’s naar een strategie waarin domain- en dataspecifieke foundation modellen een steeds belangrijkere rol spelen. RPT-1 is daar een voorbeeld van, maar is zeker niet het echte model-in-aantocht. Het biedt voor veel Nederlandse enterprise-organisaties echter wel een duidelijke route naar het beter ontsluiten van de goudmijn waar zij al jaren op zitten: gestructureerde bedrijfsdata in relationele tabellen.

Of deze benadering klassieke machine-learningprojecten daadwerkelijk verdringt, zal de praktijk de komende jaren moeten uitwijzen. Maar één conclusie laat RPT-1 nu al toe: wie serieus met ai aan de slag wil in erp- en andere datarijke omgevingen, doet er goed aan niet langer alleen naar tekst-llm’s kijken, maar ook na te denken over foundation models die – zeg maar – de taal van tabellen spreken.

7 reacties op “Waarom voor taalmodellen kiezen – als werkelijke waarde in gestructureerde data zit?”

Jack Jansonius schreef:

5 maart 2026 om 09:59

Interessant artikel dat een belangrijke trend blootlegt: AI verschuift van generieke tekstmodellen naar domeinspecifieke modellen die native op gestructureerde data werken. SAP’s RPT-1 adresseert daarmee een fundamenteel probleem – de representatiekloof tussen relationele bedrijfsdata en de manier waarop AI die data ‘begrijpt’.

Vanuit het perspectief van betekenis-gedreven architectuur is dit een veelbelovende infrastructurele verbetering. Door direct op tabellen, kolommen en sleutelrelaties te trainen, omzeilt RPT-1 de ruis die ontstaat wanneer we gestructureerde data eerst in tekstrepresentaties gieten. Dat vermindert technische spaghetti en houdt semantische samenhang beter intact.

Tegelijkertijd is het goed om te beseffen wat RPT-1 niet doet. Het model leert patronen uit data en voorbeelden, maar maakt die patronen niet expliciet als toetsbare, wijzigbare beslisregels. De ‘beslislogica’ blijft emergent en opgeslagen in gewichten – een black box, hoe accuraat ook. Daarmee verschuift verantwoordelijkheid van technische coördinatie naar een diffuus samenspel van trainingsdata, voorbeeldtabellen en modelarchitectuur.

De werkelijke waarde voor enterprise-omgevingen zit wat mij betreft in de volgende stap: het combineren van dit soort table-native modellen met een expliciete betekenislaag. Een formele ontologie van domeinbegrippen, gekoppeld aan doel-gedreven beslissingstabellen, maakt uitkomsten toetsbaar en verantwoordelijkheid toewijsbaar. Dan pas wordt AI niet alleen accurater, maar ook bestuurbaar.

Kortom: RPT-1 is een zinvolle stap van technische orkestratie naar datagedreven interpretatie. Maar voor echte transparantie en controle hebben we ook de laag daarboven nodig: betekenis expliciet maken, in plaats van alleen beter impliceren.

Login om te reageren
Rob Koelmans schreef:

5 maart 2026 om 12:52

Ja, deze trend is volkomen helder. ChatGPT geeft zelf ook aan dat communicatie tussen LLM’s op basis van taal of tokens veel te inefficiënt en bovendien redudant is. In de tijd van cp/m, ms-dos en willicht nog steeds op Unix had je .dat en .idx formaten. Je had zero-terminated, fixed length, en length-integer prefix voor iedere kolom. De length integer is dan zero-prefix 10 character length, waarmee je dus effectief zowel de tab-seperators en de CrLf’s als binaire controlcharacters weghaalt en vervangt met een string van evenveel 10 character length strings (vb 000000031) als er kolommen zijn, voorafgegaan (redundant) met de totale lengte van de regel i.c. de afstand tot de verwijderde CrLf. Regel 1 kan metadata bevatten net als in CSV. Groot voordeel ten opzichte van YAML, XML, CSV, DIF e.d. is dat het fractaal is, dus ook metadata fractaal/recursierf. Vanwege de overeenkomst met oude Pascal formaten noem ik het pCSV. Unicode, diacritische tekens e.d.maakt niet uit. Een cel mag zelfs binaries bevatteen. Stukjes van VBA in Excel, t-SQL stored procedures van 30 max 50 regels verwerken control character vrije strings met alles toegestaan binnen een cel van een paar honderd megabyte probleemloos. Limiet zit op de 10-character length strings, dus 2 GByte totale lengte per transport. Ook kun je er razendsnel tijdelijke index-files naast opbouwen doordat je voortdurend op kolom X door alle rijen heen kunt springen.

Login om te reageren
- Jack Jansonius schreef:
  
  5 maart 2026 om 13:14
  
  Dit is een waardevolle toevoeging die de discussie een laag dieper trekt. Wat je beschrijft met pCSV raakt aan een cruciaal punt: de fysieke representatie van data bepaalt in hoeverre we betekenis efficiënt kunnen ontsluiten.
  
  Vanuit betekenis-gedreven architectuur zoeken we naar manieren om domeinbegrippen en beslisregels expliciet te maken, los van implementatie. Maar zoals je terecht opmerkt, lopen we dan tegen de grenzen van formaten als CSV, XML of JSON aan. Die zijn ontworpen voor menselijke leesbaarheid en uitwisseling, niet voor machine-efficiënte, fractale toegang.
  
  Wat jouw pCSV-concept toevoegt, is een infrastructurele laag waarin:
  
  – Metadata en data op dezelfde, recursieve manier zijn opgebouwd (fractaal), wat zelfbeschrijvende datastructuren mogelijk maakt.
  
  – Directe toegang tot willekeurige kolommen en rijen triviaal wordt, omdat lengte-prefixen parsing overbodig maken.
  
  – Code (beslisregels) en data in één formaat kunnen leven, doordat binaire inhoud is toegestaan.
  
  Dat laatste is interessant in relatie tot SAP’s RPT-1: het model werkt nu direct op relationele tabellen, maar die tabellen zijn nog steeds opgeslagen in formaten die eerst geparsed moeten worden. Een pCSV-achtige onderlaag zou de efficiëntie van tabular in-context learning radicaal kunnen verbeteren, omdat het model geen tijd verliest aan het interpreteren van scheidingstekens of het opbouwen van datastructuren.
  
  Het brengt me bij een vervolgvraag: zie jij pCSV als een vervanging voor bestaande databaseformaten, of juist als een uitwisselings- en geheugenformaat dat naast bijvoorbeeld HANA of DuckDB kan bestaan? En hoe verhoudt het fractal-principe zich tot de manier waarop ontologieën (zoals OWL of RDF) conceptueel zijn opgebouwd?
  
  https://chat.deepseek.com/share/3hntoq5wuldrslaon4
  
  Login om te reageren
  - Rob Koelmans schreef:
    
    5 maart 2026 om 15:08
    
    Aangezien dit een ascii formaat is, is dit zeker niet optimaal voor serieuze parameter storage in AI. Het is meer communicatie. ChatGPT begreep het formaat onmiddelijk en maakte in een minuutje een python scriptje voor zowel lezen als schrijven.
    
    Login om te reageren
    - Rob Koelmans schreef:
      
      5 maart 2026 om 15:22
      
      Ik heb in Excel VBA ook code van ChatGPT die relationeel verwijzingen van en naar cellen in andere sheets kan maken vanuit een pCSV string. Een multisheet Excel bestand zet ie in een fractie van een seconde om tot de inhoud van 1 cel. Die kan ik copy/pasten naar een HTML-pagina multi-line text field en volgende de referentiële structuur tussen de cellen in de sheet opgeslagen worden in een tabelstructuur in een sql-database. Uiteraard kan ik ook de hele sheet als string in een longtext field bewaren. Doordat iedere kolom op regel 1 een complete pCSV als metadata kan bevatten, kan ik ook als cel-inhoud in dìe pCSV’s cell properties in XML- of JSON-formaat hebben. Voor zover ik kan overzien kan ik verliesloos iedere Excel-string in één string die je kunt copy/pasten of met API opslaan/ophalen. Business Central AL kun je een formulier in maken waar je zo een pCSV mee in BC sleept.
      
      Login om te reageren
      - Jack Jansonius schreef:
        
        6 maart 2026 om 11:06
        
        Dit zijn twee uiterst verhelderende reacties die de praktische kracht van het pCSV-concept demonstreren. Laten we ze analyseren.
        
        En laat ik nog een vervolgvraag stellen 😊
        
        https://chat.deepseek.com/share/zafm5dm1indu9llncc
Rob Koelmans schreef:

6 maart 2026 om 15:34

De relatie met Excel is op zich niet zo belangrijk. Ik had bijvoorbeeld ook op het objectmodel van Word kunnen werken en tekstblokken van een Word-document relationeel gestructureerd in een database kunnen zetten. Het mooie is dat je door de fractale structuur van een object in een database precies alle geneste lookups en geneste childsets in hun volledige inhoud kunt meegeven. Dat is normaalgesproken precies wat een AI-api nodig heeft. Een AI heeft het trouwens liever niet genest maar je kunt het ook net zo goed allemaal met bookmarks plat aanleveren. Dat is maar net wat je in iedere recursie doet als je er doorheen gaatt.

Login om te reageren