Europese behoefte en wetgeving doen de vraag naar regionale llm’s groeien. Microsoft speelt daar op in middels een samenwerking met de Universiteit van Straatsburg. Ook TNO kondigde een nieuw initiatief aan en gaat in het kader van GPT-NL samenwerken met NDP Nieuwsmedia.
Microsoft gaat werk maken van Europese llm’s, kondigde het bedrijf dit weekend aan. Daarvoor gaat samengewerkt worden met de Universiteit van Straatsburg vanuit het eigen innovatiecentrum en ai-lab in die stad.
Verder zullen met GitHub en het Franse Hugging Face data gehost en breed toegankelijk gemaakt worden, ‘met één klik in de Azure Model Catalogue.’ Vorige keer is al het SmoILM3-model uitgebreid, ‘een zeer efficiënt meertalig model met 3B-modelparameters en ondersteuning voor zes talen: Engels, Frans, Spaans, Duits, Italiaans en Portugees.’ Verder zal het bedrijf samenwerken met Common Crawl, de gratis databank voor webcrawldata. ‘Native speakers zullen daar worden ingezet om data uit Europese talen te annoteren en te integreren in de openbaar beschikbare Common Crawl-dataset’, aldus het concern.
De bedoeling is dat het Microsoft-lab een blauwdruk publiceert met details over het creëren van hoogwaardige taaldatasets en lokale llm’s trainen om meer uit de bestaande data te halen. Ook de academische samenwerkingen in Europa wordt verder uitgebreid. ‘om verantwoord ai-onderzoek te bevorderen en de taalkloof te helpen dichten.’
Initiatieven op Nederlandse bodem
Microsoft is niet alleen in de zoektocht naar Europese taalalternatieven. De Vereniging van Nederlandse Gemeenten had in maart al aangegeven dat er behoefte is aan Nederlandse taalmodellen. Daarom had ze toen steun toegezegd aan een nationaal initiatief, GPT-NL, opgezet door TNO, NFI en Surf. Dat timmert ook hard aan de weg.
Vorige week nog maakte TNO bekend te gaan samenwerken met NDP Nieuwsmedia (de branchevereniging van private nieuwsuitgevers zoals DPG Media en Mediahuis) en ANP, voor dit ‘eerste grootschalige Nederlandse ai-taalmodel dat volledig wordt getraind op rechtmatig verkregen data.’ Zo komen meer dan dertig landelijke en regionale nieuwstitels en hun archieven beschikbaar om het Nederlandse taalmodel verder te trainen. Verwachting is dat hiermee in één klap de hoeveelheid hoogwaardige Nederlandse data waarop het model wordt getraind, verdubbelt. Er wordt al gebruik gemaakt van de archieven van DNB, ICTRecht en Het Utrechts Archief.
TNO zegt dat ‘in tegenstelling tot sommige internationale modellen, die ‘een kopie van het internet’ gebruiken als trainingsmateriaal, GPT-NL zorgvuldig en ethisch te werk gaat bij het verzamelen van auteursrechtelijk beschermde data en worden diegene die met hun content bijdragen ook daarvoor beloond. Hiermee voldoet het aan de Europese wet- en regelgeving zoals de AI-Act. Het taalmodel wordt ontwikkeld voor specifieke taken: samenvatten, versimpelen en het extraheren van informatie uit tekst.’ De bedoeling is dat tegen het eind van dit jaar het eerste gebruik van het model wordt voorbereid.