Het is een cliché om te zeggen dat ‘data de nieuwe olie is’, maar wat betekent dat eigenlijk voor Artificial Intelligence (AI) binnen bedrijven? Hoe heeft AI zich in de afgelopen 12 maanden bij organisaties ontwikkeld? Laten we eerst de analogie ‘data is de nieuwe olie’ ontkrachten.
Olie is een eindig en vervangbaar product, terwijl data meestal uniek is en in principe oneindig kan worden gecreëerd. Wat wél klopt is dat data, vooral de eigen data van een onderneming, de fundamentele bron vormt voor het afstemmen van AI-modellen op specifieke bedrijven, sectoren en toepassingen.
De meeste ondernemingen zijn bezig met het plannen van AI-toepassingen en veel hebben er al enkele met succes in productie genomen. Het proces om proof-of-concept AI-projecten volledig operationeel te maken, blijft echter een uitdaging. Veel projecten stuiten op aanzienlijke belemmeringen, zoals hoge projectkosten, de infrastructuur voor AI-ontwikkeling en -implementatie, het afstemmen van projectdoelen met belanghebbenden en een tekort aan AI-talent.
Een belangrijke factor om deze obstakels te overwinnen is het beheer en gebruik van bedrijfsdata. Een enterprise data lake speelt hierin een centrale rol. Het verzamelt relevante organisatiedata uit gescheiden applicaties, gedeelde schijven en logbestanden en is de meest gebruikelijke manier om deze data te benutten voor AI-modellen. Het identificeren, aggregeren, extraheren en normaliseren van data is vaak het meest tijdrovende onderdeel van het ontwikkelproces, maar essentieel voor een nauwkeurig model. Moderne data lakes gebruiken objectopslagsoftware en worden meestal op schijfgebaseerde servers opgeslagen vanwege de kostenefficiëntie, in tegenstelling tot oudere Hadoop-versies.
Door deze data beschikbaar en gestructureerd te hebben, kunnen bedrijven commerciële of open-source grote taalmodellen (LLM) verfijnen, bijvoorbeeld voor generative AI-toepassingen. In plaats van een volledig nieuw LLM vanaf nul te creëren, wordt een vooraf gebouwd taalmodel gebruikt dat al algemene domeinkennis bevat, maar aanvullende training vereist met bedrijfsspecifieke gegevens. Het verfijnen van het bedrijfsmodel vraagt om speciale GPU- en opslaginfrastructuur en is een continu proces naarmate er nieuwe data beschikbaar komen. Het resultaat is een op maat gemaakt groot taalmodel dat de specifieke informatie van het bedrijf bevat en in staat is relevante reacties te genereren.
Het is vaak niet haalbaar om bedrijfs-LLM’s telkens opnieuw te trainen wanneer er nieuwe gegevens beschikbaar komen, vooral bij realtime data zoals financiële marktinformatie, nieuws en andere tijdgevoelige informatie. Om dit probleem te omzeilen, wordt retrieval augmented generation (RAG) steeds vaker gebruikt. Deze techniek voegt contextueel relevante informatie toe aan de invoervraag, waardoor de oorspronkelijke vraag effectiever kan worden aangevuld.
In de eerste fase van RAG, de opvraagfase, zoekt het systeem in een vectordatabase naar informatie die relevant is voor de vraag. De data is eerder opgeslagen als vector-embeddings, numerieke representaties van de gegevens, en wordt gecombineerd met de getokeniseerde oorspronkelijke vraag als invoer voor het LLM. Deze aanpak levert relevantere antwoorden op en vermindert hallucinaties. De vectordatabase kan worden geïmplementeerd als bestands- of objectopslag, afhankelijk van de infrastructuurbehoeften.
Veranderingen in de opslaginfrastructuur
Het gebruik van RAG en andere geavanceerde AI-technieken benadrukt bovendien het belang van een robuuste opslaginfrastructuur. Opslag en gegevensbeheer vormen de ruggengraat van AI-infrastructuur in ondernemingen. Storageservers, netwerken en schijf- en flashmedia zorgen ervoor dat bedrijfsgegevens veilig en permanent worden bewaard, waarbij elk type opslag zijn eigen voor- en nadelen heeft op het gebied van kosten en prestaties.
Op deze basis bouwt het databeheer voort. Dit omvat de software die digitale informatie onderhoudt en bijwerkt, of dat nu blok-, bestand- of objectgebaseerd is. Elke methode vereist afwegingen tussen prestaties en flexibiliteit, afhankelijk van de omvang en variabiliteit van de data. Een recente ontwikkeling is gegevensorkestratie, waarmee intelligente en geautomatiseerde workflows worden toegevoegd aan bestaande beheerplatforms.
Hoe data wordt opgeslagen en beheerd, bepaalt ook waar AI-berekeningen plaatsvinden. Het concept van datazwaartekracht illustreert hoe moeilijk het is om grote datasets te verplaatsen. Naarmate de opslag groeit, worden steeds meer AI-berekeningen direct bij de data uitgevoerd. Dat betekent dat computerbronnen naar de data komen of in de datamanagementplatforms worden geïntegreerd, wat vooral belangrijk is bij grootschalige, veeleisende taken.
Grootschalige inferentie
Deze uitdagingen in dataverwerking en -locatie worden extra zichtbaar bij grootschalige inferentie. Een opvallende verandering ten opzichte van vorig jaar is de inzet van hoogvolume-inferentie binnen agentic AI-workflows, waarbij meerdere redeneringen of doelgerichte reeksen van AI-agenten worden gecombineerd. Deze hoogvolume-inferentie kan duizenden queries per seconde verwerken en vraagt daarom om een efficiënte aanpak van gegevensverwerking.
Om deze efficiëntie te verbeteren, wordt steeds vaker gebruikgemaakt van het gedesaggregeerde inferentieproces. Hierbij worden de twee fasen van een inferentiequery gescheiden: in de prefill-fase wordt de invoerquery getokeniseerd, waarna in de decodeerfase de respons van het AI-model wordt gegenereerd. Door voor elke fase afzonderlijke GPU-bronnen toe te wijzen, neemt de totale inferentiedoorvoer aanzienlijk toe.
Daarnaast speelt de Key-Value (KV)-cache een belangrijke rol in de decodeerfase. Hierin worden eerder verwerkte resultaten opgeslagen, zodat dezelfde tokenpatronen snel kunnen worden hergebruikt, van het snelle maar kleinschalige GPU-geheugen tot lokale NVMe-opslag en gedeelde netwerkopslag.
De KV-cache kan uitgroeien tot meerdere petabytes. Door eerder opgeslagen resultaten te raadplegen in plaats van opnieuw te berekenen, worden verwerkingsbottlenecks geëlimineerd en nemen de algehele inferentieprestaties sterk toe.
Opslag-ecosystemen moeten een oplossing zijn voor AI
Data speelt een centrale rol in bedrijfs-AI. Bedrijven verzamelen hun data en gebruiken deze om AI-modellen af te stemmen op hun specifieke behoeften. Steeds vaker worden tools zoals RAG-inferentie ingezet, waarbij een vectordatabase helpt om snel relevante, bedrijfsspecifieke informatie te vinden die nodig is voor AI-query’s. Tegelijk zien we een groeiende behoefte aan grootschalige inferentie en gedesaggregeerde inferentieverwerking, waarbij KV-cachegegevens vooral op snelle flash-gebaseerde netwerkopslag worden bewaard om de prestaties te optimaliseren.
Naarmate state-of-the-art AI-infrastructuur en -processen in bedrijven zich blijven ontwikkelen, is het essentieel dat organisaties een flexibele en herconfigureerbare infrastructuur opzetten die nieuwe AI-implementaties in de toekomst kan ondersteunen. Tegelijk blijft de kern van de opslaginfrastructuur en het beheer van bedrijfsgegevens altijd herbruikbaar en betrouwbaar.
Wendell Wenjen, Director of Storage Market Development, Supermicro
Meer lezen