Computable.nl
  • Thema’s
    • Carrière
    • Innovatie & Transformatie
    • Cloud & Infrastructuur
    • Data & AI
    • Governance & Privacy
    • Security & Awareness
    • Software & Development
    • Werkplek & Beheer
  • Sectoren
    • Channel
    • Financiële dienstverlening
    • Logistiek
    • Onderwijs
    • Overheid
    • Zorg
  • Computable Awards
    • Overzicht
    • Nieuws
    • Winnaars
    • Partner worden
  • Vacatures
    • Vacatures bekijken
    • Vacatures plaatsen
  • Bedrijven
    • Profielen
    • Producten & Diensten
  • Kennisbank
  • Nieuwsbrief
Onderstaande bijdrage is van een externe partij. De redactie is niet verantwoordelijk voor de geboden informatie.

Voorkom ‘memory bottlenecks’ om AI-workloads te beheersen!

21 september 20235 minuten leestijdCloud & Infrastructuur

Moderne bedrijven behalen aanzienlijke concurrentievoordelen door AI en machine learning te omarmen. Grote taalmodellen zoals ChatGPT, machine learning analyses en complexe 3D-modellen hebben op zijn minst gemeen dat ze allemaal profiteren van versnelde toegang tot opslag via elk soort gelaagd model dat je wilt gebruiken.

Dat is een belangrijke reden waarom zoveel bedrijven en serviceproviders zijn overgestapt op GPU-servers voor het verwerken van grote, gecompliceerde datasets. Ze zijn veel beter in staat om zware workloads sneller te voltooien dan conventionele servers met meer typische opslagconfiguraties (bijvoorbeeld lokaal RAM en NVMe SSD’s, met extra opslaglagen op het LAN of in de cloud).

Het geheim van het verhogen van de doorvoer is een lagere latentie en een betere opslagbandbreedte. Dit heeft directe gevolgen voor de productiviteit en capaciteit, met name door het slim gebruik van IO en netwerktechnieken die afhankelijk zijn van zowel directe als externe toegang tot geheugen. Een versnelde training van modellen en snellere taakvoltooiing resulteren in de mogelijkheid om AI-toepassingen sneller te implementeren en taken efficiënter uit te voeren, wat resulteert in een verkorte time-to-value. 

GPU’s Direct Memory Access geven

Sinds de vroege dagen van computers wordt Direct Memory Access (DMA) ingezet om IO-processen te versnellen. In essentie omvat DMA het rechtstreeks overbrengen van gegevens van het ene apparaat naar het andere, van geheugen naar geheugen, via een bus of een andere interface. Dit gebeurt door een reeks geheugenadressen direct van het geheugen van de zender naar het geheugen van de ontvanger te kopiëren, en soms zelfs tussen twee partijen voor tweerichtings overdrachten. DMA ontslaat de CPU van dit proces en versnelt de gegevensoverdracht door het aantal kopieerstappen te verminderen. Dit betekent dat de CPU niet langer belast is met het kopiëren van gegevens van de zender naar zijn eigen geheugen en vervolgens vanuit zijn geheugen naar het geheugen van de ontvanger.

De prestaties van DMA op een enkel systeem worden eigenlijk alleen beperkt door de snelheid van de bus (of andere interface) die de verzendende en ontvangende apparaten met elkaar verbindt tijdens een gegevensoverdracht. Voor PCIe 4.0 bedraagt deze snelheid 16 gigatransfers per seconde (GT/s), en voor PCIe 5.0 wordt dit zelfs verdubbeld naar 32 GT/s. De daadwerkelijke gegevenssnelheden liggen uiteraard lager vanwege overheadkosten bij het coderen en verpakken, maar de nominale bandbreedte voor deze twee PCIe-versies bedraagt respectievelijk 64 Gbps (4.0) en 128 Gbps (5.0). Dat is indrukwekkend snel!

Remote DMA (RDMA) breidt de mogelijkheden van DMA uit, die normaal gesproken binnen een enkele computer werken, om te kunnen functioneren tussen verschillende apparaten via een netwerkverbinding. RDMA maakt doorgaans gebruik van een speciale Application Programming Interface (API) die samenwerkt met gespecialiseerde netwerkhardware en -software, en probeert zoveel mogelijk van dezelfde voordelen te bieden als lokale DMA, rekening houdend met de beperkingen van de onderliggende netwerktechnologie. 

Er zijn drie gangbare RDMA-technologieën:

NVIDIA NVLink maakt gebruik van de snelste technologieën om dataoverdracht tussen GPU’s te versnellen op een high-speed netwerk. Het klokt momenteel de hoogste prestaties op standaard MLPerf Training v3.0 benchmarks voor elke technologie. Een enkele NVIDIA H100 Tensor Core GPU ondersteunt tot 18 NVLink-verbindingen voor een totale snelheid tot 900 Gbps (7 keer de effectieve snelheid van PCIe 5.0).

InfiniBand is een hogesnelheidsnetwerkstandaard onder toezicht van de InfiniBand Trade Association (IBTA) die op grote schaal wordt geïmplementeerd in krachtige netwerken. De hoogst gespecificeerde gegevenssnelheden lopen op tot 1.200 Gb/s (met 12 links) voor de NDR-specificatie vanaf 2022.

Ethernet is een standaard netwerktechnologie met vele varianten, waaronder het zelden gebruikte TbE (~125 GBps) en het meer gangbare 400 GbE (50 GBps). Het heeft als voordelen dat het betaalbaarder is, op grote schaal wordt ingezet en een vertrouwde technologie is voor datacenters.

RDMA-technologieën bieden ondersteuning voor GPU-gegevenstoegang via alle drie eerder genoemde netwerktechnologieën. Elk van deze opties biedt een andere prijs-prestatieverhouding, waarbij hogere kosten resulteren in verbeterde snelheid en lagere latentie. Organisaties hebben de flexibiliteit om het onderliggende verbindingsstype te kiezen dat het beste aansluit bij hun budget en behoeften. Ze kunnen zich bewust zijn van het feit dat elke keuze een specifieke combinatie van prijs en prestaties vertegenwoordigt waarop ze kunnen vertrouwen. Wanneer verschillende AI- of ML-gebaseerde (en andere data- en rekenintensieve) toepassingen op een dergelijke server draaien, kunnen ze profiteren van de gelaagde architectuur van GPU-opslag. 

Aangezien zowel AI- als ML-toepassingen zowel lage latentie als hoge bandbreedte vereisen, speelt RDMA een essentiële rol bij het uitbreiden van de voordelen van lokale DMA naar netwerkbronnen (afhankelijk van de onderliggende verbindingen). Deze functionaliteit maakt het mogelijk om snel toegang te krijgen tot externe gegevens door middel van memory-to-memory overdrachten tussen apparaten. Door samen te werken met technologieën zoals NVLink, InfiniBand of andere snelle Ethernet-varianten, kan een externe adapter gegevens efficiënt overbrengen van het geheugen in een systeem op afstand naar het geheugen in een lokale GPU. 

Het werkelijke voordeel van het gebruik van GPU-servers voor AI, ML en andere veeleisende workloads, zoals 3D-rendering of eindige-elementenanalyse, is dat ze de mogelijkheid bieden om infrastructuurcomponenten te ontkoppelen van applicatieloads. Dit resulteert in een aanzienlijke besparing van 20% tot 30% van de CPU-cycli die momenteel worden besteed aan het beheren van infrastructuurtoegang. Hierdoor worden resources vrijgemaakt en wordt de toegang versneld door IO-functies direct naar de hardware te sturen.

Michael McNerney, Vice President Marketing en Netwerkbeveiliging, Supermicro

Deel

    Inschrijven nieuwsbrief Computable

    Door te klikken op inschrijven geef je toestemming aan Jaarbeurs B.V. om je naam en e-mailadres te verwerken voor het verzenden van een of meer mailings namens Computable. Je kunt je toestemming te allen tijde intrekken via de af­meld­func­tie in de nieuwsbrief.
    Wil je weten hoe Jaarbeurs B.V. omgaat met jouw per­soons­ge­ge­vens? Klik dan hier voor ons privacy statement.

    Whitepapers

    Computable.nl

    Bouw de AI-organisatie niet op los zand

    Wat is de afweging tussen zelf bouwen of het benutten van cloud?

    Computable.nl

    Slimme connectiviteit: de toekomst van bouwen

    Hoe stoom jij jouw organisatie in de bouw en installatie sector klaar voor de digitale toekomst?

    Computable.nl

    De weg van dataverzameling naar impact

    Iedere organisatie heeft data, maar niet iedereen weet hoe je het goed gebruikt. Hoe zet je waardevolle informatie om in actie?

    Meer lezen

    ActueelOverheid

    KPN en Thales bouwen soevereine cloud voor Defensie

    Storagebeheer management
    OpinieData & AI

    Vraag naar Europese storage stijgt

    ActueelSoftware & Development

    Kort: Elastique op Sri Lankaans avontuur, Panasonic helpt The AA, Main koopt Carwise-duo (en meer)

    ActueelCloud & Infrastructuur

    Nederlandse bedrijven nog niet kansloos om EU-gelden cloud en ai  

    AchtergrondWerkplek & Beheer

    Pax8 schudt met cloud-marktplaats de distributiewereld op

    ActueelCloud & Infrastructuur

    Opgerolde online-drugsmarkt gebruikte Nederlandse infrastructuur

    Geef een reactie Reactie annuleren

    Je moet ingelogd zijn op om een reactie te plaatsen.

    Populaire berichten

    Meer artikelen

    Uitgelicht

    Partnerartikel
    AdvertorialInnovatie & Transformatie

    Computable Insights

    Een ai-agent die klantvragen afhandelt. Dat is een van de nieuwste troeven van softwareproducent Salesforce, dat daarmee meesurft op de...

    Meer persberichten

    Footer

    Direct naar

    • Carrièretests
    • Kennisbank
    • Planning
    • Computable Awards
    • Magazine
    • Abonneren Magazine
    • Cybersec e-Magazine

    Producten

    • Adverteren en meer…
    • Jouw Producten en Bedrijfsprofiel
    • Whitepapers & Leads
    • Vacatures & Employer Branding
    • Persberichten

    Contact

    • Colofon
    • Computable en de AVG
    • Service & contact
    • Inschrijven nieuwsbrief
    • Inlog

    Social

    • Facebook
    • X
    • LinkedIn
    • YouTube
    • Instagram
    © 2025 Jaarbeurs
    • Disclaimer
    • Gebruikersvoorwaarden
    • Privacy statement
    Computable.nl is een product van Jaarbeurs