Computable.nl
  • Thema’s
    • Carrière
    • Innovatie & Transformatie
    • Cloud & Infrastructuur
    • Data & AI
    • Governance & Privacy
    • Security & Awareness
    • Software & Development
    • Werkplek & Beheer
  • Sectoren
    • Channel
    • Financiële dienstverlening
    • Logistiek
    • Onderwijs
    • Overheid
    • Zorg
  • Computable Awards
    • Overzicht
    • Nieuws
    • Winnaars
    • Partner worden
  • Vacatures
    • Vacatures bekijken
    • Vacatures plaatsen
  • Bedrijven
    • Profielen
    • Producten & Diensten
  • Kennisbank
  • Nieuwsbrief
Onderstaande bijdrage is van een externe partij. De redactie is niet verantwoordelijk voor de geboden informatie.
[Afbeelding: 3rdtimeluckystudio/Shutterstock.com]

Zo haal je voordeel uit synthetische data

28 januari 2025 - 16:135 minuten leestijdOpinieData & AISAS
Rein Mertens
Rein Mertens

BLOG – Het is vandaag Data Protection Day, een jaarlijks moment dat ons eraan herinnert om zorgvuldig met data om te gaan. Nu data de motor van innovatie zijn, groeit de behoefte om data op een verantwoorde manier in te zetten. Synthetische data spelen hierbij een rol. Ze bieden een alternatief voor echte data en openen nieuwe mogelijkheden.

Synthetische data zijn kunstmatig gegenereerde gegevens die de kenmerken en patronen van echte data nabootsen, zonder daadwerkelijke informatie van individuen of entiteiten te bevatten. Deze data worden gecreëerd met behulp van algoritmen of modellen, vaak gebaseerd op bestaande datasets. Dit maakt het een ideaal hulpmiddel om privacyrisico’s te minimaliseren, innovatie te versnellen, flexibiliteit richting specifieke behoeften te bieden en vaak kostenefficiënt ten opzichte van het verzamelen van ‘echte’ data.

Met synthetische data kunnen bedrijven financiële transacties, medische dossiers of gedragspatronen van klanten genereren die statistische relevantie behouden zoals dus echte data. Deze opkomende technologie kan helpen bij het trainen en testen van modellen, het beschermen van privacy en het opvullen van hiaten waar echte data schaars is.

Om optimaal gebruik te maken van de voordelen van synthetische data, is het essentieel om bij de start de juiste vragen te stellen die de effectiviteit en betrouwbaarheid ervan waarborgen. Dat zijn:

  • Wat is het doel van het genereren van synthetische data?

De eerste stap is het helder definiëren van het doel van het genereren van synthetische data. Wil je een dataset uitbreiden, zeldzame scenario’s simuleren of gevoelige informatie beschermen? Synthetische data zijn ideaal voor het trainen en valideren van machine learning-modellen bij een tekort aan echte data of voor het simuleren van zeldzame gebeurtenissen. Een duidelijke doelstelling stuurt het proces en helpt bij de keuze van geschikte methoden en tools.

  • Welke methoden kun je gebruiken?

Er zijn verschillende methoden om synthetische data te genereren, elk met unieke voordelen en beperkingen. Een eenvoudige aanpak is het gebruik van regels, waarbij data worden gegenereerd op basis van bekende patronen, zoals statistische verdelingen of domeinspecifieke logica. Hoewel dit effectief kan zijn, schalen regelgebaseerde methoden slecht bij complexe datasets met veel attributen en relaties.

Daarvoor bestaan geavanceerdere technieken zoals generative adversarial networks (gans), synthetic minority oversampling technique (smote) en agent-gebaseerde modellering. Deze moeten flexibiliteit bieden. Gans zijn deep learning-modellen die bijzonder nuttig zijn voor het genereren van realistische data door twee neurale netwerken te trainen tot het verschil tussen echte en synthetische data niet meer waarneembaar is. Smote is effectief voor het balanceren van klassenverdelingen in onevenwichtige datasets door intelligent te interpoleren tussen echte datapunten.

  • Hoe garandeer je de kwaliteit en validiteit?

Bij synthetische data vormen kwaliteit en validiteit de basis. De gegenereerde data moeten de statistische eigenschappen van de originele data nauwkeurig weergeven, inclusief de correlatie tussen attributen/kolommen, zonder de integriteit ervan in gevaar te brengen. Dit omvat het gebruik van visuele en statistische evaluatiemetrieken om de kwaliteit van de synthetische data te beoordelen. Daarnaast is het essentieel om de synthetische data te valideren door deze te vergelijken met echte data (distributies en relaties). Pas dan is vast te stellen dat ze voldoen aan de gewenste criteria en effectief het beoogde doel dienen. Als synthetische data onvoldoende overeenkomen met echte data, dan kan dit ernstige gevolgen hebben voor het trainen, testen en implementeren van modellen.

  • Hoe ga je om met privacy en veiligheid?

Een voordeel van synthetische data is het vermogen om privacy te beschermen. Het is echter essentieel om ervoor te waken dat de data geen gevoelige informatie blootleggen of te herleiden zijn naar echte brongegevens. Technieken zoals ‘differentiële privacy’ zijn in te zetten om ruis toe te voegen aan de data tijdens het trainings- en generatieproces, waardoor het vrijwel onmogelijk wordt om individuen opnieuw te identificeren. Daarnaast moeten sterke beveiligingsmaatregelen worden genomen om de synthetische data te beschermen tegen ongeautoriseerde toegang en zo dataprivacy en -veiligheid te waarborgen.

  • Hoe voorkom je vooroordelen (bias) in de data?

Net als bij echte data kan bias in synthetische data leiden tot onnauwkeurige resultaten, vooral bij machine learning-modellen die gebruikt worden voor beslissingen die impact hebben op mensen. Het is daarom cruciaal om eventuele vooroordelen in de originele dataset te identificeren en te beperken, zodat deze niet worden overgenomen in de synthetische data. Dit vereist een grondige analyse van ondervertegenwoordigde groepen of segmenten en aandacht voor een evenwichtige verdeling tijdens het genereren van de data. Het aanpakken van bias draagt bij aan eerlijke, betrouwbare synthetische data en betere besluitvorming.

  • Hoe integreer je synthetische met echte data?

Het combineren van synthetische data met echte data kan de dataset verrijken en de modelprestaties verbeteren. Soms betekent dit het samenvoegen van beide soorten data om een uitgebreide dataset te creëren voor ontwikkeling en testen. In andere gevallen is het effectiever om synthetische data specifiek te gebruiken voor validatie, bijvoorbeeld om de robuustheid van modellen bij besluitvorming te toetsen.

Belangrijk is dat de synthetische data de echte data aanvult zonder inconsistenties te veroorzaken. Met een zorgvuldige integratie kun je optimaal profiteren van de voordelen van beide, wat resulteert in robuustere modellen en betere beslissingen.

Tot slot nog even over Data Protection Day: die dag herinnert ons eraan hoe belangrijk het is zorgvuldig om te gaan met persoonlijke gegevens. Synthetische data bieden een innovatieve oplossing om privacy te beschermen zonder concessies te doen aan de waarde van data-analyse. Door slimme keuzes te maken, vind je een balans tussen innovatie en verantwoordelijkheid.

Rein Mertens is head of customer advisory bij SAS Platform

Meer over

synthetische data

Deel

    Inschrijven nieuwsbrief Computable

    Door te klikken op inschrijven geef je toestemming aan Jaarbeurs B.V. om je naam en e-mailadres te verwerken voor het verzenden van een of meer mailings namens Computable. Je kunt je toestemming te allen tijde intrekken via de af­meld­func­tie in de nieuwsbrief.
    Wil je weten hoe Jaarbeurs B.V. omgaat met jouw per­soons­ge­ge­vens? Klik dan hier voor ons privacy statement.

    Whitepapers

    Computable.nl

    Bouw de AI-organisatie niet op los zand

    Wat is de afweging tussen zelf bouwen of het benutten van cloud?

    Computable.nl

    De weg van dataverzameling naar impact

    Iedere organisatie heeft data, maar niet iedereen weet hoe je het goed gebruikt. Hoe zet je waardevolle informatie om in actie?

    Computable.nl

    In detail: succesvolle AI-implementaties

    Het implementeren van kunstmatige intelligentie (AI) biedt enorme kansen, maar roept ook vragen op. Deze paper beschrijft hoe je als (middel)grote organisatie klein kunt starten met AI en gaandeweg kunnen opschalen.

    Meer lezen

    ActueelCarrière

    Kort: Brunel viert 50ste verjaardag, Wortell wint gunning veiligheidsregio (en meer)

    ActueelCarrière

    Kort: reorganisatie bij TomTom, investeringen in ai betaalt zich snel uit (en meer)

    ActueelData & AI

    EU breidt ai-platform uit met marktplaats en tools voor gen-ai

    ActueelData & AI

    Fundament onder Groningse ai-fabriek

    Ontslagen
    ActueelCarrière

    ASML ontslaat it-manager om dubbelrol, IFS brengt ai-agent naar fabrieksvloer (en meer)

    ActueelData & AI

    Europese beurzen voor grensverleggend UvA-onderzoek in it

    Geef een reactie Reactie annuleren

    Je moet ingelogd zijn op om een reactie te plaatsen.

    Populaire berichten

    Meer artikelen

    Uitgelicht

    Partnerartikel
    AdvertorialInnovatie & Transformatie

    Computable Insights

    Een ai-agent die klantvragen afhandelt. Dat is een van de nieuwste troeven van softwareproducent Salesforce, dat daarmee meesurft op de...

    Meer persberichten

    Footer

    Direct naar

    • Carrièretests
    • Kennisbank
    • Planning
    • Computable Awards
    • Magazine
    • Abonneren Magazine
    • Cybersec e-Magazine

    Producten

    • Adverteren en meer…
    • Jouw Producten en Bedrijfsprofiel
    • Whitepapers & Leads
    • Vacatures & Employer Branding
    • Persberichten

    Contact

    • Colofon
    • Computable en de AVG
    • Service & contact
    • Inschrijven nieuwsbrief
    • Inlog

    Social

    • Facebook
    • X
    • LinkedIn
    • YouTube
    • Instagram
    © 2025 Jaarbeurs
    • Disclaimer
    • Gebruikersvoorwaarden
    • Privacy statement
    Computable.nl is een product van Jaarbeurs