Computable.nl
  • Thema’s
    • Carrière
    • Innovatie & Transformatie
    • Cloud & Infrastructuur
    • Data & AI
    • Governance & Privacy
    • Security & Awareness
    • Software & Development
    • Werkplek & Beheer
  • Sectoren
    • Channel
    • Financiële dienstverlening
    • Logistiek
    • Onderwijs
    • Overheid
    • Zorg
  • Awards
    • Computable Awards
    • Nieuws
    • Winnaars
    • Partner worden
    • Inzending indienen
    • Inzendingen
  • Vacatures
    • Vacatures bekijken
    • Vacatures plaatsen
  • Bedrijven
    • Profielen
    • Producten & Diensten
  • Kennisbank
  • Magazine
    • Magazine
    • Adverteren in het magazine
  • Nieuwsbrief

Apache Spark zevende hemel voor ontwikkelaar

10 oktober 2016 - 12:245 minuten leestijdOpinieCloud & Infrastructuur
Danilo Poccia
Danilo Poccia

Apache Spark is een krachtige processing engine voor big data, ontwikkeld voor snelheid, gebruiksgemak en complexe analytics. Het is de afgelopen jaren een rijzende ster in het big data landschap en houdt gelijke tred met de snelle opkomst van big data analytics. Maar waarom worden developers zo blij van Apache Spark?

Apache Spark is in essentie een framework voor parallelle dataverwerking, waarmee je eenvoudig razendsnelle big data-applicaties kunt ontwikkelen voor machine learning, stream processing en graph analytics. Als het gaat om het verwerken van big data, dan is snelheid essentieel. Een belangrijk verschil tussen Spark en Hadoop Mapreduce is dat Spark een geoptimaliseerde ‘directed acyclic graph’ (dac)-execution engine heeft, waardoor er efficiëntere query planning voor datatransformaties kan worden gemaakt.

Bovendien slaat Apache Spark input, output en tussentijdse data in-memory op als ‘resilient distributed datasets’ (rdd’s), wat snelle processing zonder i/o belasting mogelijk maakt, omdat de meeste reads en writes van en naar de harddisk worden vermeden. Dit verhoogt de prestaties van herhalende of interactieve toepassingen aanzienlijk. Zo zorgt Spark ervoor dat applicaties in Hadoop-clusters tot wel honderd keer sneller in het geheugen draaien en tot tien keer sneller vanaf harddisk.

Makkelijker ontwikkelen voor Spark

De meeste developers kennen de snelheidswinst van Spark ten opzichte van Mapreduce wel, maar de flexibiliteit in ondersteunde talen is wellicht minder bekend. Apache Spark ondersteunt Java, Scala en Python, wat enorm veel mogelijkheden geeft bij het bouwen van applicaties. Wat al deze talen gemeen hebben, is dat ze efficiënte manieren bieden om operations in ‘closures’ en lambdafuncties uit te drukken. Met closures kunnen gebruikers functies definiëren die afgestemd zijn op de kernlogica van de applicatie, wat een gestroomlijnde applicatie oplevert, met geordende, eenvoudig te lezen code.

Bovendien kunnen er SQL of HiveQL queries naar Apache Spark worden gestuurd, met de Spark SQL-module. Spark biedt meer dan tachtig high-level operators, waarmee eenvoudig parallelle apps kunnen worden gebouwd. Naast het draaien van applicaties, kan de Apache Spark api ook interactief met Python of Scala worden gebruikt, direct in de Apache Spark shell op een cluster. Handig!

Apache Spark gebruikt verschillende libraries, als SQL, Dataframes en Mlib, waarmee applicaties voor machine learning (mllib), stream processing (Spark Streaming) en graph processing (GraphX) kunnen worden gebouwd. Deze libraries zijn volledig geïntegreerd in het Apache Spark ecosysteem en kunnen naadloos worden gecombineerd in een en dezelfde applicatie. En waar Mapreduce voornamelijk data verwerkt die al opgeslagen is, kan Spark de data in realtime manipuleren, dankzij Spark Streaming.

Spark draait overal

Hoewel je Spark prima onafhankelijk kunt draaien in de standalone clustermodus, zijn de mogelijkheden veel uitgebreider dan dat. Zo draait het bijvoorbeeld ook op Hadoop’s Yarn cluster-manager. Hierdoor kunnen bestaande Hadoop-applicaties eenvoudig worden gemigreerd, wanneer het gebruik beter past bij Spark.

Daarnaast draait Spark op EC2 en Apache Mesos, en kan er data worden gelezen uit Cassandra, Hive, Tachyon HBase, HDFS en vrijwel alle Hadoop databronnen.

Groeiende Spark-community

Spark wordt gebouwd door een steeds grotere groep developers. Het project startte in 2009 en inmiddels hebben al meer dan 250 developers een bijdrage geleverd aan Spark. Dit zorgt ervoor dat functionaliteiten voortdurend worden uitgebreid en issues snel worden opgelost. Met versie 2.0 zijn er bovendien veel nieuwe functionaliteiten, waar ik erg enthousiast van word.

Zo is de SQL-functionaliteit verbeterd, hebben we native CSV data source, zijn er aanzienlijke snelheidsverbeteringen (2-10x), user-defined functionaliteiten met SparkR en structured streaming, een high level streaming-api die op Spark SQL is gebouwd.

Spark the future; waardevolle investering

De groei van Apache Spark staat niet op zich, maar valt samen met allerlei opkomende trends. Neem bijvoorbeeld het internet of things: de hoeveelheden data die hier de komende jaren verzameld gaan worden, zijn bijna onvoorstelbaar. Het IoT is bij uitstek gebaat bij de snelheid en de realtime dataverwerking van Spark; alles moet immers aan alles worden verbonden en vaak moet de data ook nog eens direct worden verwerkt om betekenisvolle resultaten op te leveren waarop direct gestuurd kan worden. Ook nieuwe toepassingen in bijvoorbeeld de gezondheidszorg, de financiële sector en het onderwijs, moeten steeds grotere datasets verwerken op een steeds grotere snelheid.

Het is dus niet verwonderlijk dat developers erg blij worden van Spark: het kan de ontwikkeling van applicaties enorm versnellen en vereenvoudigen, dankzij de geïntegreerde libraries zijn er geen externe pakketten meer nodig en applicaties zijn eenvoudiger te migreren en draaien tot wel honderd keer sneller. Spark vereist weliswaar een grotere investering in geheugen dan Hadoop, maar die investering betaalt zichzelf binnen afzienbare tijd terug.

Spark en open data

Ik verwacht dat er in de nabije toekomst meer en meer data publiekelijk gedeeld gaat worden door centrale en lokale overheden en publieke instellingen. Al die informatie gaat zorgen voor een nieuw niveau van participatie door burgers, voor het verbeteren van onze levens en het optimaliseren van publieke uitgaven. Apache Spark is een fantastische tool om iedereen met een goed idee te faciliteren en de ideeën snel te valideren op basis van relevante data. Een goed voorbeeld wordt geleverd door Transport for London, met hun open data initiatief. Er werden hackathons georganiseerd waar teams de strijd met elkaar aangingen om nieuwe use cases voor de data te vinden. Het is de beste tijd ooit voor het bouwen van datacentrische oplossingen!

Deel

    Inschrijven nieuwsbrief Computable

    Door te klikken op inschrijven geef je toestemming aan Jaarbeurs B.V. om je naam en e-mailadres te verwerken voor het verzenden van een of meer mailings namens Computable. Je kunt je toestemming te allen tijde intrekken via de af­meld­func­tie in de nieuwsbrief.
    Wil je weten hoe Jaarbeurs B.V. omgaat met jouw per­soons­ge­ge­vens? Klik dan hier voor ons privacy statement.

    Whitepapers

    Computable.nl

    Hybride vergaderen herzien

    Wat moderne werkplekken vragen van meeting- en samenwerkingsomgevingen

    Computable.nl

    Virtualisatie heroverwogen

    Waarom enterprise IT opnieuw kijkt naar kosten, schaal en flexibiliteit

    Computable.nl

    Hoe raakt NIS2 ook jouw bedrijf?

    De nieuwe cyberregels voor het MKB in aantocht

    Geef een reactie Reactie annuleren

    Je moet ingelogd zijn op om een reactie te plaatsen.

    Awards-inzendingen

    Pijl naar rechts icoon

    Scotty AI

    Scotty AI
    Pijl naar rechts icoon

    The Networkers B.V.

    Een betrouwbaar en veilig netwerk is essentieel in de zorg! (The Networkers B.V.)
    Pijl naar rechts icoon

    Schneider Electric

    Energie-efficiënt, powerdense stadsdatacenter met minimale ecologische impact (Switch Datacenters en Schneider)
    Pijl naar rechts icoon

    InSpark

    Betrouwbare stuurinformatie met een toekomstbestendig dataplatform op Fabric (SABA Adhesives en InSpark)
    Pijl naar rechts icoon

    InSpark

    Schaalbaar AI platform opent nieuwe wereld voor VDL (VDL Digital en InSpark)
    Alle inzendingen
    Pijl naar rechts icoon

    Populaire berichten

    Meer artikelen

    Uitgelicht

    Partnerartikel
    Data & AI

    De QR-code als strategische sleutel vo...

    Productdata speelt een belangrijke rol binnen productieketens. Consumenten verwachten transparantie en ketenpartners vragen om betrouwbare informatie. En ook wet- en regelgeving stelt steeds hogere eisen aan de beschikbaarheid en kwaliteit...

    Meer persberichten

    Meer lezen

    Cloud & Infrastructuur

    ASML sleept megadeal SK Hynix binnen

    Cloud & Infrastructuur

    Dertig jaar na de eerste robuuste CF-25 is er de Panasonic Toughbook 56  

    Cloud & Infrastructuur

    Kort: AP helpt bij medische data in cloud, Europol haalt bezem door darkweb (en meer)

    deal ceo
    Cloud & Infrastructuur

    Als eerste lokale Benelux-partner officieel erkend door Anthropic

    Security & Awareness

    Kort: Kabinet moet zich wapenen tegen ai-cyberaanvallen, ‘stroopwafel-succes’ DNA Services (en meer)

    Innovatie & Transformatie

    Microsoft onthult netwerktechnieken die datacenters zuiniger maken

    ...

    Footer

    Direct naar

    • Carrièretests
    • Kennisbank
    • Computable Awards
    • Magazine
    • Ontvang Computable e-Magazine
    • Cybersec e-Magazine
    • Topics
    • Phishing
    • Ransomware
    • NEN 7510

    Producten

    • Adverteren en meer…
    • Jouw Producten en Bedrijfsprofiel
    • Whitepapers & Leads
    • Vacatures & Employer Branding
    • Persberichten

    Contact

    • Colofon
    • Computable en de AVG
    • Service & contact
    • Inschrijven nieuwsbrief
    • Inlog

    Social

    • Facebook
    • X
    • LinkedIn
    • YouTube
    • Instagram
    © 2026 Jaarbeurs
    • Disclaimer
    • Gebruikersvoorwaarden
    • Privacy statement
    Computable.nl is een product van Jaarbeurs