Computable.nl
  • Thema’s
    • Carrière
    • Innovatie & Transformatie
    • Cloud & Infrastructuur
    • Data & AI
    • Governance & Privacy
    • Security & Awareness
    • Software & Development
    • Werkplek & Beheer
  • Sectoren
    • Channel
    • Financiële dienstverlening
    • Logistiek
    • Onderwijs
    • Overheid
    • Zorg
  • Computable Awards
    • Overzicht
    • Nieuws
    • Winnaars
    • Partner worden
  • Vacatures
    • Vacatures bekijken
    • Vacatures plaatsen
  • Bedrijven
    • Profielen
    • Producten & Diensten
  • Kennisbank
  • Nieuwsbrief

Bill Inmon laat mogelijkheden Textual ETL zien

08 augustus 2014 - 20:454 minuten leestijdOpinieData & AI
ing. Tanja Ubert
ing. Tanja Ubert

Stel je voor: Je hebt heel veel data en je wilt hier aan betekenis geven, maar er is geen structuur in de gegevens verborgen. Wat doe je dan? Enige tijd geleden, 21 mei, was ik bij Bill Inmon en hij introduceerde Textual ETL. En wat hij met zijn team heeft uitgevonden kan wel eens the next ‘big’ thing zijn. Iedereen is nog aan het bijkomen van het ‘instant’ succes van big data en Hadoop en zo, maar hij heeft het echt begrepen.

Nu denk je misschien, Inmon, die is toch mega oud en achterhaalt op bi-gebied. Eerlijk gezegd ging ik ook wat sceptisch, maar ja, de kans om de grondlegger van mijn vak ‘live’ te ontmoeten kon ik toch niet weerstaan. Daarbij opgeteld dat het was georganiseerd door BI-Podium, moest het toch wel leuk worden. Wat schetst mijn verbazing: zes mensen en Bill dus. Dat had ik niet verwacht. Zat ik gewoon naast Bill Inmon, voor een hele dag.

Slimme man

En wat voor een dag. Hij mag dan wel oud zijn, maar wat een slimme man is dat zeg. Respect. En wat hij met zijn team heeft uitgevonden kan wel eens ‘the next ‘big’ thing zijn. Terwijl iedereen nog aan het bijkomen is van het ‘instant’ succes van big data en Hadoop en zo, heeft hij het echt begrepen.

Want, even in een notedop, wat doet bijvoorbeeld Hadoop in ‘mensen taal’? Het scant data, veel data, en vindt hierin structuren die niet expliciet zijn. Deze worden op de rest van de data losgelaten en hierdoor kan een enorme dataset toch gelezen worden alsof het een soort database is. Natuurlijk is het technisch allemaal veel ingewikkelder, maar ja, dat legt niet zo snel en makkelijk uit, dus ik laat het hier even bij.

Het nadeel hiervan is dat je vooral kunt kijken naar zogenaamde procesdata. Dus logfiles, errorfiles en zo. Want daarin zijn die ‘verborgen’ structuren te vinden. Mooi kunstje natuurlijk, maar wat is de business value (wat verdienen we eraan) als we dat kunnen?

Wat doet Inmon dan met zijn team, waar ik zo blij van werd vraag je je misschien af? Het was maar één dag, dus ik ben nog geen expert, maar hij kan zoeken en herkennen in data zonder ‘verborgen structuren’ door gebruik te maken van taxonomieën. 

Even opfrissen: Een taxonomie of taxinomie is de wetenschap van het indelen van individuen of objecten in groepen.

Coderen

Wat hij doet is, ook weer in een notendop, het volgende: Hij gebruikt de methode ‘coderen’ , die we nog kennen uit de ouderwetse onderzoeksmethoden. Waarbij een interview/verslag werd gecodeerd. Dus woorden en zinnen die hetzelfde betekende, maar anders waren geschreven, kregen dezelfde waarde.

Inmon codeert alleen niet met de hand, maar met een bij het bedrijf passende taxonomie. Die koopt hij gewoon bij een bedrijf dat hierin is gespecialiseerd.

Dus van te voren bepaald welke woorden hetzelfde betekenen, passend in het bedrijf of de branche van het bedrijf. Hij heeft ook een tool gemaakt waarmee specifieke zaken herkent kunnen worden.

Voorbeeld: In de tekst staat een aap, hierbij wordt aangetekend dat dit hoort tot de groep dier. En een schaap, ook hierbij komt dier en bij een paard en komt ook dier. Verder staat ook nog in de taxonomie dat de aap een wild dier is en een paard en schaap een boerderijdier. Vervolgens kun je de tool alle voorkomende dieren laten vinden of tellen of laten vinden of dieren in combinatie met een andere term te vinden zijn.

Zie je de mogelijkheden al? Een verzekeringsmaatschappij heeft in de taxonomie staan dat een reeks van tien aangesloten cijfers een polisnummer is, en als in een email het woord claim hierbij voorkomt, dan moet er een signaal komen. Maar ook als er schade, advocaat, rechtszaak et cetera staat. Nu kan tijdens de vakantieperiode alle mail gescand worden op de aangegeven combinaties, zodat er niet meer te laat op belangrijke mails wordt gereageerd als er veel mensen op vakantie zijn, waardoor proceskosten worden voorkomen. Begint het te dagen?

Wat hij doet is, aan grote hoeveelheden ongestructureerde data, met behulp van taxonomieën betekenis geven. Dat heeft volgens mij een enorm business potentieel.

Inmon’s boek hierover komt volgend jaar mei ongeveer uit. Ik heb het concept van zijn boek alvast gekregen, en ik ben druk aan het lezen, want na deze dag wil ik van de hoed en de rand weten. Als docent zijn vakanties ook voor research natuurlijk. En ik ga hier zeker lessen over maken, want volgens mij wordt dit ‘the next ‘big’ thing’. Wat denk jij?

Meer over

Business IntelligenceETL

Deel

    Inschrijven nieuwsbrief Computable

    Door te klikken op inschrijven geef je toestemming aan Jaarbeurs B.V. om je naam en e-mailadres te verwerken voor het verzenden van een of meer mailings namens Computable. Je kunt je toestemming te allen tijde intrekken via de af­meld­func­tie in de nieuwsbrief.
    Wil je weten hoe Jaarbeurs B.V. omgaat met jouw per­soons­ge­ge­vens? Klik dan hier voor ons privacy statement.

    Whitepapers

    Computable.nl

    De weg van dataverzameling naar impact

    Iedere organisatie heeft data, maar niet iedereen weet hoe je het goed gebruikt. Hoe zet je waardevolle informatie om in actie?

    Computable.nl

    In detail: succesvolle AI-implementaties

    Het implementeren van kunstmatige intelligentie (AI) biedt enorme kansen, maar roept ook vragen op. Deze paper beschrijft hoe je als (middel)grote organisatie klein kunt starten met AI en gaandeweg kunnen opschalen.

    Computable.nl

    Maak kennis met digitale identiteiten

    De digitale economie groeit snel en de EU heeft strikte regelgeving ingevoerd om de veiligheid en privacy te waarborgen; in deze whitepaper ontdek je hoe digitale identiteiten deze transitie ondersteunen en wat dit voor jouw organisatie betekent.

    Meer lezen

    ActueelData & AI

    Lleverage ontvangt drie miljoen voor ‘vibe automation’

    stopbord met tekst: ransomware
    AchtergrondData & AI

    De kille cyberafpersing van LockBit in 6 stappen uitgelegd

    AchtergrondData & AI

    Een stortvloed aan ai-tools; ServiceNow drinkt zijn eigen champagne

    ActueelCloud & Infrastructuur

    Kort: Eigen ai-assistent Amsterdam, NIS2-manager Atos, DSA-check ACM en…

    AchtergrondData & AI

    ISO 42001 veelbelovend als standaard voor verantwoorde ai

    Maersk containerschip in de Rode Zee
    ActueelData & AI

    Verbetering nodig bij Digitale Infrastructuur Logistiek

    4 reacties op “Bill Inmon laat mogelijkheden Textual ETL zien”

    1. willemK schreef:
      13 augustus 2014 om 14:09

      Interessant. Maar is dit niet een beetje oude wijn in nieuwe zakken? Waarbij de oude wijn in dit geval Text Mining heet?

      Login om te reageren
    2. Ewoud D. schreef:
      13 augustus 2014 om 19:12

      Deel enthousiasme van auteur niet wat aan de vergezochte voorbeelden kan liggen of kern van het verhaal en krijg hierdoor de indruk dat paard weer eens achter de wagen gespannen wordt. Nu is deze wijze van ordening al eeuwen oud en wordt al heel lang gebruikt in de natuurwetenschap, Darwin is er zelfs bekend mee geworden.

      Dat ongestructureerde data lastiger te ordenen is lijkt mij geen nieuws en dat zoektermen hierbij kunnen helpen ook niet hoewel er nog uitdagingen liggen in de semantiek. Welke woorden hetzelfde betekenen is in e-mail nogal veranderlijk, tel daarbij op dat in deze communicatie ook steeds meer gebruik gemaakt wordt van afkortingen en ik vraag me af wat de uitval is van dit soort systemen.

      Hierdoor lijkt Textual ETL me een grote mate inefficiëntie te hebben, een extra verwerkingsslag die voorkomen kan worden als niet telkens geprobeerd wordt om de geit en de kool te sparen. Proceskosten als gevolg van een slechte planning oplossen met deze ‘next big thing’ is naar mijn opinie gewoon monkey business, het zoeken naar problemen om deze vervolgens overal te vinden en verkeerd op te lossen.

      Login om te reageren
    3. Felix The Cat schreef:
      14 augustus 2014 om 06:02

      Blijkbaar hebben recruiters zo’n tool nog niet, als ik mijn mailbox bekijk. of juist wel, maar heeft tot nu toe niemand het echt begrepen ?
      Toch kan iedere student zo’n algoritme verzinnen.
      Broodje schaap artikel ?
      Eerst maar eens bijkomen van het succes van big data.

      Login om te reageren
    4. deejaa schreef:
      14 augustus 2014 om 06:36

      Ik deel het enthousiasme van de auteur over de ontwikkeling wel, vraag me alleen af wat er nu eigenlijk uitgevonden is. Deze methodiek is volgens mij niet zo nieuw. Sterker nog wat bijvoorbeeld IBM met Watson heeft gedaan op basis van onder andere het Apache UIMA (Unstructured Information Management Architecture) framework heeft alles te maken met verregaande structuurherkenning in ongestructureerde informatie op basis van patronen en semantiek. En ja, coderen gebeurt daar ook in de vorm van zogenaamde annotators. Daar kun je dan bijvoorbeeld Jeopardy! mee winnen of een commercieel product van maken als IBM Content Analytics. En IBM is zeker niet de enige in deze wereld.

      Kortom, oude man of jonge vrouw. Bijblijven in een veranderende wereld blijkt lastig voor ons allemaal.

      Login om te reageren

    Geef een reactie Reactie annuleren

    Je moet ingelogd zijn op om een reactie te plaatsen.

    Populaire berichten

    Meer artikelen

    Footer

    Direct naar

    • Carrièretests
    • Kennisbank
    • Planning
    • Computable Awards
    • Magazine
    • Abonneren Magazine
    • Cybersec e-Magazine

    Producten

    • Adverteren en meer…
    • Jouw Producten en Bedrijfsprofiel
    • Whitepapers & Leads
    • Vacatures & Employer Branding
    • Persberichten

    Contact

    • Colofon
    • Computable en de AVG
    • Service & contact
    • Inschrijven nieuwsbrief
    • Inlog

    Social

    • Facebook
    • X
    • LinkedIn
    • YouTube
    • Instagram
    © 2025 Jaarbeurs
    • Disclaimer
    • Gebruikersvoorwaarden
    • Privacy statement
    Computable.nl is een product van Jaarbeurs