Computable.nl
  • Thema’s
    • Carrière
    • Innovatie & Transformatie
    • Cloud & Infrastructuur
    • Data & AI
    • Governance & Privacy
    • Security & Awareness
    • Software & Development
    • Werkplek & Beheer
  • Sectoren
    • Channel
    • Financiële dienstverlening
    • Logistiek
    • Onderwijs
    • Overheid
    • Zorg
  • Awards
    • Overzicht
    • Nieuws
    • Winnaars
    • Partner worden
  • Vacatures
    • Vacatures bekijken
    • Vacatures plaatsen
  • Bedrijven
    • Profielen
    • Producten & Diensten
  • Kennisbank
  • Magazine
  • Nieuwsbrief

Documenten beheren met XML

01 oktober 1998 - 22:004 minuten leestijdOpinieCloud & Infrastructuur
Martin Healey
Martin Healey

Ik weet zeker dat XML de grootste IT-ontwikkeling sinds SQL is. XML biedt een standaard waarmee goedkoop interactieve informatiesystemen te ontwikkelen, waarbij meerdere auteurs aan één document werken. Omdat het een officiële WWW-standaard is, zal XML een sterke commerciële steun krijgen.

Minstens zo belangrijk is dat Microsoft ook heeft ingezien hoe krachtig XML is; voor de eerste keer in het bestaan proberen ze nu het voortouw te nemen in plaats van een bestaande standaard te kapen en achteraf aan te passen. Omdat XML het meest waard is in kantooromgevingen, is de ondersteuning door Microsoft zeer belangrijk. Microsoft lijkt zich als geen ander bedrijf bewust van de potentie van XML.
Nu de nadruk in de IT-wereld steeds meer op informatie komt te liggen, ontstaat een soort tweedeling. De reden hiervoor is dat formele gegevens anders worden behandeld dan tekst en beeld. Het is een feit dat we de komende jaren niet hoeven te rekenen op een echte integratie van gegevens, tekst en plaatjes, al is XML een stap in de goede richting. Hieruit volgt dat veel nieuwe producten ontwikkeld zullen worden voor het importeren en exporteren van gegevens door middel van ‘gateways’.
Om de kern van het probleem te kunnen begrijpen, moeten we eerst een classificatie van informatie maken. Dit is een ondankbare taak, maar het legt de omvang van het probleem duidelijk bloot.
Informatie ontstaat door menselijk handelen, zoals handgeschreven briefjes, of in elektronische vorm, zoals elektronische betaalgegevens die worden gegenereerd door een scanner. Een conversie van elektronisch formaat naar ‘menselijk’ formaat is eenvoudig – denk aan het printen van een brief die met een tekstverwerker is opgesteld – maar het omgekeerde is veel moeilijker; een voorbeeld is optische karakterherkenning (ocr).
De meest voor de hand liggende tweedeling is die tussen gegevens en documenten. Gegevens worden van oudsher op een formele wijze gerepresenteerd: records met vaste lengte, die weer zijn onderverdeeld in velden, waardoor repetitieve gegevens eenvoudig te verwerken zijn. Deze applicaties hebben echter problemen met tekstvelden, zoals adressen die variabel in lengte kunnen zijn. Documenten zijn veel complexer.
De eerste onderverdeling in het rijk der documenten is die tussen documenten die wel door een computer gegenereerd zijn en documenten die op een andere wijze totstandgekomen zijn.
Als een document in geformatteerde vorm beschikbaar is, zoals een bestand voor een tekstverwerker, kan het document bewerkt worden. Is dat niet zo, dan moet het gescand worden, waarbij het wordt geconverteerd naar elektronisch formaat. In deze gevallen is de elektronische vorm veel moeilijker te bewerken, omdat de informatie die nodig is voor de formattering ontbreekt.
In de tweede plaats kan onderscheid worden gemaakt tussen gestructureerde en ongestructureerde documenten. Formulieren zijn voorbeelden van gestructureerde documenten; variabele gegevens kunnen in specifieke velden worden ingevuld. Een brief is een voorbeeld van een ongestructureerd document. Handgeschreven brieven leveren in een geïntegreerd documentsysteem altijd de meeste problemen op, omdat het erg moeilijk is de handgeschreven karakters om te zetten in een formaat dat door een tekstverwerker kan worden gelezen. Merk op dat de meeste succesvolle ocr-systemen gebaseerd zijn op speciale lettertypen, zoals bij betaalkaarten; getypte tekst is iets moeilijker, gevolgd door hoofdletters in vakjes en tenslotte handgeschreven tekst.
Eén manier om met handgeschreven documenten om te gaan is ze gewoon als bitmaps te behandelen; deze techniek wordt toegepast in een aantal bestaande ‘document image processing’-systemen (dip). Deze techniek kan worden toegepast op elk document, zowel plaatjes als tekst. Het verwerken van documenten bestaat hierbij uit scannen, opslaan, ophalen en weer afbeelden. De belangstelling voor het automatisch verwerken van fotomateriaal heeft geleid tot een efficiënte implementatie van software voor het scannen, bewerken en aanpassen van foto’s en videobeelden. Merk op dat het intact blijven van een brief van kritisch belang kan zijn, bijvoorbeeld bij het afhandelen van schadeclaims.
Het echte legacy-probleem is gerelateerd aan tekstverwerkers. De tekstverwerker produceert weliswaar een geformatteerd bestand dat door een andere tekstverwerker kan worden bewerkt, maar het resulterende bestand kent geen vaste structuur. Dit is prima voor eenvoudige brieven en memo’s, maar niet voor documenten. En hiermee bedoel ik een document dat bestaat uit meerdere pagina’s en waar meerdere auteurs aan werken. Zulke documenten zijn ‘levend’, terwijl een brief statisch is. Handboeken, standaarden, offertes en dergelijke, zijn voorbeelden van documenten waar gewone tekstverwerkers eigenlijk niet goed mee kunnen omgaan.
Bedrijven en instellingen gebruiken tekstverwerkers voor zowel brieven als documenten. Deze sequentiële bestanden kunnen dan worden opgeslagen in folders, maar alleen als gehele entiteiten – net als gescande beelden in een dip-systeem, maar dan simpeler. De uitgeverswereld gebruikt daarentegen al jaren de Standard Generalised Markup Language (Sgml) om de inhoud van een document te kunnen scheiden van de uiteindelijke vorm en afbeelding. XML is een vereenvoudigde afgeleide van Sgml, waaraan het hypertext-concept van Html is toegevoegd. Hierover later meer.
 

Meer over

NetwerkenSQL

Deel

    Inschrijven nieuwsbrief Computable

    Door te klikken op inschrijven geef je toestemming aan Jaarbeurs B.V. om je naam en e-mailadres te verwerken voor het verzenden van een of meer mailings namens Computable. Je kunt je toestemming te allen tijde intrekken via de af­meld­func­tie in de nieuwsbrief.
    Wil je weten hoe Jaarbeurs B.V. omgaat met jouw per­soons­ge­ge­vens? Klik dan hier voor ons privacy statement.

    Whitepapers

    Computable.nl

    Slim verbonden en veilig georganiseerd

    Waarom connectiviteit en security onlosmakelijk verbonden zijn.

    Computable.nl

    Kies de juiste virtualisatie-aanpak

    Vergelijk drie krachtige open source-oplossingen: Proxmox, Kubernetes en OpenStack

    Computable.nl

    Beveiliging begint bij de Server

    Is serverhardware de blinde vlek in het securitybeleid? Waarom lifecycle-denken cruciaal is voor IT-security

    Geef een reactie Reactie annuleren

    Je moet ingelogd zijn op om een reactie te plaatsen.

    Populaire berichten

    Meer artikelen

    Uitgelicht

    Teamvalue

    Partnerartikel
    Cloud & Infrastructuur

    20% besparen op je Azure-kosten en een...

    Azure biedt organisaties schaalbaarheid, flexibiliteit en toegang tot een breed scala aan diensten. Toch zien veel organisaties hun kosten ongemerkt...

    Meer persberichten

    Meer lezen

    Software & Development

    Value8 wil totale controle over Ctac

    soevereine cloud
    Cloud & Infrastructuur

    Hoe soeverein moet de NDS zijn?

    Security & Awareness

    Twee dagen volle bak met prominente ot-rol

    Cloud & Infrastructuur

    Navo moderniseert it-infrastructuur met Oracle en Thales

    Luchtfoto van het datacenter-complex van Microsoft in Middenmeer.
    Data & AI

    Microsoft breidt datacenter in Wieringermeer fors uit

    Data & AI

    Amsterdams-Russische Nebius ‘hofleverancier’ van Microsoft

    ...

    Footer

    Direct naar

    • Carrièretests
    • Kennisbank
    • Planning
    • Computable Awards
    • Magazine
    • Ontvang Computable e-Magazine
    • Cybersec e-Magazine
    • Topics
    • Phishing
    • Ransomware
    • NEN 7510

    Producten

    • Adverteren en meer…
    • Jouw Producten en Bedrijfsprofiel
    • Whitepapers & Leads
    • Vacatures & Employer Branding
    • Persberichten

    Contact

    • Colofon
    • Computable en de AVG
    • Service & contact
    • Inschrijven nieuwsbrief
    • Inlog

    Social

    • Facebook
    • X
    • LinkedIn
    • YouTube
    • Instagram
    © 2025 Jaarbeurs
    • Disclaimer
    • Gebruikersvoorwaarden
    • Privacy statement
    Computable.nl is een product van Jaarbeurs