Computable.nl
  • Thema’s
    • Carrière
    • Innovatie & Transformatie
    • Cloud & Infrastructuur
    • Data & AI
    • Governance & Privacy
    • Security & Awareness
    • Software & Development
    • Werkplek & Beheer
  • Sectoren
    • Channel
    • Financiële dienstverlening
    • Logistiek
    • Onderwijs
    • Overheid
    • Zorg
  • Awards
    • Computable Awards
    • Nieuws
    • Winnaars
    • Partner worden
    • Inzending indienen
    • Inzendingen
  • Vacatures
    • Vacatures bekijken
    • Vacatures plaatsen
  • Bedrijven
    • Profielen
    • Producten & Diensten
  • Kennisbank
  • Magazine
    • Magazine
    • Adverteren in het magazine
  • Nieuwsbrief

Documenten beheren met XML

01 oktober 1998 - 22:004 minuten leestijdOpinieCloud & Infrastructuur
Martin Healey
Martin Healey

Ik weet zeker dat XML de grootste IT-ontwikkeling sinds SQL is. XML biedt een standaard waarmee goedkoop interactieve informatiesystemen te ontwikkelen, waarbij meerdere auteurs aan één document werken. Omdat het een officiële WWW-standaard is, zal XML een sterke commerciële steun krijgen.

Minstens zo belangrijk is dat Microsoft ook heeft ingezien hoe krachtig XML is; voor de eerste keer in het bestaan proberen ze nu het voortouw te nemen in plaats van een bestaande standaard te kapen en achteraf aan te passen. Omdat XML het meest waard is in kantooromgevingen, is de ondersteuning door Microsoft zeer belangrijk. Microsoft lijkt zich als geen ander bedrijf bewust van de potentie van XML.
Nu de nadruk in de IT-wereld steeds meer op informatie komt te liggen, ontstaat een soort tweedeling. De reden hiervoor is dat formele gegevens anders worden behandeld dan tekst en beeld. Het is een feit dat we de komende jaren niet hoeven te rekenen op een echte integratie van gegevens, tekst en plaatjes, al is XML een stap in de goede richting. Hieruit volgt dat veel nieuwe producten ontwikkeld zullen worden voor het importeren en exporteren van gegevens door middel van ‘gateways’.
Om de kern van het probleem te kunnen begrijpen, moeten we eerst een classificatie van informatie maken. Dit is een ondankbare taak, maar het legt de omvang van het probleem duidelijk bloot.
Informatie ontstaat door menselijk handelen, zoals handgeschreven briefjes, of in elektronische vorm, zoals elektronische betaalgegevens die worden gegenereerd door een scanner. Een conversie van elektronisch formaat naar ‘menselijk’ formaat is eenvoudig – denk aan het printen van een brief die met een tekstverwerker is opgesteld – maar het omgekeerde is veel moeilijker; een voorbeeld is optische karakterherkenning (ocr).
De meest voor de hand liggende tweedeling is die tussen gegevens en documenten. Gegevens worden van oudsher op een formele wijze gerepresenteerd: records met vaste lengte, die weer zijn onderverdeeld in velden, waardoor repetitieve gegevens eenvoudig te verwerken zijn. Deze applicaties hebben echter problemen met tekstvelden, zoals adressen die variabel in lengte kunnen zijn. Documenten zijn veel complexer.
De eerste onderverdeling in het rijk der documenten is die tussen documenten die wel door een computer gegenereerd zijn en documenten die op een andere wijze totstandgekomen zijn.
Als een document in geformatteerde vorm beschikbaar is, zoals een bestand voor een tekstverwerker, kan het document bewerkt worden. Is dat niet zo, dan moet het gescand worden, waarbij het wordt geconverteerd naar elektronisch formaat. In deze gevallen is de elektronische vorm veel moeilijker te bewerken, omdat de informatie die nodig is voor de formattering ontbreekt.
In de tweede plaats kan onderscheid worden gemaakt tussen gestructureerde en ongestructureerde documenten. Formulieren zijn voorbeelden van gestructureerde documenten; variabele gegevens kunnen in specifieke velden worden ingevuld. Een brief is een voorbeeld van een ongestructureerd document. Handgeschreven brieven leveren in een geïntegreerd documentsysteem altijd de meeste problemen op, omdat het erg moeilijk is de handgeschreven karakters om te zetten in een formaat dat door een tekstverwerker kan worden gelezen. Merk op dat de meeste succesvolle ocr-systemen gebaseerd zijn op speciale lettertypen, zoals bij betaalkaarten; getypte tekst is iets moeilijker, gevolgd door hoofdletters in vakjes en tenslotte handgeschreven tekst.
Eén manier om met handgeschreven documenten om te gaan is ze gewoon als bitmaps te behandelen; deze techniek wordt toegepast in een aantal bestaande ‘document image processing’-systemen (dip). Deze techniek kan worden toegepast op elk document, zowel plaatjes als tekst. Het verwerken van documenten bestaat hierbij uit scannen, opslaan, ophalen en weer afbeelden. De belangstelling voor het automatisch verwerken van fotomateriaal heeft geleid tot een efficiënte implementatie van software voor het scannen, bewerken en aanpassen van foto’s en videobeelden. Merk op dat het intact blijven van een brief van kritisch belang kan zijn, bijvoorbeeld bij het afhandelen van schadeclaims.
Het echte legacy-probleem is gerelateerd aan tekstverwerkers. De tekstverwerker produceert weliswaar een geformatteerd bestand dat door een andere tekstverwerker kan worden bewerkt, maar het resulterende bestand kent geen vaste structuur. Dit is prima voor eenvoudige brieven en memo’s, maar niet voor documenten. En hiermee bedoel ik een document dat bestaat uit meerdere pagina’s en waar meerdere auteurs aan werken. Zulke documenten zijn ‘levend’, terwijl een brief statisch is. Handboeken, standaarden, offertes en dergelijke, zijn voorbeelden van documenten waar gewone tekstverwerkers eigenlijk niet goed mee kunnen omgaan.
Bedrijven en instellingen gebruiken tekstverwerkers voor zowel brieven als documenten. Deze sequentiële bestanden kunnen dan worden opgeslagen in folders, maar alleen als gehele entiteiten – net als gescande beelden in een dip-systeem, maar dan simpeler. De uitgeverswereld gebruikt daarentegen al jaren de Standard Generalised Markup Language (Sgml) om de inhoud van een document te kunnen scheiden van de uiteindelijke vorm en afbeelding. XML is een vereenvoudigde afgeleide van Sgml, waaraan het hypertext-concept van Html is toegevoegd. Hierover later meer.
 

Meer over

NetwerkenSQL

Deel

    Inschrijven nieuwsbrief Computable

    Door te klikken op inschrijven geef je toestemming aan Jaarbeurs B.V. om je naam en e-mailadres te verwerken voor het verzenden van een of meer mailings namens Computable. Je kunt je toestemming te allen tijde intrekken via de af­meld­func­tie in de nieuwsbrief.
    Wil je weten hoe Jaarbeurs B.V. omgaat met jouw per­soons­ge­ge­vens? Klik dan hier voor ons privacy statement.

    Whitepapers

    Computable.nl

    Geïntegreerde ICT in de zorg

    Hoe samenhang in IT bijdraagt aan continuïteit en veiligheid

    Computable.nl

    Digitalisering die zorg versterkt

    Hoe is de zorg voorbereid op de toekomst, met een hoofdrol voor cloud en connectiviteit?

    Computable.nl

    Toekomst van netwerkbeveiliging

    Waarom geïntegreerde architecturen bepalend worden voor schaal en controle

    Geef een reactie Reactie annuleren

    Je moet ingelogd zijn op om een reactie te plaatsen.

    Awards-inzendingen

    Pijl naar rechts icoon

    GS1 Nederland

    Superunie ziet GS1 PAC als krachtige tool voor delen van verpakkingsdata
    Pijl naar rechts icoon

    DataChecker

    Budbee controleert identiteit koeriers (Budbee en DataChecker)
    Pijl naar rechts icoon

    AmeXio

    Modernisering van het digitale platform van Sligro Food Group (AmeXio en Sligro Food Group)
    Pijl naar rechts icoon

    E-Mergo BV

    Van dashboards naar datagedreven alerts met Power Platform (E-Mergo en Lavans)
    Pijl naar rechts icoon

    Carapax IT

    Monitoring luchtkwaliteit in industriële omgevingen met innovatieve data-analyse en AI-oplossingen (Comon Invent en Carapax IT)
    Alle inzendingen
    Pijl naar rechts icoon

    Populaire berichten

    Meer artikelen

    Meer lezen

    Cloud & Infrastructuur

    Datacenter-bedrijf Goodman eist MW-aansluiting van TenneT

    Cloud & Infrastructuur

    Sharp bundelt Europese it-activiteiten in divisie Sharp DX

    Cloud & Infrastructuur

    NorthC Datacenters: regionale slagkracht met Europese reikwijdte

    Cloud & Infrastructuur

    Kort: Record bij AMS-IX, digitale zorg loopt vast (en meer) 

    cloudsoevereiniteit EU
    Cloud & Infrastructuur

    Europese Commissie besteedt soevereine cloud aan

    Innovatie & Transformatie

    Nl-tech geeft acte de présence op Hannover Messe 2026

    ...

    Footer

    Direct naar

    • Carrièretests
    • Kennisbank
    • Computable Awards
    • Magazine
    • Ontvang Computable e-Magazine
    • Cybersec e-Magazine
    • Topics
    • Phishing
    • Ransomware
    • NEN 7510

    Producten

    • Adverteren en meer…
    • Jouw Producten en Bedrijfsprofiel
    • Whitepapers & Leads
    • Vacatures & Employer Branding
    • Persberichten

    Contact

    • Colofon
    • Computable en de AVG
    • Service & contact
    • Inschrijven nieuwsbrief
    • Inlog

    Social

    • Facebook
    • X
    • LinkedIn
    • YouTube
    • Instagram
    © 2026 Jaarbeurs
    • Disclaimer
    • Gebruikersvoorwaarden
    • Privacy statement
    Computable.nl is een product van Jaarbeurs