Software vergemakkelijkt archiveren en doorzoeken van documenten

De naald uit de hooiberg

Dit artikel delen:

Veiligheidsdiensten, politieorganisaties en andere instellingen maken gebruik van software waarmee informatie - die via optische tekenherkenning in de computer is opgeslagen - snel te doorzoeken is. De software is afkomstig van het Nederlandse Zylab.

Omdat we niet alles kunnen onthouden, schrijven we het op. Ieder modern bedrijf, ieder instituut, en bijna ieder vermogend mens schept karrenvrachten papier en bergt die op in ordners, dozen, archiefladen. Nadat de informatie is opgeslagen, slaat de vergeetachtigheid toe. Welke namen vermeldde dat krantenartikel? Waar borg ik die orderopdracht op? Welke bedragen staan er op die kassabon? In wiens brief las ik dat?
Vreest niet. Er bestaat software die archiveren, het ordelijk bewaren van informatie op papier, overbodig maakt. Eenmaal door een machine gescand en middels optische tekenherkenning (ocr) tot leesbare tekst omgezet, is de inhoud van de documenten en manuscripten, kladjes en zelfs bierviltjes op het computerscherm te doorzoeken. Dat inscannen van gegevens gaat, in ideale omstandigheden, met zestig pagina's per minuut. Dubbelzijdig.
Veiligheidsdiensten en politie weten allang de weg naar het Nederlandse Zylab. Hun soft- en hardwarecombinatie is echter geschikt voor iedere klant met karrenvrachten papier. En welk bedrijf behoort daar niet toe?

Negentig talen scannen

Ideaal zijn de omstandigheden in het echt nooit. Bij de huiszoeking van horecabedrijf Van der Valk zette Zylab volgens directeur Jan Scholtes ettelijke vuilniszakken vol bonnetjes op cd. "De politiedienst die bezig was met de vuurwerkramp in Enschede, leverde hier 45 verhuisdozen af vol documenten." De grootste opdrachten zijn volgens Scholtes echter de industriële orders. De verkoop van bijvoorbeeld een verffabriek genereert vijftig verhuisdozen aan documenten, afkomstig van de koper, de verkoper en de advocaten van beide partijen. "Dat worden dan zes of zeven cd's. Milieuvriendelijk, niet? De mogelijkheid om alle beschikbare informatie op trefwoorden te doorzoeken maakt het politiespeurwerk een stuk makkelijker. Zylab hielp het politieonderzoekteam van de vuurwerkramp in Enschede. Evenals de commissie Albers met het onderzoek naar de Volendamse cafébrand. Met de ondertekening in april van een contract met de politie in de Gooi- en Vechtstreek behoren alle politieregio's van Nederland tot de klantenkring. In het hele land zet de politie de soft- en hardware in voor recherche-onderzoek, het archiveren van processen-verbaal, observatieverslagen of gewoon de personeelsadministratie.
De cd-rom's of dvd's met ingescande en doorzoekbare teksten zijn een uitkomst voor de belastingambtenaar, op zoek naar bewijsmateriaal in verhuisdozen vol in-beslag genomen documenten. Tenzij vercijferd, is geen enkele criminele administratie meer veilig.
Het Nederlands Instituut voor Oorlogsdocumentatie (Niod) is een van de recentste klaten, en maakte gebruik van het programma bij het onderzoek naar Srebrenica. Negenhonderd interviews, honderd archieven, krantenartikelen en boeken werden met de 'full text retrieval document management software' doorzoekbaar gemaakt. En iedereen weet waar dat onderzoek toe leidde.
De lijst successen strekt zich uit tot over de landsgrenzen. De Bijzondere Belasting Inspectie, een departement van het Belgische Ministerie van Financiën, trad in maart tot de groep van gebruikers toe. Zylab kan documenten in negentig talen scannen. De gebruikersinterface wordt in dertien talen aangeboden, waaronder Duits en Frans. De meertaligheid maakt onder meer Interpol tot klant." Het helpt een Franstalige politieagent die geconfronteerd wordt met Duitse documenten. Het scheelt allemaal tijd en geld." Zylab kan uit de voeten met Russisch en Arabisch. Scholtes, in een opwelling: "De distribiteur in Riad hielp ons met het stabiliseren van de code. Of je tien pagina's ocr hebt of duizend, dat scheelt nogal. De ocr crashte vaak, het hield niet genoeg rekening met uitzonderingen. Nu werkt het perfect."
Voor de vele Aziatische klanten maakt Zylab de pakketten nu gereed voor Chinees, Koreaans en Japans. Sinds kort behoort zelfs het in Afghanistan gangbare Farsi tot de mogelijkheden. De programmeurs van Zylab bogen zich eerder al over het Servisch -"dat heeft meer karakters dan het Russisch" -, het Bosnisch, Kroatisch en Albanees. Scholtes: "De programmeurs snappen er geen sikkepit van, maar meertalige ondersteuning biedt het wel."

Weg uit Darth Vader-hoek

Scholtes maakt een drukbezette indruk. Hij wuift klanten uit en neemt tegelijkertijd de telefoon aan. In hoog tempo praat hij door terwijl hij links en rechts in het kantoor deuren opent, medewerkers bij wijze van demonstratie een stapel A4 opnieuw laat scannen of de nieuwste kopieer, scan- en tekstdoorzoekmachine toont.
Zylab telt nu 75 medewerkers. Het is een verdubbeling ten opzichte van een jaar eerder. De snelle groei wekt bij Scholtes twee soorten emoties op. Een nieuwe vertegenwoordiging, zoals in Spanje of Australië, regel je volgens hem met een hoop drank. "Je organiseert een bijeenkomst om het budget toe te lichten. Je voert iedereen dronken, en iedereen zet zijn handtekening. Je zet een kantoor neer, en daarna: gaan." Anderzijds vraagt Scholtes zich af of de organisatie niet uit zijn krachten groeit. "Worden het er eind dit jaar negentig? Zijn het er straks honderdvijftig? Die gedachte veroorzaakt hoofdpijn. Maar anderen kunnen het ook, dus waarom niet."
Uitbreiding van personeel doet vooral de ondersteuning- en marketing-afdelingen groeien. Veertig procent van Scholtes' omzet komt uit de hoek van politie en veiligheidsdiensten. Op de website is de lijst van referenties uit deze hoek langer dan die van enig andere sector. Het levert Scholtes, die zijn dienstplicht doorbracht bij de Marine Inlichtingendienst, veel nieuwsgierige vragen op, vertelt hij. Mededeelzaam is hij er echter niet over - exact zoals dat hoort.
Scholtes zoekt voor zijn bedrijf meer mogelijkheden dan alleen bij de wetshandhavers. "Ik wil weg uit de Darth Vader-hoek. Bedrijven als Akzo en TNO, daar zit groei op lange termijn in. Een bedrijf kan zijn facturen en handgeschreven pakbonnen online zetten, reken maar uit hoeveel geld je bespaart op het rondsturen van die dingen."
De overeenkomst een paar jaar geleden met kopieerfabrikant Océ leidde tot de expansie van Zylab. Océ ging de Zylab-producten onder een eigen label te verkopen aan klanten.
Tijdens zijn dienstplicht bij de Marine Inlichtingendienst stuitte Scholtes op de Amerikaanse uitvinder van Zylab. "Ik had zitten programmeren in grote databases. We hadden wat pakketjes gekocht van Amerikanen, daarvan heb ik er een aantal geschikt gemaakt voor de Europese landen. Software die teksten aankan met u-umlaut, de Spaanse n met tilde en dat soort dingen."
De maker van Zylab had geen geld voor een 32-bit variant of een interface voor internet. Een Unix-versie was er wel. Aan de ontwikkeling daarvan is de Amerikaanse tak bijna failliet op gegaan, aldus Scholtes. "Op de Mac-versie gingen ze echt ten onder."

Geen patent

Scholtes stapte in het gat. "We haalden het pakket hierheen en in 1994 kochten we de gehele technologie." De Amerikaanse tak is verworden tot een distribiteur. Scholtes beperkt zich wijselijk tot het leveren van zo weinig mogelijk toeters en bellen. "Het programmeren voor besturingssystemen van Microsoft is logistiek een nachtmerrie, of het nu Dos is, Windows 3.11, of Windows 98. We hebben nu één build, daar zit alles in." Tijd voor experimenten neemt Scholtes liever niet. "Een van onze programmeurs is bezig met een Linux-versie, in zijn vrije tijd."
De kern van het programma zijn nog steeds de in de VS ontwikkelde algoritmes, stammend uit het eind van de jaren tachtig. Dat is allemaal geprogrammeerd in C. Scholtes heeft negen programmeurs in dienst die er al jaren zitten. Zij verbeterden de basisonderdelen en maakten ze efficiënter. De toevoegingen aan het programma zijn volgens Scholtes allemaal geschreven in C++.
"Wat de programmeurs de hele dag doen? Zij maken de code stabiel, ontwikkelen nieuwe zoekalgoritmes, verbeteren de interface, en 'reverse'-engineren zodat we bijvoorbeeld met Adobe's pdf (portable document format) beter kunnen werken. Het verschil tussen onze programmeurs en vele anderen is dat wij hier een heel pakket maken. Niet alleen een scanner- of printermodule, maar alle aspecten worden meegenomen."
"Het product is niet gepatenteerd. Dan moet ik de techniek bekend maken en heb ik slechts twintig jaar de tijd om het terug te verdienen. We hebben wel het copyright, dus we kunnen niet door het patent van een ander geblokkeerd worden."
De gegevens worden zoveel mogelijk bewaard in een xml-schil. "Xml is snel, klein en niet bedrijfseigen." Deze schil maakt het mogelijk grote hoeveelheden data voor verschillende toepassingen te ontsluiten. Een applicatie als Lotus Notes kan volgens Scholtes niet overweg met twee miljoen tiffs, een van de standaard formaten voor het opslaan van scans. "Twintig miljoen transacties, dat kan Lotus wel."
De enorme hoeveelheid data die Zylab veroorzaakt, test volgens Scholtes de meest gangbare databases. "Oracle 6 kan geen twee gigabytes aan tiff opslaan. Wij gebruiken een standaard Windows NT-server waarop we per document een xml-file opslaan die alleen de links bevat naar de scans die elders op een server staan. Die aanpak houdt het systeem bloedsnel."
 
Gijs Hillenius

x

Om te kunnen beoordelen moet u ingelogd zijn:

Dit artikel delen:

Nieuwsbrief

Wil je dagelijks op de hoogte gehouden worden van het laatste ict-nieuws, trends en ontwikkelingen? Abonneer je dan op onze gratis nieuwsbrief.

Vul een geldig e-mailadres in

Stuur dit artikel door

Uw naam ontbreekt
Uw e-mailadres ontbreekt
De naam van de ontvanger ontbreekt
Het e-mailadres van de ontvanger ontbreekt

×
×
article 2002-06-21T00:00:00.000Z Gijs Hillenius
Wilt u dagelijks op de hoogte worden gehouden van het laatste ict-nieuws, achtergronden en opinie?
Abonneer uzelf op onze gratis nieuwsbrief.