Managed hosting door True

Deel 2: TiNK Search

Serie: Zoekmachines en -servers

 

ICMS Group ontwikkelt in samenwerking met de universiteit van Leuven software voor het beheer van kennis en informatie. Dat kennis- en informatiebeheerplatform heet TiNK. Het acroniem staat voor 'transferring information and knowledge'.

TiNK bestaat uit een aantal modules die vertrekken vanuit individuele datastukjes. Deze worden vervolgens verwerkt in hogere structuren via zoeken en terugvinden, praktische bedrijfsdocumenten (archief, facturen, contracten), informatie en als overkoepelde module helemaal bovenaan: kennis. Kennisbeheer wordt bij TiNK gedreven door vragen, het vastleggen van kennis met hergebruik en delen van die kennis. Informatiebeheer ziet de producent als het beheer van media-activa, documentbeheer en ecm (enterprise content management), midoffice (=alle bedrijfsondersteunende diensten die niet produceren (=backoffice) of met de klanten communiceren (=frontoffice)) en casebeheer, modulair schrijven en conditioneel publiceren. Praktische bedrijfsdocumenten bevat de verzameling van alles wat het bedrijf zelf genereert of (moet) bijhouden: het wettelijk vereist archief, facturatie, contractbeheer en gegevenskamer, plus een intelligent bedrijfsarchief.
De basismodule voor zoeken en terugvinden heet TiNK Search en die bespreken we hier. Deze omvat het zoeken in lokale bronnen, externe bronnen en kennisbanken, en kan bijna-duplicaten herkennen.

Zoeken en terugvinden

Om informatie echt optimaal opzoekbaar en bruikbaar te maken, zou een bedrijf alle informatie in een gestandaardiseerd formaat en een gestandaardiseerde opmaak moeten gieten. Zoiets heet een informatiemodel of taxonomie en is een enorm, tijdrovend en dus duur werk. TiNK Search probeert hier iets aan te doen door alle beschikbare data en documenten te scannen en er alle mogelijke extra informatie over te verzamelen en dat allemaal te indexeren en in een database bij te houden. Daarbij hoort ook de ontdekking van dubbele en bijna-gelijke gegevens en de analyse en modellering van alle gevonden informatie. Die modellering hoef je dus niet handmatig te doen, maar probeert TiNK zelf uit te voeren. TiNK-beheerders hebben mogelijkheden om deze modellering te sturen en te parametriseren. Bij die modellering hoort ook een automatische aanmaak van metadata en van categorieën.

TiNK-methode

De TiNK-methode is gericht op menselijke herkenning. Het zijn tenslotte mensen die de zoekresultaten willen gebruiken en dus is het logisch dat de informatie daar naartoe gemodelleerd wordt. Binnen TiNK wordt elk stukje informatie beschouwd als een informatieobject en verrijkt met contextuele metadata. Dit alles wordt virtueel geconsolideerd met behulp van een metavergaarbak. Aan de gebruikerskant leidt deze informatiemodellering tot JERI. Dat staat voor 'just enough relevant information' (net genoeg relevante informatie). Dat moet het overstelpen van gebruikers met allemaal overbodige, want irrelevante, zoekresultaten voorkomen. Door intelligent te filteren kunnen gebruikers informatie opvragen waar en wanneer ze die nodig hebben en op basis van hun eigen voorkeuren.

TiNK-zoekserver

De zoekserver moet draaien op een Windows 2003- of 2008-server met de laatste Service Packs en updates, voorzien van minstens 2 GiB ram. TiNK Server maakt daarbij gebruik van IIS voor zijn webinterface. Tijdens de indexatie vind je in het computerbeheer van Windows een berichtenwachtrij waarin je kunt zien hoeveel van de gevonden bestanden nog niet verwerkt zijn. De installatie werd voor ons uitgevoerd door mensen van ICMS en zij doen dat ook voor hun klanten. Ons viel op dat er tijdens die installatie CygWin-bibliotheken geïnstalleerd werden, wat erop wijst dat tenminste een deel van de zoekserver eigenlijk voor Linux of Unix ontwikkeld is. Niettemin biedt ICMS momenteel geen Linux- of Unix-versie van de zoekserver aan, al kunnen ze dat duidelijk wel zodra voldoende klanten daarom vragen.

Gebruikers

Aan de gebruikerskant kan gewerkt worden met een eenvoudige webinterface. Die bevat bovenaan een zeer vertrouwd zoekveld. Daarbij zijn helaas maar weinig echte zoekparameters mogelijk. Wens je wat ingewikkelder constructies om bepaalde zoektermen expliciet te vereisen of juist uit te sluiten, dan moet je de geavanceerde zoekfunctie gebruiken. Persoonlijk zien we voor het zoekveld aan de gebruikerskant het liefst compatibiliteit met de zoektermen van Google en indien mogelijk zelfs aangevuld met iets wat we tot dusver helaas zelden of nooit tegenkomen: reguliere expressies! Dat laatste zou zeer complexe zoekopdrachten mogelijk maken voor de mensen die zich de moeite getroosten de regex-syntaxis te leren. Wie dat niet doet, kan nog altijd werken met de standaard en geavanceerde zoekfuncties. Helaas ondersteunt ook TiNK geen regex.
Omdat bij de indexering alle informatie automatisch gemodelleerd is, biedt de zoekfunctie een resultaat met een aantal extra opties. Zo staat bij elk zoekresultaat een waardecijfer, dat aangeeft hoe betrouwbaar het zoekresultaat is. Links daarvan zien we categorieën en metafilters. Daarmee kunnen we de zoekresultaten nog verder verfijnen. Rechts treffen we een geschiedenis van vorige zoekopdrachten aan, de mogelijkheid om experts te raadplegen, begeleid te zoeken of gebruik te maken van kennisspeurders. Dat opent de deuren voor een bedrijf om de zoekresultaten te integreren met kennisbanken en gebruik te maken van assistentie bij het zoeken of van moderatoren en expertises. TiNK Search ondersteunt alle documentformaten die wij erop los lieten, waaronder de Microsoft- en OpenDocument-formaten, en pdf.

Prestaties

TiNK Search is Windows-gebaseerd en kwam dus op onze gevirtualiseerde Windows Server terecht. ICMS vereist een minimum van 2 GiB ram, dus met onze 3 GiB toegewezen geheugen voldeden we daar ruimschoots aan. Aangezien deze gevirtualiseerde Windows-server ook de opslagruimte met documenten kan bereiken zonder via het netwerk te gaan, zou je dus denken dat dit een bijzonder hoge werksnelheid zou opleveren. Niettemin had de server zeven uur nodig om al onze documenten volledig te scannen. De webinterface vonden we daarna ook al niet denderend snel. Bij de eerste start van de webinterface duurt een zoekopdracht tussen 3 en 5 seconden, maar elke volgende nieuwe zoekopdracht gaat wel sneller. Wij denken dus dat de TiNK Search Server een flink uit de kluiten gewassen Windows-server nodig heeft, met andere woorden: nog sneller dan wat wij hadden draaien.

Conclusie

TiNK Search is krachtig en de automatische modellering levert zelfs ongeparametriseerd bijzonder rake kenmerken, categorieën en metadata op. In combinatie met het informatie- en kennisbeheersysteem van ICMS zou dit een echte hoogvlieger kunnen zijn. Maar de systeemvereisten zijn wel fors als men goede prestaties wil.

Productinfo

Product: TiNK Search
Producent: ICMS Group NV, B; www.icmsgrp.com; www.tink.eu
Leverancier: Content Advisors, www.contentadvisors.be
Adviesprijs: 5000 euro (5 users inclusief licenties en configuratie)
Systeemvereisten: Windows 2003- of 2008-server met laatste service packs en updates, minstens 2 GiB werkgeheugen

De Serie: Zoekmotoren en -servers

Deel 1: Xapian & Recoll levert verrassend goede zoekmachine op
Deel 2: TiNK Search
Deel 3: Apache Lucene
Deel 4: Xapian en Recoll

Dit artikel is afkomstig van Computable.nl (https://www.computable.nl/artikel/3945111). © Jaarbeurs IT Media.

?


Lees meer over


 
Vacatures Infrastructuur

Stuur door

Stuur dit artikel door

Je naam ontbreekt
Je e-mailadres ontbreekt
De naam van de ontvanger ontbreekt
Het e-mailadres van de ontvanger ontbreekt

×
×