Gesign-ai-leerd: Wat is de 'beste' ai-chatbot?

In deze rubriek een greep uit de stortvloed aan berichten over artificial intelligence (ai). Ditmaal over de nieuwe ranglijst voor ai-chatbots, de keerzijde van ai-gedreven softwareontwikkeling en ai-gedreven pdf-readers.

Chatbot Arena

Op basis van blinde testen door gebruikers rangschikt de site Chatbot Arena de beste taalmodellen en ai-chatbots. Iedereen kan daar een vraag stellen aan twee anonieme ai-chatbots. Vervolgens stem je op het beste antwoord. Inmiddels zijn er 2,37 miljoen stemmen uitgebracht op 173 verschillende modellen.

Afgelopen vrijdag stond een versie van Gemini boven aan deze verkiezing. Met de laatste editie van ChatGPT-4o op de tweede plaats. Modellen van Google en OpenAI domineren de top tien. Alleen Grok van Elon Musks xAI, het Chinese 01 AI en een versie van Claude (Anthropic) weten daar nog tussen te komen. OpenAI heeft maandenlang bovenaan gestaan. Ook rivaal Anthropic was een tijdlang leider, terwijl Google in opmars is.

Achter Chatbot Arena zitten twee studenten van UC Berkeley. Hun opensourceplatform is in korte tijd uitgegroeid tot de meest bekeken ranglijst van de beste ai-systemen. Nadeel is dat de peilmethode subjectief is. Bezoekers kunnen zich door een respons zeer aangesproken voelen, terwijl dat niet per se het juiste antwoord hoeft te zijn. Maar wiskundige en andere academische vergelijkingsmethoden verliezen geleidelijk aan hun nut, nu grote taalmodellen er beter in slagen om daarop in te spelen. Op Chatbot Arena kunnen de modellen niet voorbereid zijn omdat de variëteit aan vragen te groot is.

Ai-bedrijven die miljarden dollars in hun modellen steken, tillen zwaar aan de perceptie van gebruikers. Daarom staan ze te dringen om hun ai-model in het Berkeley-project opgenomen te krijgen. Chatbot Arena gebruikt een scoresysteem vergelijkbaar met dat van professionele schaakranglijsten.

Een andere tool, de AI Benchmarking Hub, geeft inzicht in de prestaties van toonaangevende ai-modellen bij zeer uitdagende taken. Deze database mvolgt de ai-voortgang in de loop van de tijd. Benchmarkscores worden gecorreleerd met factoren zoals de benodigde rekenkracht of de toegankelijkheid van het model.

Integratie van ai in software-ontwikkeling zeer complex

Het traditionele coderen krijgt steeds meer ondersteuning van generatieve ai. Vier op de vijf it-professionals zegt dat hun organisatie hier al gen-ai–apps voor inzet. Zo meldt OutSystems in het rapport ‘State of Application Development‘. Met een grote workload, een aanhoudend tekort aan talent en hoge kosten van traditionele applicatieontwikkeling, is dat geen verrassing, stelt de leverancier van low-codetools.

Alleen vertrouwen op traditioneel coderen is vaak te tijdrovend en arbeidsintensief voor it-teams. Aan de andere kant kan gen-ai nog niet alles uit handen nemen. Uit onderzoek blijkt dat populaire gen-ai-tools in ongeveer twee derde van de gevallen accurate code genereren, waarbij de nauwkeurigheid bij sommige tools zelfs naar dertig procent daalt.

Maar ai-gedreven applicatieontwikkeling brengt ook nieuwe it-uitdagingen met zich mee. Zo’n zestig procent heeft zorgen over security en governance. De helft van de it-professionals geeft aan dat de integratie van ai-technieken in bestaande workflows voor softwareontwikkeling zeer complex is. Slechts veertig procent van de respondenten durft grotendeels te vertrouwen op gen-ai om code te schrijven zonder menselijke hulp.

Pdf-lezer

Het doornemen van pdf’s neemt vaak veel tijd in beslag. Maar zie, meerdere ai-gedreven tools zijn beschikbaar om de juiste informatie eruit te halen. Zo doen ze het leeswerk, presenteren een samenvatting en maken interactie met het document mogelijk. In plaats van pdf’s te lezen, bevraag je die documenten. Net zoals je ChatGPT gebruikt, kan je met zo’n pdf chatten. Smallpdf AI, ChatPDF en Hipdf.com behoren tot de populairste pdf-readers.

Probeer anders Bunni AI. Dit Britse ai-platform haalt precies de informatie uit een pdf (tot 20 megabyte) die je nodig hebt. Denk aan een financieel jaarverslag of een proefschrift. Wil je meer weten, dan stel je gewoon een vervolgvraag. Bunni AI ondersteunt de Nederlandse taal. Je kunt zelfs meerdere pdf’s tegelijk uploaden en daar vragen over stellen. De resultaten en gestelde vragen zijn vervolgens met collega’s te delen.

De app is gratis uit te testen. Daarna betaal je met credits, dus zonder aan een abonnement vast te zitten.