Een AI-chatbot zoals ChatGPT of Claude wordt vaak gezien als een gelijkmaker: iedereen kan er vragen aan stellen, ongeacht achtergrond. Nieuw onderzoek van het MIT Center for Constructive Communication laat echter een belangrijk probleem zien. De chatbots presteren systematisch slechter voor gebruikers die het meest van hun hulp zouden kunnen profiteren.

De studie testte drie grote taalmodellen: OpenAI’s GPT-4, Anthropic’s Claude 3 Opus en Meta’s Llama 3. De onderzoekers stelden vragen uit wetenschappelijke en feitelijke testdatasets. Het cruciale verschil was dat ze elke vraag voorzagen van een korte gebruikersbiografie. Hierin varieerden ze drie kenmerken: opleidingsniveau, Engelse taalvaardigheid en land van herkomst.

De resultaten tonen een duidelijk patroon

Uit de tests bleek dat de accuraatheid van de antwoorden significant daalde wanneer de vraag afkomstig was van een gebruiker die werd beschreven als iemand met een lagere formele opleiding of als een niet-moedertaalspreker van het Engels. De modellen weigerden ook vaker een antwoord te geven aan deze gebruikers. In sommige gevallen reageerden ze zelfs met neerbuigende of betuttelende taal.

Dit betekent dat de belofte van universele toegang tot kennis door AI op dit moment niet wordt waargemaakt. In plaats daarvan kunnen deze systemen bestaande informatie-ongelijkheden onbedoeld versterken. Voor een ondernemer die een chatbot inzet voor klantenservice of interne kennisbank, is dit een belangrijk aandachtspunt. Je wilt niet dat je tool betrouwbaardere informatie geeft aan de ene groep gebruikers dan aan de andere.

Hoe kun je dit vandaag toepassen?

Het onderzoek benadrukt een risico, maar biedt ook een kans. Als je AI-chatbots gebruikt of overweegt, kun je proactief stappen nemen om de kwaliteit voor alle gebruikers te waarborgen. Het gaat niet om het vermijden van de technologie, maar om het bewust en zorgvuldig inzetten ervan.

Als je een chatbot inzet voor klantenservice op je website… Een mogelijkheid is om je testproces uit te breiden. Naast het testen op technische fouten, zou je kunnen overwegen om testscenario’s te maken met verschillende soorten gebruikersvragen. Denk aan vragen die in eenvoudiger Nederlands of Engels zijn gesteld, of vragen die een gebrek aan specifieke voorkennis verraden. Controleer of de antwoorden even accuraat, behulpzaam en respectvol zijn als bij complexere vragen.

Als je een intern kennis- of trainingsplatform bouwt met een AI-assistent… Overweeg dan om bij de ontwikkeling expliciet te testen met medewerkers uit verschillende afdelingen en met verschillende achtergronden. De technische afdeling stelt vragen anders dan de logistiek of de sales-afdeling. Door feedback te verzamelen van een diverse groep gebruikers, kun je patronen in de antwoordkwaliteit identificeren en waar nodig bijsturen.

Als je een SaaS-product ontwikkelt waarin een AI-chatbot een feature is… Dan is dit onderzoek een belangrijke reminder om gebruikerservaring (UX) breed te definiëren. Naast de interface en snelheid, hoort daar ook de consistentie en rechtvaardigheid van de gegenereerde content bij. Je zou in je ontwikkelroadmap ruimte kunnen maken om te onderzoeken of je eigen systeem vergelijkbare biases vertoont, bijvoorbeeld door gebruik te maken van gevarieerde testprompts.

Als je als freelancer of consultant AI-tools aanbeveelt bij klanten… Een waardevolle toevoeging aan je advies kan zijn om dit risico te benoemen. Je zou kunnen voorstellen om bij de implementatie niet alleen te kijken naar kostenbesparing of efficiëntie, maar ook naar de kwaliteit van de dienstverlening voor alle klantsegmenten. Dit positioneert de tool niet als een magische oplossing, maar als een technologie die zorgvuldig moet worden ingebed en gemonitord.

De praktische toepassing is vooral bewustwording en het aanpassen van je test- en evaluatieprocessen. Het doel is om ervoor te zorgen dat de technologie die je gebruikt, daadwerkelijk voor iedereen werkt.

Bron: MIT News