Een groot taalmodel kan een antwoord geven dat perfect klinkt, maar toch fout is. Het probleem is dat het model vaak net zo zelfverzekerd is over een fout antwoord als over een juist antwoord. Dit overmatige zelfvertrouwen kan riskant zijn als je de uitkomst gebruikt voor belangrijke beslissingen, bijvoorbeeld in de zorg of financiën.
Onderzoekers van het MIT hebben nu een nieuwe methode ontwikkeld om dit probleem beter in kaart te brengen. Traditioneel wordt vaak gekeken naar de ‘zelfconsistentie’ van een model: je stelt dezelfde vraag meerdere keren en kijkt of het steeds hetzelfde antwoord geeft. Maar dit meet vooral het zelfvertrouwen van dat ene model, niet de werkelijke nauwkeurigheid. Een model kan heel consistent een fout antwoord blijven geven.
Een betere maatstaf door modellen te vergelijken
De MIT-onderzoekers voegden een extra laag toe. Ze maten niet alleen de interne consistentie van één model, maar ook de mate van overeenstemming tussen verschillende, vergelijkbare modellen. Deze ‘cross-model disagreement’ bleek een betrouwbaardere indicator te zijn voor onzekerheid. Als verschillende modellen tot verschillende conclusies komen, is dat een sterker signaal dat het antwoord mogelijk onbetrouwbaar is.
Ze combineerden deze twee metingen – zelfconsistentie en overeenstemming tussen modellen – tot één totale onzekerheidsmaatstaf. Volgens hun paper, die op een open review-platform staat, presteerde deze gecombineerde aanpak consequent beter dan bestaande methoden bij het identificeren van onbetrouwbare voorspellingen. Ze testten dit op tien realistische taken, zoals vraag-antwoord en wiskundig redeneren.
Hoe kun je dit vandaag toepassen?
De kern van dit onderzoek is dat je de betrouwbaarheid van een AI-uitkomst niet moet aflezen aan de stelligheid waarmee het wordt gepresenteerd. Voor ondernemers en professionals die AI-output gebruiken voor beslissingen, zijn er praktische manieren om dit inzicht toe te passen.
Als je AI gebruikt voor het samenvatten van marktonderzoek of het beantwoorden van complexe klantvragen, zou je kunnen overwegen om dezelfde vraag aan verschillende AI-tools voor te leggen. Vergelijk de antwoorden van bijvoorbeeld ChatGPT, Claude en Gemini. Als ze sterk verschillen, is dat een duidelijk signaal om de informatie extra kritisch te controleren voordat je erop voortbouwt.
Als je een AI-model inzet voor het analyseren van data of het maken van voorspellingen, is een mogelijke stap om niet blind te varen op één uitvoer. Je zou een proces kunnen opzetten waarbij je dezelfde taak door meerdere, licht verschillende modellen of prompt-variaties laat uitvoeren. De mate van consensus tussen de resultaten geeft een indicatie van de robuustheid van de conclusie.
Als je AI-generatie gebruikt voor creatieve of juridisch gevoelige content, zoals contractclausules of marketingteksten, kan overmoed van het model leiden tot claims of onjuistheden. Een praktische benadering is om de AI-output altijd te zien als een eerste concept of suggestie, nooit als een definitief, gecontroleerd feit. Laat de uitkomst altijd beoordelen door een menselijke expert op dat vakgebied.
Voor ontwikkelaars of teams die eigen AI-toepassingen bouwen, biedt het onderzoek een richting voor het ontwerpen van betere systemen. In plaats van alleen te vertrouwen op de interne zekerheidsscores van een model, zou je de architectuur kunnen overwegen om meerdere modellen te raadplegen en hun meningsverschillen expliciet te meten en te rapporteren aan de eindgebruiker.
De les is niet dat AI onbetrouwbaar is, maar dat zijn zelfrapportage over betrouwbaarheid dat kan zijn. Door je niet te laten misleiden door het zelfvertrouwen van één bron en in plaats daarvan actief op zoek te gaan naar consensus of tegenstrijdigheden, maak je slimmer en veiliger gebruik van de technologie.
Bron: MIT News