Een veelgebruikte truc om te checken of een AI-model zeker is van zijn antwoord, is dezelfde vraag meerdere keren te stellen. Als het steeds hetzelfde antwoord geeft, lijkt het betrouwbaar. Onderzoekers van MIT laten nu zien dat dit een gevaarlijke misvatting kan zijn. Een model kan namelijk heel zelfverzekerd en consistent een fout antwoord geven. Deze schijnzekerheid is vooral riskant in situaties waar de gevolgen groot zijn, zoals bij medische of financiële adviezen.
Waarom één model niet genoeg is
De kern van het probleem is dat je met één model alleen de interne consistentie meet, niet de werkelijke betrouwbaarheid. Het is alsof je steeds dezelfde persoon om advies vraagt die altijd hetzelfde zegt, maar niet per se het juiste. De MIT-onderzoekers stellen voor om niet één model te vertrouwen, maar het antwoord te vergelijken met de antwoorden van een groep vergelijkbare AI-modellen. Als die modellen het onderling oneens zijn, is dat een sterke indicatie dat het antwoord onzeker of mogelijk onjuist is.
Een combinatie van methodes voor meer zekerheid
De nieuwe aanpak combineert twee soorten onzekerheidsmeting. De eerste is de traditionele zelfconsistentie: geeft het model hetzelfde antwoord bij herhaalde vragen? De tweede is de nieuwe ‘cross-model disagreement’: hoe verschillen de antwoorden van meerdere modellen? Door deze twee metingen samen te voegen tot een totale onzekerheidsscore, ontstaat een veel betrouwbaarder beeld. De onderzoekers testten deze methode op tien realistische taken, zoals vraag-antwoord en wiskundig redeneren, en vonden dat deze gecombineerde aanpak consequent beter presteerde in het identificeren van onbetrouwbare voorspellingen dan bestaande methodes.
Hoe kun je dit vandaag toepassen?
De praktische toepassing hangt af van jouw situatie. Via geprompt.nl/stel-je-vraag kun je een vraag stellen die we uitwerken tot een artikel op maat.
De toepassingen in dit artikel zijn suggesties op basis van het bronartikel, geen gevalideerd advies.
Bron: MIT News