Tech

AI -hallucinaties worden erger, zelfs als nieuwe systemen krachtiger worden

Vorige maand een AI -bot die technische ondersteuning voor cursor behandelt, Een opkomende tool voor computerprogrammeurswaarschuwde verschillende klanten over een wijziging van het bedrijfsbeleid. Het zei dat ze niet langer cursor mochten gebruiken op meer dan slechts één computer.

In boze berichten tot Internet Message BoardsDe klanten klaagden. Sommigen hebben hun cursoraccounts geannuleerd. En sommigen werden nog bozer toen ze zich realiseerden wat er was gebeurd: de AI Bot had een beleidswijziging aangekondigd die niet bestond.

“We hebben geen dergelijk beleid. U bent natuurlijk vrij om cursor te gebruiken op meerdere machines,” de chief executive en mede-oprichter van het bedrijf, Michael Truell, geschreven in een Reddit -post. “Helaas is dit een onjuiste reactie van een front-line AI Support Bot.”

Meer dan twee jaar later De komst van chatgptTechnologiebedrijven, kantoormedewerkers en alledaagse consumenten gebruiken AI -bots voor een steeds brede reeks taken. Maar er is nog steeds Geen manier om ervoor te zorgen dat deze systemen nauwkeurige informatie produceren.

De nieuwste en krachtigste technologieën-zogenaamde redeneersystemen Van bedrijven als Openai, Google en de Chinese start-up Deepseek-genereren meer fouten, niet minder. Naarmate hun wiskundige vaardigheden zijn verbeterd, is hun handvat op feiten huiveriger geworden. Het is niet helemaal duidelijk waarom.

De AI -bots van vandaag zijn gebaseerd op Complexe wiskundige systemen die hun vaardigheden leren door enorme hoeveelheden digitale gegevens te analyseren. Ze kunnen niet – en kunnen niet beslissen wat waar is en wat onjuist is. Soms verzinnen ze gewoon dingen, een fenomeen dat sommige AI -onderzoekers hallucinaties noemen. Op één test waren de hallucinatiepercentages van nieuwere AI -systemen tot 79 procent.

Deze systemen gebruiken wiskundige waarschijnlijkheden om de beste reactie te raden, geen strikte reeks regels die zijn gedefinieerd door menselijke ingenieurs. Dus ze maken een bepaald aantal fouten. “Ondanks onze inspanningen zullen ze altijd hallucineren,” zei AMR Awadallah, de chief executive van Vectara, een start-up die AI-tools bouwt voor bedrijven en een voormalige Google-directeur. “Dat zal nooit verdwijnen.”

Sinds enkele jaren heeft dit fenomeen bezorgdheid geuit over de betrouwbaarheid van deze systemen. Hoewel ze in sommige situaties nuttig zijn – zoals Termijn papers schrijvenKantoor documenten samenvatten en computercode genereren – Hun fouten kunnen problemen veroorzaken.

De AI -bots die zijn gebonden aan zoekmachines zoals Google en Bing genereren soms zoekresultaten die lachwekkend verkeerd zijn. Als je ze om een ​​goede marathon aan de westkust vraagt, kunnen ze een race in Philadelphia voorstellen. Als ze u het aantal huishoudens in Illinois vertellen, kunnen ze een bron noemen die die informatie niet bevat.

Die hallucinaties zijn misschien geen groot probleem voor veel mensen, maar het is een serieus probleem voor iedereen die de technologie gebruikt met gerechtelijke documenten, medische informatie of gevoelige zakelijke gegevens.

“Je besteedt veel tijd aan het proberen erachter te komen welke antwoorden feitelijk zijn en welke niet”, zei Pratik Verma, mede-oprichter en chief executive van OKAHEen bedrijf dat bedrijven helpt door het hallucinatieprobleem te navigeren. “Het niet omgaan met deze fouten elimineert in principe de waarde van AI -systemen, die geacht worden taken voor u te automatiseren.”

Cursor en Mr. Truell reageerden niet op verzoeken om commentaar.

Gedurende meer dan twee jaar verbeterden bedrijven als Openai en Google hun AI -systemen gestaag en verminderden de frequentie van deze fouten. Maar met het gebruik van nieuw redeneersystemenFouten stijgen. De nieuwste OpenAI -systemen hallucineren hoger dan het vorige systeem van het bedrijf, volgens de eigen tests van het bedrijf.

Het bedrijf ontdekte dat O3 – het krachtigste systeem – 33 procent van de tijd hallucineerde bij het uitvoeren van zijn Personqa -benchmarktest, waarbij vragen worden beantwoord over openbare cijfers. Dat is meer dan twee keer het hallucinatiepercentage van het eerdere redeneringssysteem van Openai, O1 genaamd. De nieuwe O4-Mini hallucineerde met een nog hoger percentage: 48 procent.

Bij het uitvoeren van een andere test genaamd SimpleQA, die meer algemene vragen stelt, waren de hallucinatiepercentages voor O3 en O4-Mini 51 procent en 79 procent. Het vorige systeem, O1, hallucineerde 44 procent van de tijd.

In een paper met de testsOpenai zei dat er meer onderzoek nodig was om de oorzaak van deze resultaten te begrijpen. Omdat AI -systemen van meer gegevens leren dan mensen hun hoofd kunnen omwikkelen, worstelen technologen om te bepalen waarom ze zich gedragen op de manieren die ze doen.

“Hallucinaties komen niet inherent vaker voor in redeneermodellen, hoewel we actief werken om de hogere hallucinatie te verminderen die we in O3 en O4-Mini zagen,” zei een woordvoerster van het bedrijf, Gaby Raila. “We zullen doorgaan met ons onderzoek naar hallucinaties in alle modellen om de nauwkeurigheid en betrouwbaarheid te verbeteren.”

Hannaneh Hajishirzi, professor aan de Universiteit van Washington en een onderzoeker bij het Allen Institute for Artificial Intelligence, maakt deel uit van een team dat onlangs een manier heeft bedacht om het gedrag van een systeem terug te traceren naar de individuele gegevens waarop het is getraind. Maar omdat systemen leren van zoveel gegevens – en omdat ze bijna alles kunnen genereren – kan deze nieuwe tool niet alles verklaren. “We weten nog steeds niet hoe deze modellen precies werken,” zei ze.

Tests van onafhankelijke bedrijven en onderzoekers geven aan dat hallucinatiepercentages ook stijgen voor redeneringsmodellen van bedrijven zoals Google en Deepseek.

Sinds eind 2023 heeft het bedrijf van de heer Awadallah, Vectara, volgde hoe vaak chatbots uit de waarheid buigen. Het bedrijf vraagt ​​deze systemen om een ​​eenvoudige taak uit te voeren die gemakkelijk wordt geverifieerd: vat specifieke nieuwsartikelen samen. Zelfs dan vinden chatbots voortdurend informatie uit.

Het oorspronkelijke onderzoek van Vectara schatte dat chatbots in deze situatie de informatie minstens 3 procent van de tijd en soms maar liefst 27 procent vormden.

Sindsdien duwden bedrijven zoals Openai en Google die cijfers in het bereik van 1 of 2 procent. Anderen, zoals de San Francisco Start-Up Anthropic, zweefden ongeveer 4 procent. Maar hallucinatiepercentages op deze test zijn gestegen met redeneringssystemen. Deepseek’s redeneringssysteem, R1, hallucineerde 14,3 procent van de tijd. Openai’s O3 klom naar 6.8.

(The New York Times heeft aangeklaagd Openai en zijn partner, Microsoft, beschuldigen hen van inbreuk op het auteursrecht met betrekking tot nieuwsinhoud met betrekking tot AI -systemen. Openai en Microsoft hebben die claims ontkend.)

Jarenlang vertrouwden bedrijven als Openai op een eenvoudig concept: hoe meer internetgegevens ze in hun AI -systemen hebben ingevoerd, hoe beter die systemen zouden presteren. Maar zij Opgebruikt zowat alle Engelse tekst op internetWat betekende dat ze een nieuwe manier nodig hadden om hun chatbots te verbeteren.

Dus deze bedrijven leunen zwaarder op een techniek die wetenschappers het leren van versterking noemen. Met dit proces kan een systeem gedrag leren door vallen en opstaan. Het werkt goed op bepaalde gebieden, zoals wiskunde en computerprogrammering. Maar het schiet tekort op andere gebieden.

“De manier waarop deze systemen zijn getraind, zullen ze zich op één taak beginnen te concentreren-en beginnen met het vergeten van anderen,” zei Laura Perez-Beltrachini, een onderzoeker aan de Universiteit van Edinburgh, die een van een Team onderzoekt het hallucinatieprobleem nauwkeurig.

Een ander probleem is dat redeneermodellen zijn ontworpen om tijd te besteden aan ‘denken’ door middel van complexe problemen voordat je een antwoord vestigt. Terwijl ze stap voor stap een probleem proberen aan te pakken, lopen ze het risico om bij elke stap te hallucineren. De fouten kunnen samenstellen als ze meer tijd besteden aan het denken.

De nieuwste bots onthullen elke stap aan gebruikers, wat betekent dat de gebruikers ook elke fout kunnen zien. Onderzoekers hebben ook ontdekt dat in veel gevallen de stappen die door een bot worden weergegeven, zijn niet gerelateerd aan het antwoord dat het uiteindelijk levert.

“Wat het systeem zegt dat het denkt, is niet noodzakelijk wat het denkt,” zei Aryo Pradipta Gema, een AI -onderzoeker aan de Universiteit van Edinburgh en een fellow bij Anthropic.

Audio geproduceerd door Adrienne Hurst.

Related Articles

Back to top button