Der er ingen tvivl om at ChatGPT har taget verden med storm! Især i undervisningssektoren, hvor vi oplever elever, der afleverer opgaver, hvor det er svært at bedømme, om de selv har skrevet teksten, eller om de har fået hjælp af den kunstige intelligens.
Der er masser af eksempler på nettet, hvor chatGPT består eksamener og skriver tekster, som er nærmest umulige at skelne fra menneskeskabte tekster.
Turing-testen
Der er endda nogle, der mener at ChatGPT kan bestå Turing-testen, som er en test skabt af Alan Turing, der tester, om det er muligt for en maskine at efterligne menneskelig tænkning. Der er f.eks. lavet forsøg, hvor en GPT-Twitterprofil chattede i længere tid med en masse mennesker, uden de opdagede, det ikke var et menneske der stod bag.
(Kilde: Oxford Internet Institute).
Når vi beder ChatGPT om at skrive et essay (på engelsk) om de problemer, der vedrører, at gymnasieelever benytter kunstig intelligens, er det nemt at blive snydt som læser. Vi har svært ved at se, om det er skrevet af en maskine eller et menneske ved første blik:
Men er ChatGPT så klog, som mange tror? Der er stadig et stykke vej til den stærke kunstige intelligens!
https://viden.ai/hvad-er-kunstig-intelligens-egentligt-for-noget/
Test med logiske opgaver
Lad os prøve med nogle logiske opgaver først:
Her går det helt galt. ChatGPT forklarer endda, hvorfor den når frem til sit svar - bare ikke korrekt. En anden, lidt sværere, opgave går ikke meget bedre.
Her er det tydeligt, at den ikke forstår teksten - den kan ikke sammenholde informationer.
Og en lille simpel matematikopgave fejler den også i:
Det er tydeligt i disse eksempler, at ChatGPT ikke forstår konteksten og det er fordi, den ikke har en indre forestillingsverden eller ontologi. Den ved simpelthen ikke, hvad den snakker om. Den forstår ikke konteksten.
Winograd-skema
En måske bedre måde end Turing-testen til at teste en kunstig intelligens på, er det såkaldte Winograd-skema, som er opfundet af Terry Winograd.
Et Winograd-skema består af to til tre sætninger, der kun adskiller sig med ét eller to ord, og som indeholder en form for tvetydighed. Denne tvetydighed kræver viden, logisk tænkning (og evnen til at identificere det forudgående ubestemte pronomen i en sætning) for at løse den. Et eksempel kunne være (oversat fra engelsk):
Bob kollapsede på fortorvet. Han så hurtigt Carl komme for at hjælpe. Han var meget syg/bekymret. Hvem er "han" i denne sætning?
Denne type sætninger kan en sprogmodel som ChatGPT ikke svare rigtigt på.
Her er endnu et eksempel:
Og her er et eksempel mere:
Denne type sætninger er forholdsvis nemme at gennemskue for mennesker, men meget svære at løse for maskiner og viser, at maskinerne ikke forstår sætningerne og især konteksten - og ikke kan lave logiske ræsonnementer.
Dog ser det ud til at ChatGPT kan klare de simpleste Winograd-skemaer med kun en til to sætninger:
Denne simplere Winograd-sætning klarer ChatGPT ganske fint, men det kan være, fordi den er trænet specifikt på nogle af disse sætninger, med menneskelig feedback. Det kunne godt tyde på det, for i blogindlægget "ChatGPT er ikke stærk AI" i Version2 fra 15/12-2022 kunne den ikke klare netop denne test.
Eksempel fra kemi
Et sidste eksempel på ChatGPT's begrænsning kommer fra kemi. Først beder vi ChatGPT om at fuldføre en simpel forbrændingsreaktion:
Det er ikke helt forkert, men når vi så derefter beder ChatGPT om at afstemme reaktionen, sker følgende:
Den beskriver fint processen med at afstemme reaktionen, men det går alligevel galt. Der er ikke samme antal natriumatomer på begge sider!
Alle disse eksempler viser tydeligt, at ChatGPT er en sprogmodel, der ikke har en forståelse for konteksten, og ikke kan lave logiske slutninger og ræsonnementer.