Hvor "klog" er ChatGPT egentlig?

Der er ingen tvivl om at ChatGPT har taget verden med storm! Især i undervisningssektoren, hvor vi oplever elever, der afleverer opgaver, hvor det er svært at bedømme, om de selv har skrevet teksten, eller om de har fået hjælp af den kunstige intelligens.

Der er masser af eksempler på nettet, hvor chatGPT består eksamener og skriver tekster, som er nærmest umulige at skelne fra menneskeskabte tekster.

Turing-testen

Der er endda nogle, der mener at ChatGPT kan bestå Turing-testen, som er en test skabt af Alan Turing, der tester, om det er muligt for en maskine at efterligne menneskelig tænkning. Der er f.eks. lavet forsøg, hvor en GPT-Twitterprofil chattede i længere tid med en masse mennesker, uden de opdagede, det ikke var et menneske der stod bag.

💡

Turing-testen har en enkel præmis: Hvis et menneske kan have en samtale i fem minutter med en computer uden at opdage, at det taler med en maskine, består computeren testen.
(Kilde: Oxford Internet Institute).

Når vi beder ChatGPT om at skrive et essay (på engelsk) om de problemer, der vedrører, at gymnasieelever benytter kunstig intelligens, er det nemt at blive snydt som læser. Vi har svært ved at se, om det er skrevet af en maskine eller et menneske ved første blik:

Men er ChatGPT så klog, som mange tror? Der er stadig et stykke vej til den stærke kunstige intelligens!

💡

Læs om stærk og svag kunstig intelligens i vores artikel:
https://viden.ai/hvad-er-kunstig-intelligens-egentligt-for-noget/

Test med logiske opgaver

Lad os prøve med nogle logiske opgaver først:

Her går det helt galt. ChatGPT forklarer endda, hvorfor den når frem til sit svar - bare ikke korrekt. En anden, lidt sværere, opgave går ikke meget bedre.

Her er det tydeligt, at den ikke forstår teksten - den kan ikke sammenholde informationer.

Og en lille simpel matematikopgave fejler den også i:

Det er tydeligt i disse eksempler, at ChatGPT ikke forstår konteksten og det er fordi, den ikke har en indre forestillingsverden eller ontologi. Den ved simpelthen ikke, hvad den snakker om. Den forstår ikke konteksten.

Winograd-skema

En måske bedre måde end Turing-testen til at teste en kunstig intelligens på, er det såkaldte Winograd-skema, som er opfundet af Terry Winograd.

💡

Et Winograd-skemaudfordringsspørgsmål er en type sproglig forvirringsspørgsmål, der er designet til at udfordre maskinlæringsteknologi. Det består af en sætning eller en kort diskurs, der indeholder to navneord af samme semantiske klasse, et tvetydigt pronomen og et særligt ord, som kan ændre betydningen af pronomenet. Derudover er der et spørgsmål og to svarvalg, der relaterer til identiteten af det tvetydige pronomen. Maskinen vil få udleveret spørgsmålet i en standardiseret form, inklusive svarvalgene, og skal derefter beslutte, hvilket af de to navneord pronomenet refererer til.

Et Winograd-skema består af to til tre sætninger, der kun adskiller sig med ét eller to ord, og som indeholder en form for tvetydighed. Denne tvetydighed kræver viden, logisk tænkning (og evnen til at identificere det forudgående ubestemte pronomen i en sætning) for at løse den. Et eksempel kunne være (oversat fra engelsk):

Bob kollapsede på fortorvet. Han så hurtigt Carl komme for at hjælpe. Han var meget syg/bekymret. Hvem er "han" i denne sætning?

Denne type sætninger kan en sprogmodel som ChatGPT ikke svare rigtigt på.

Her er endnu et eksempel:

Og her er et eksempel mere:

Denne type sætninger er forholdsvis nemme at gennemskue for mennesker, men meget svære at løse for maskiner og viser, at maskinerne ikke forstår sætningerne og især konteksten - og ikke kan lave logiske ræsonnementer.

Dog ser det ud til at ChatGPT kan klare de simpleste Winograd-skemaer med kun en til to sætninger:

Denne simplere Winograd-sætning klarer ChatGPT ganske fint, men det kan være, fordi den er trænet specifikt på nogle af disse sætninger, med menneskelig feedback. Det kunne godt tyde på det, for i blogindlægget "ChatGPT er ikke stærk AI" i Version2 fra 15/12-2022 kunne den ikke klare netop denne test.

Eksempel fra kemi

Et sidste eksempel på ChatGPT's begrænsning kommer fra kemi. Først beder vi ChatGPT om at fuldføre en simpel forbrændingsreaktion:

Det er ikke helt forkert, men når vi så derefter beder ChatGPT om at afstemme reaktionen, sker følgende:

Den beskriver fint processen med at afstemme reaktionen, men det går alligevel galt. Der er ikke samme antal natriumatomer på begge sider!

Alle disse eksempler viser tydeligt, at ChatGPT er en sprogmodel, der ikke har en forståelse for konteksten, og ikke kan lave logiske slutninger og ræsonnementer.

💡

ChatGPT bliver hele tiden bedre, så måske vil den svare mere korrekt, hvis du prøver nogle af vores tests selv. Vi har lavet alle tests i uge 1 og 2 i 2023 på ChatGPT Dec 15 Version.

The Winograd Schema Challenge

Levesque

The Winograd Schema Challenge

https://www.researchgate.net/publication/344972520_Can_GPT-3_Pass_a_Writer's_Turing_Test/fulltext/5f9fafe892851c14bcfc5495/Can-GPT-3-Pass-a-Writers-Turing-Test.pdf

Turing-testen

Test med logiske opgaver

Winograd-skema

Eksempel fra kemi

Relateret artikler

Ugens nyheder: Forbyd menneskeliggjorte AI-chatbots rettet mod børn

Ugens nyheder: AI - nye muligheder og udfordringer i uddannelse

OpenAI lancerer GPT-4o

Etiske aspekter ved chatrobotter i undervisning - misinformation og disinformation

Best practice: Brug af ChatGPT i gymnasiet

Når sprogmodeller genererer usandheder – ”hallucinerer” - del 2