Hvor "klog" er ChatGPT egentlig?

Der er ingen tvivl om at ChatGPT har taget verden med storm! Især i undervisningssektoren, hvor vi oplever elever, der afleverer opgaver, hvor det er svært at bedømme, om de selv har skrevet teksten, eller om de har fået hjælp af den kunstige intelligens.

Der er masser af eksempler på nettet, hvor chatGPT består eksamener og skriver tekster, som er nærmest umulige at skelne fra menneskeskabte tekster.

Turing-testen

Der er endda nogle, der mener at ChatGPT kan bestå Turing-testen, som er en test skabt af Alan Turing, der tester, om det er muligt for en maskine at efterligne menneskelig tænkning. Der er f.eks. lavet forsøg, hvor en GPT-Twitterprofil chattede i længere tid med en masse mennesker, uden de opdagede, det ikke var et menneske der stod bag.

💡

Turing-testen har en enkel præmis: Hvis et menneske kan have en samtale i fem minutter med en computer uden at opdage, at det taler med en maskine, består computeren testen.
(Kilde: Oxford Internet Institute).

Når vi beder ChatGPT om at skrive et essay (på engelsk) om de problemer, der vedrører, at gymnasieelever benytter kunstig intelligens, er det nemt at blive snydt som læser. Vi har svært ved at se, om det er skrevet af en maskine eller et menneske ved første blik:

Men er ChatGPT så klog, som mange tror? Der er stadig et stykke vej til den stærke kunstige intelligens!

💡

Læs om stærk og svag kunstig intelligens i vores artikel:
https://viden.ai/hvad-er-kunstig-intelligens-egentligt-for-noget/

Test med logiske opgaver

Lad os prøve med nogle logiske opgaver først:

Her går det helt galt. ChatGPT forklarer endda, hvorfor den når frem til sit svar - bare ikke korrekt. En anden, lidt sværere, opgave går ikke meget bedre.

Her er det tydeligt, at den ikke forstår teksten - den kan ikke sammenholde informationer.

Og en lille simpel matematikopgave fejler den også i:

Det er tydeligt i disse eksempler, at ChatGPT ikke forstår konteksten og det er fordi, den ikke har en indre forestillingsverden eller ontologi. Den ved simpelthen ikke, hvad den snakker om. Den forstår ikke konteksten.

Winograd-skema

En måske bedre måde end Turing-testen til at teste en kunstig intelligens på, er det såkaldte Winograd-skema, som er opfundet af Terry Winograd.

💡

Et Winograd-skemaudfordringsspørgsmål er en type sproglig forvirringsspørgsmål, der er designet til at udfordre maskinlæringsteknologi. Det består af en sætning eller en kort diskurs, der indeholder to navneord af samme semantiske klasse, et tvetydigt pronomen og et særligt ord, som kan ændre betydningen af pronomenet. Derudover er der et spørgsmål og to svarvalg, der relaterer til identiteten af det tvetydige pronomen. Maskinen vil få udleveret spørgsmålet i en standardiseret form, inklusive svarvalgene, og skal derefter beslutte, hvilket af de to navneord pronomenet refererer til.

Et Winograd-skema består af to til tre sætninger, der kun adskiller sig med ét eller to ord, og som indeholder en form for tvetydighed. Denne tvetydighed kræver viden, logisk tænkning (og evnen til at identificere det forudgående ubestemte pronomen i en sætning) for at løse den. Et eksempel kunne være (oversat fra engelsk):

Bob kollapsede på fortorvet. Han så hurtigt Carl komme for at hjælpe. Han var meget syg/bekymret. Hvem er "han" i denne sætning?

Denne type sætninger kan en sprogmodel som ChatGPT ikke svare rigtigt på.

Her er endnu et eksempel:

Og her er et eksempel mere:

Denne type sætninger er forholdsvis nemme at gennemskue for mennesker, men meget svære at løse for maskiner og viser, at maskinerne ikke forstår sætningerne og især konteksten - og ikke kan lave logiske ræsonnementer.

Dog ser det ud til at ChatGPT kan klare de simpleste Winograd-skemaer med kun en til to sætninger:

Denne simplere Winograd-sætning klarer ChatGPT ganske fint, men det kan være, fordi den er trænet specifikt på nogle af disse sætninger, med menneskelig feedback. Det kunne godt tyde på det, for i blogindlægget "ChatGPT er ikke stærk AI" i Version2 fra 15/12-2022 kunne den ikke klare netop denne test.

Eksempel fra kemi

Et sidste eksempel på ChatGPT's begrænsning kommer fra kemi. Først beder vi ChatGPT om at fuldføre en simpel forbrændingsreaktion:

Det er ikke helt forkert, men når vi så derefter beder ChatGPT om at afstemme reaktionen, sker følgende:

Den beskriver fint processen med at afstemme reaktionen, men det går alligevel galt. Der er ikke samme antal natriumatomer på begge sider!

Alle disse eksempler viser tydeligt, at ChatGPT er en sprogmodel, der ikke har en forståelse for konteksten, og ikke kan lave logiske slutninger og ræsonnementer.

💡

ChatGPT bliver hele tiden bedre, så måske vil den svare mere korrekt, hvis du prøver nogle af vores tests selv. Vi har lavet alle tests i uge 1 og 2 i 2023 på ChatGPT Dec 15 Version.

Niels Jørgensen er lynende intelligent, netop født og er en robot: - Det er lidt ubehageligt at vide, at han er der og snakker med folk

Som et juleferieprojekt blev en robot født til at diskutere på Twitter. Teknologien bag hans eksistens er “underholdende”, men fyldt med dilemmaer.

TV 2 DANMARKDavid Rue Honoré

Bestået en advokateksamen og skrevet scorereplikker. Her er, hvad ChatGPT har nået i sin første måned på Jorden

Den kunstigt intelligente chatbot er allerede så småt i gang med at ændre verden.

ZetlandJesper Olsen

ChatGPT passes the Turing test

In 1950, Alan Turing proposed the Turing test as a way to measure a machine’s intelligence. The test pits a human against a machine in a conversation. If

Metaverse PostDamir Yalalov

ChatGPT er ikke stærk AI | PRO

OpenAIs nyeste sprogmodel ChatGPT rammer for tiden Internettet med storm, og resultaterne er både praktisk anvendelige og underholdende – og ikke mindst imponerende. ChatGPTs brugerinterface er chatbaseret samtale. Du snakker med den, og så løser den opgaver for dig. Den kan lave lister af næsten al…

Version2Erik David Johnson - AI Specialist

The Winograd Schema Challenge

Levesque

The Winograd Schema Challenge

How good is ChatGPT at Chemistry?

Recently, I have been using ChatGPT to test its abilities on tasks that can theoretically be solved using a language model. I have…

MediumIvan Reznikov

https://www.researchgate.net/publication/344972520_Can_GPT-3_Pass_a_Writer's_Turing_Test/fulltext/5f9fafe892851c14bcfc5495/Can-GPT-3-Pass-a-Writers-Turing-Test.pdf