Eksamensopgaver og prøver: Kan vi opdage tekster, genereret af ChatGPT?

Hver gang vi er ude for at holde oplæg, bliver vi altid stillet det samme spørgsmål: “Hvordan finder vi ud af, om eleverne har afleveret en opgave, der er skrevet af ChatGPT?”. Især handler det om, hvad vi gør til sommerens skriftlige eksaminer.

Kort om udfordringen

I øjeblikket bliver kunstig intelligens indbygget i mange forskellige værktøjer, både i Microsoft Copilot, Google Workspace og Windows 11. Den enkelte elev får om kort tid svært ved at undgå kunstig intelligens, og selvom det er forbudt at bruge til f.eks. eksamensopgaver, vil nogle elever måske ikke engang vide, at de brugte den, eftersom kunstig intelligens er overalt.

På gymnasieområdet er reglerne fra Undervisningsministeriet ret klare, for eleverne skal selv lave deres eksamensafleveringer, og det er op til skolerne at håndhæve reglerne. Om skolerne vil dele computere ud til alle eleverne med lukket adgang til nettet, købe et program til overvågning eller om de sætter en eksamensvagt bag hver eneste elev, det er helt op til den enkelte skole.

Det er dog ikke kun i uddannelse, det er et problem, at vi ikke ved, om tekster, billeder og videoer kommer fra kunstig intelligens, for teknologien kan også misbruges til generering af falske nyheder og spam. Derfor bruges der også mange kræfter på at finde ud af, hvad der er udarbejdet af kunstig intelligens, og hvad der ikke er.

Værktøjer til at finde tekster, skrevet af ChatGPT

Vi har tidligere skrevet om dette emne i artiklen "Plagiat og ChatGPT – Hvordan afsløres brug af AI i skriftlige opgaver?". Efter vi skrev artiklen, er der sket meget med sprogmodellerne, og de er blevet meget mere effektive til at skrive menneskelignende tekster, og detektionsværktøjerne har svært ved at følge med.

Når Turnitins skriver, at de kan detektere tekster, skrevet af ChatGPT, med 98 procents sikkerhed, skal man være lidt på vagt. Det kan godt være, at programmet er godt til at fange engelske tekster, der er kopieret direkte fra ChatGPT. Men som vi vil vise det i denne artikel, er der mange måder, hvorpå tekster kan omskrives. Det er samtidig interessant, at OpenAIs eget værktøj, AI text classifier, ifølge deres egne undersøgelser kun kan identificere 26% af teksterne korrekt (sandt positive), mens 9% mærkes forkert (falsk positive).

Børne- og undervisningsministeriet har i øvrigt skrevet, at man ikke bør at bruge disse værktøjer:

"Styrelsen er ikke bekendt med, at der findes et screeningsværktøj, der kan give et pålideligt udsagn om brug af AI. Det skyldes, at der er en høj andel af såkaldt ’falsk positive’ udfald i de kendte screeningsværktøjer.Underviseren bør derfor ikke anvende denne slags værktøjer, da de kompromitterer eksaminandernes retssikkerhed.", BUVM 2023

Samtidig vil der kunne optræde lærerbias, hvis lærerne stoler for meget på resultatet fra de forskellige værktøjer. Dermed kan de fejlagtigt komme til at beskylde eleverne for plagiat. Vi kan derfor nemt komme til at mistænkeliggøre elever og studerende på et forkert og meget spinkelt grundlag og uden et endegyldigt bevis.