Kunstig intelligens og karaktergivning i gymnasiet: muligheder og faldgruber

I et nyt bachelorprojekt fra Aalborg Universitet har tre studerende sat fokus på brugen af kunstig intelligens i karaktergivning på gymnasier. De beskriver i et debatindlæg i Politiken, hvordan de har gennemført et eksperiment, hvor 119 gymnasielærere skulle bedømme den samme danskopgave. Resultatet var mildest talt chokerende. Karaktererne svingede fra 00 til 12 - på præcis samme besvarelse, vel at mærke. Ifølge de tre studerende understreger dette behovet for mere objektive værktøjer i vurderingen af elevernes faglige niveau. Her ser de et stort potentiale i kunstig intelligens. Deres forslag er, at man ved at "træne" et AI-system på tusindvis af eksamensbesvarelser og tilhørende karakterer kan opnå en langt mere konsistent og pålidelig bedømmelse, og at læreren dermed får et hjælpeværktøj, når der skal gives karakterer.

Men er det nu så ligetil at lave et AI-beslutningsstøtteværktøj? Jeg har haft lejlighed til at læse de studerendes interessante bachelorprojekt, som de har delt med mig. I dette blogindlæg vil jeg ikke gå ind i deres projekt, men udelukkende fokusere på spørgsmålet - kan vi lave et AI-beslutningsstøtteværktøj til karaktergivning, som kan understøtte underviseren? Det rejser nogle principielle spørgsmål, som fortjener en nærmere udfoldelse, for det er måske ikke så ligetil, som det lyder.

Pædagogiske og etiske udfordringer ved AI-bedømmelse

Når vi taler om at bruge AI til noget så afgørende som elevers karakterer, er vi nødt til at dykke ned i de etiske dilemmaer. Kan vi overhovedet forsvare at lade en algoritme bedømme eller hjælpe med at bedømme vores unges fremtidsmuligheder? Hvordan sikrer vi elevernes retssikkerhed og klagemuligheder, hvis karakteren kommer fra en uigennemskuelig "sort boks"? Her vil det være uklart, hvem der bærer ansvaret, hvis en elev modtager en uretfærdig karakter fra et AI-system – udviklerne, skolen eller ministeriet?

Selv med nok så fintunede AI-modeller vil der altid være en risiko for, at historisk bias og diskrimination ift. køn, etnicitet og social baggrund kan snige sig ind i datasæt og algoritmer. Det kan vi som skole ikke bare affeje som en teknisk detalje. Det handler om fundamentale værdier som ligestilling og unge menneskers ret til en fair bedømmelse. Så før vi overhovedet kan overveje AI i karaktergivning eller som hjælpeværktøj, skylder vi os selv og ikke mindst eleverne at undersøge disse etiske dilemmaer til bunds.

Og hvis vi inddrager generativ kunstig intelligens som bedømmer, hvad sker der så med de pædagogiske og didaktiske overvejelser? Risikerer vi at reducere evalueringen af elevernes arbejde til en mekanisk proces, hvor vigtige nuancer og individuelle forskelle går tabt? En dygtig underviser kan netop se de små nuancer, elevens progression og andre faktorer, som et AI-system kan have svært ved. Problemet er nok ikke så stort, for der vil jo stadig være en lærer, der laver den endelige bedømmelse af eleven. Her skal man dog tage højde for den automation bias, der kan ligge i, at læreren læner sig op af AI-systemets vurdering og ubevidst tilsidesætter egen bedømmelse. De kan føle sig pressede til at retfærdiggøre, hvorfor de giver en anden karakter end den foreslåede, hvilket potentielt kan føre til, at de justerer deres bedømmelse for at være mere på linje med AI'ens vurdering.

Vi må heller ikke glemme motivationsfaktoren i den daglige undervisning. For mange elever er relationen til læreren og den menneskelige feedback afgørende for trivsel og faglig udvikling. Nogle vil sikkert føle det demotiverende at få deres opgave bedømt af en maskine, selvom andre måske vil opleve det mere retfærdigt og mindre intimiderende.

Disse etiske spørgsmål viser, at mens AI kan tilbyde teknologiske løsninger, må vi nøje overveje de dybere konsekvenser af at overlade kritiske beslutninger til maskiner.

Tekniske muligheder og faglige begrænsninger

Hvis vi ser på de tekniske muligheder for at bruge kunstig intelligens, så vil det være muligt at vurdere opgaverne konsekvent ud fra en række fastsatte kriterier, hvilket igen vil sikre større ensartethed i karaktererne. Her vil det netop være muligt at undgå nogle af de udfordringer, som vi ser med den nuværende karaktergivning, såsom bias, dagsform og subjektive præferencer hos lærerne, noget som debatindlægget i Politiken også påpeger.

Men for at sikre, at beslutningsstøtteværktøjet lever op til disse udfordringer, bliver vi nødt til at starte forfra med træning af en sprogmodel. De generelle sprogmodeller som Google Gemini og ChatGPT kan ikke bruges, eftersom vi ikke kender de data, de er trænet på, og dermed heller ikke grundlaget for en given bedømmelse - vi sender noget data ind i den sorte boks, men aner ikke, hvad der kommer ud. Derfor skal en AI-beslutningsstøttemodel til karaktergivning være specialudviklet og trænet på relevante data som eksamenstekster, bedømmelseskriterier, modelsvar og relaterede kilder. Modellen skal også være tilpasset den specifikke use case - noget som f.eks. Alexandra Instituttet arbejder med.

Men selv i udviklingen af sådan en specialiseret AI-model ligger der mange skjulte valg og potentiel bias. Eksempelvis hvordan man vægter forskellige aspekter som det faglige indhold, formalia, retskrivning osv. Hvad sker der med de kreative og fantasifulde besvarelser, der ikke passer ind i systemets algoritmer? Her er der stor risiko for, at kunstig intelligens ubevidst kommer til at bedømme ud fra skjult bias i træningsdata og ikke kan håndtere opgaver, der falder udenfor normen.

Et andet problem er gennemsigtigheden - kan vi stole på en karakter, hvis vi ikke kan forklare, hvordan den er givet? I dag har vi et sikkerhedsnet, hvor eleven har mulighed for at klage over en eksamenskarakter, og dermed få en menneskelig gennemgang og revurdering af deres aflevering. Her kan man udvikle learning dashboards, der viser læreren, hvordan opgaven er bedømt, men det kræver ret meget indsigt og tid at afkode disse. Dashboards kunne potentielt også gøres tilgængelige for elever og forældre i en forenklet form, så de bedre kan forstå grundlaget for karakteren.

Mange specifikke modeller

I det ovenstående har jeg udelukkende fokuseret på udviklingen af én model som AI-beslutningsstøtteværktøj, men grundlæggende kræver det, at hvert fag har sit eget værktøj. Der vil være stor forskel på, om det er en matematik-, dansk- eller historieopgave, eller om det er i kreative fag som design eller musik.

Fagenes forskellige vidensformer, arbejdsmetoder og bedømmelseskriterier stiller nemlig vidt forskellige krav til en eventuel AI-understøttelse af karaktergivningen. I matematik handler det måske om at vurdere beviser, udregninger og formler, mens det i dansk i høj grad er fortolkning, argumentation og sproglig fremstilling, der skal bedømmes. I kreative fag som musik og design kommer der helt andre parametre i spil, som originalitet, æstetisk udtryk og håndværksmæssig udførelse.

Pointen er, at hvert fag har sin egen særfaglige diskurs af viden, kunnen og kriterier – og en AI er nødt til at være trænet i og tilpasset denne faglighed for meningsfuldt at kunne understøtte karaktergivningen. "One-size-fits-all" er ikke en farbar vej, hvis vi vil have AI-systemer, der reelt hjælper og ikke bare forvirrer lærerne i deres bedømmelse.

AI-forordningen sætter høje krav

Forestiller vi os, at Børne- og Undervisningsministeriet vil udvikle disse AI-beslutningsstøtteværktøj til karaktergivning, vil det være omfattet af den kommende AI-forordning fra EU.

Værktøjerne vil blive kategoriseret som et højrisiko-AI-systemer, underlagt en lang række strenge krav for at være lovlige. Det inkluderer bl.a. krav om risikostyringssystemer, tests, data- og datastyring, teknisk dokumentation, CE-mærkning, registrering af systemet i EU-databasen, menneskeligt tilsyn, nøjagtighed, robusthed og cybersikkerhed. Især hvis AI-systemerne kan have indvirkning på børn eller unge under 18 år, er der skærpede krav til risikostyring.

I bilag III til AI-forordningen uddybes det, hvilke AI-systemer der betragtes som højrisiko inden for uddannelse og erhvervsuddannelse:

a. AI-systemer, der tilsigtes anvendt til at bestemme fysiske personers adgang til eller optagelse eller deres fordeling på uddannelsesinstitutioner på alle niveauer

b. AI-systemer, der tilsigtes anvendt til at evaluere læringsresultater, herunder når disse resultater anvendes til at styre fysiske personers læringsproces på uddannelsesinstitutioner på alle niveauer

c. AI-systemer, der tilsigtes anvendt til at bedømme det nødvendige uddannelsesniveau, som den enkelte vil få eller vil kunne få adgang til, i forbindelse med eller inden for uddannelsesinstitutioner på alle niveauer

d. AI-systemer, der tilsigtes anvendt til at overvåge og opdage forbudt adfærd blandt studerende under prøver i forbindelse med eller inden for uddannelsesinstitutioner på alle niveauer.

Alle disse krav betyder, at AI-beslutningsstøtteværktøj kan vise sig at være meget omkostningstungt at udvikle og vedligeholde, og vil kræve efteruddannelse af lærerne i brugen af dem.

Afrunding

Kunstig intelligens rummer store muligheder for at understøtte lærere i deres karaktergivning og gøre den mere ensartet og retfærdig på tværs af klasser og skoler. Men som vi har set, er det ikke uden udfordringer at implementere AI-beslutningsstøtteværktøjer på et så følsomt område som unges eksamen. Spørgsmålet er derfor, om vi ved brug af kunstig intelligens risikerer at ensrette karaktergivningen for meget og ender med at sætte eleverne i fastlåste og forudbestemte mønstre, uden at individet har mulighed for at bryde med disse. Måske har vi netop brug for, at der i uddannelsessystemet er plads til det menneskelige skøn, og at nogle lærere kan få øje på små glimt af potentiale hos eleverne – også selvom det ikke altid er retfærdigt.

I alt dette er der betydelige etiske dilemmaer, vi skal have afklaret, før vi kan bruge kunstig intelligens som hjælpeværktøj til karakterer. Vi skal sikre, at historisk bias og diskrimination ikke sniger sig ind og kompromitterer elevernes retssikkerhed og mulighed for en fair bedømmelse.

Teknologien skal være transparent, så eleven ved, hvorfor de er blevet vurderet, som de er. Samtidig skal der udvikles mange nye specialiserede AI-modeller til formålet, som kræver stor omhu med datasæt, vægtning af parametre og forklarlige algoritmer. Med AI-forordningens skrappe krav til højrisikosystemer som dem, der bruges til evaluering i uddannelsessektoren, bliver det en både juridisk og økonomisk tung opgave at realisere AI-baseret karaktergivning.

Så selvom det umiddelbart virker som AI er en smart genvej til mere konsistent karaktergivning, er min vurdering, at der stadig er et stykke vej endnu, før gymnasier kan tage teknologien i brug.