I et nyt bachelorprojekt fra Aalborg Universitet har tre studerende sat fokus på brugen af kunstig intelligens i karaktergivning på gymnasier. De beskriver i et debatindlæg i Politiken, hvordan de har gennemført et eksperiment, hvor 119 gymnasielærere skulle bedømme den samme danskopgave. Resultatet var mildest talt chokerende. Karaktererne svingede fra 00 til 12 - på præcis samme besvarelse, vel at mærke. Ifølge de tre studerende understreger dette behovet for mere objektive værktøjer i vurderingen af elevernes faglige niveau. Her ser de et stort potentiale i kunstig intelligens. Deres forslag er, at man ved at "træne" et AI-system på tusindvis af eksamensbesvarelser og tilhørende karakterer kan opnå en langt mere konsistent og pålidelig bedømmelse, og at læreren dermed får et hjælpeværktøj, når der skal gives karakterer.

Men er det nu så ligetil at lave et AI-beslutningsstøtteværktøj? Jeg har haft lejlighed til at læse de studerendes interessante bachelorprojekt, som de har delt med mig. I dette blogindlæg vil jeg ikke gå ind i deres projekt, men udelukkende fokusere på spørgsmålet - kan vi lave et AI-beslutningsstøtteværktøj til karaktergivning, som kan understøtte underviseren? Det rejser nogle principielle spørgsmål, som fortjener en nærmere udfoldelse, for det er måske ikke så ligetil, som det lyder.

Pædagogiske og etiske udfordringer ved AI-bedømmelse

Når vi taler om at bruge AI til noget så afgørende som elevers karakterer, er vi nødt til at dykke ned i de etiske dilemmaer. Kan vi overhovedet forsvare at lade en algoritme bedømme eller hjælpe med at bedømme vores unges fremtidsmuligheder? Hvordan sikrer vi elevernes retssikkerhed og klagemuligheder, hvis karakteren kommer fra en uigennemskuelig "sort boks"? Her vil det være uklart, hvem der bærer ansvaret, hvis en elev modtager en uretfærdig karakter fra et AI-system – udviklerne, skolen eller ministeriet?

Selv med nok så fintunede AI-modeller vil der altid være en risiko for, at historisk bias og diskrimination ift. køn, etnicitet og social baggrund kan snige sig ind i datasæt og algoritmer. Det kan vi som skole ikke bare affeje som en teknisk detalje. Det handler om fundamentale værdier som ligestilling og unge menneskers ret til en fair bedømmelse. Så før vi overhovedet kan overveje AI i karaktergivning eller som hjælpeværktøj, skylder vi os selv og ikke mindst eleverne at undersøge disse etiske dilemmaer til bunds.

Og hvis vi inddrager generativ kunstig intelligens som bedømmer, hvad sker der så med de pædagogiske og didaktiske overvejelser? Risikerer vi at reducere evalueringen af elevernes arbejde til en mekanisk proces, hvor vigtige nuancer og individuelle forskelle går tabt? En dygtig underviser kan netop se de små nuancer, elevens progression og andre faktorer, som et AI-system kan have svært ved. Problemet er nok ikke så stort, for der vil jo stadig være en lærer, der laver den endelige bedømmelse af eleven. Her skal man dog tage højde for den automation bias, der kan ligge i, at læreren læner sig op af AI-systemets vurdering og ubevidst tilsidesætter egen bedømmelse. De kan føle sig pressede til at retfærdiggøre, hvorfor de giver en anden karakter end den foreslåede, hvilket potentielt kan føre til, at de justerer deres bedømmelse for at være mere på linje med AI'ens vurdering.

Vi må heller ikke glemme motivationsfaktoren i den daglige undervisning. For mange elever er relationen til læreren og den menneskelige feedback afgørende for trivsel og faglig udvikling. Nogle vil sikkert føle det demotiverende at få deres opgave bedømt af en maskine, selvom andre måske vil opleve det mere retfærdigt og mindre intimiderende.

Disse etiske spørgsmål viser, at mens AI kan tilbyde teknologiske løsninger, må vi nøje overveje de dybere konsekvenser af at overlade kritiske beslutninger til maskiner.

Tekniske muligheder og faglige begrænsninger

Hvis vi ser på de tekniske muligheder for at bruge kunstig intelligens, så vil det være muligt at vurdere opgaverne konsekvent ud fra en række fastsatte kriterier, hvilket igen vil sikre større ensartethed i karaktererne. Her vil det netop være muligt at undgå nogle af de udfordringer, som vi ser med den nuværende karaktergivning, såsom bias, dagsform og subjektive præferencer hos lærerne, noget som debatindlægget i Politiken også påpeger. 

Men for at sikre, at beslutningsstøtteværktøjet lever op til disse udfordringer, bliver vi nødt til at starte forfra med træning af en sprogmodel. De generelle sprogmodeller som Google Gemini og ChatGPT kan ikke bruges, eftersom vi ikke kender de data, de er trænet på, og dermed heller ikke grundlaget for en given bedømmelse - vi sender noget data ind i den sorte boks, men aner ikke, hvad der kommer ud. Derfor skal en AI-beslutningsstøttemodel til karaktergivning være specialudviklet og trænet på relevante data som eksamenstekster, bedømmelseskriterier, modelsvar og relaterede kilder. Modellen skal også være tilpasset den specifikke use case - noget som f.eks. Alexandra Instituttet arbejder med. 

Men selv i udviklingen af sådan en specialiseret AI-model ligger der mange skjulte valg og potentiel bias. Eksempelvis hvordan man vægter forskellige aspekter som det faglige indhold, formalia, retskrivning osv. Hvad sker der med de kreative og fantasifulde besvarelser, der ikke passer ind i systemets algoritmer? Her er der stor risiko for, at kunstig intelligens ubevidst kommer til at bedømme ud fra skjult bias i træningsdata og ikke kan håndtere opgaver, der falder udenfor normen. 

Et andet problem er gennemsigtigheden - kan vi stole på en karakter, hvis vi ikke kan forklare, hvordan den er givet? I dag har vi et sikkerhedsnet, hvor eleven har mulighed for at klage over en eksamenskarakter, og dermed få en menneskelig gennemgang og revurdering af deres aflevering. Her kan man udvikle learning dashboards, der viser læreren, hvordan opgaven er bedømt, men det kræver ret meget indsigt og tid at afkode disse. Dashboards kunne potentielt også gøres tilgængelige for elever og forældre i en forenklet form, så de bedre kan forstå grundlaget for karakteren.

Mange specifikke modeller

I det ovenstående har jeg udelukkende fokuseret på udviklingen af én model som AI-beslutningsstøtteværktøj, men grundlæggende kræver det, at hvert fag har sit eget værktøj. Der vil være stor forskel på, om det er en matematik-, dansk- eller historieopgave, eller om det er i kreative fag som design eller musik.

Fagenes forskellige vidensformer, arbejdsmetoder og bedømmelseskriterier stiller nemlig vidt forskellige krav til en eventuel AI-understøttelse af karaktergivningen. I matematik handler det måske om at vurdere beviser, udregninger og formler, mens det i dansk i høj grad er fortolkning, argumentation og sproglig fremstilling, der skal bedømmes. I kreative fag som musik og design kommer der helt andre parametre i spil, som originalitet, æstetisk udtryk og håndværksmæssig udførelse. 

Pointen er, at hvert fag har sin egen særfaglige diskurs af viden, kunnen og kriterier – og en AI er nødt til at være trænet i og tilpasset denne faglighed for meningsfuldt at kunne understøtte karaktergivningen. "One-size-fits-all" er ikke en farbar vej, hvis vi vil have AI-systemer, der reelt hjælper og ikke bare forvirrer lærerne i deres bedømmelse.

AI-forordningen sætter høje krav

Forestiller vi os, at Børne- og Undervisningsministeriet vil udvikle disse AI-beslutningsstøtteværktøj til karaktergivning, vil det være omfattet af den kommende AI-forordning fra EU.

AI-forordningen - indhold, krav og konsekvenser for uddannelsessystemet
I artiklen udforsker vi risikoniveauer, definitioner af AI-systemer, og hvordan forordningen kan påvirke brugen af kunstig intelligens i undervisningen.

Værktøjerne vil blive kategoriseret som et højrisiko-AI-systemer, underlagt en lang række strenge krav for at være lovlige. Det inkluderer bl.a. krav om risikostyringssystemer, tests, data- og datastyring, teknisk dokumentation, CE-mærkning, registrering af systemet i EU-databasen, menneskeligt tilsyn, nøjagtighed, robusthed og cybersikkerhed. Især hvis AI-systemerne kan have indvirkning på børn eller unge under 18 år, er der skærpede krav til risikostyring. 

I bilag III til AI-forordningen uddybes det, hvilke AI-systemer der betragtes som højrisiko inden for uddannelse og erhvervsuddannelse:

a. AI-systemer, der tilsigtes anvendt til at bestemme fysiske personers adgang til eller optagelse eller deres fordeling på uddannelsesinstitutioner på alle niveauer

b. AI-systemer, der tilsigtes anvendt til at evaluere læringsresultater, herunder når disse resultater anvendes til at styre fysiske personers læringsproces på uddannelsesinstitutioner på alle niveauer

c. AI-systemer, der tilsigtes anvendt til at bedømme det nødvendige uddannelsesniveau, som den enkelte vil få eller vil kunne få adgang til, i forbindelse med eller inden for uddannelsesinstitutioner på alle niveauer

d. AI-systemer, der tilsigtes anvendt til at overvåge og opdage forbudt adfærd blandt studerende under prøver i forbindelse med eller inden for uddannelsesinstitutioner på alle niveauer.

Alle disse krav betyder, at AI-beslutningsstøtteværktøj kan vise sig at være meget omkostningstungt at udvikle og vedligeholde, og vil kræve efteruddannelse af lærerne i brugen af dem.

Afrunding

Kunstig intelligens rummer store muligheder for at understøtte lærere i deres karaktergivning og gøre den mere ensartet og retfærdig på tværs af klasser og skoler. Men som vi har set, er det ikke uden udfordringer at implementere AI-beslutningsstøtteværktøjer på et så følsomt område som unges eksamen. Spørgsmålet er derfor, om vi ved brug af kunstig intelligens risikerer at ensrette karaktergivningen for meget og ender med at sætte eleverne i fastlåste og forudbestemte mønstre, uden at individet har mulighed for at bryde med disse. Måske har vi netop brug for, at der i uddannelsessystemet er plads til det menneskelige skøn, og at nogle lærere kan få øje på små glimt af potentiale hos eleverne – også selvom det ikke altid er retfærdigt.

I alt dette er der betydelige etiske dilemmaer, vi skal have afklaret, før vi kan bruge kunstig intelligens som hjælpeværktøj til karakterer. Vi skal sikre, at historisk bias og diskrimination ikke sniger sig ind og kompromitterer elevernes retssikkerhed og mulighed for en fair bedømmelse.

Teknologien skal være transparent, så eleven ved, hvorfor de er blevet vurderet, som de er. Samtidig skal der udvikles mange nye specialiserede AI-modeller til formålet, som kræver stor omhu med datasæt, vægtning af parametre og forklarlige algoritmer. Med AI-forordningens skrappe krav til højrisikosystemer som dem, der bruges til evaluering i uddannelsessektoren, bliver det en både juridisk og økonomisk tung opgave at realisere AI-baseret karaktergivning. 

Så selvom det umiddelbart virker som AI er en smart genvej til mere konsistent karaktergivning, er min vurdering, at der stadig er et stykke vej endnu, før gymnasier kan tage teknologien i brug.

Kilder

Some Ethical Considerations for Teaching and Generative AI in Higher Education – Teaching and Generative AI
How teachers make ethical judgments when using AI in class
USC study: Gender, technology confidence factor in use of AI in classroom.
Revolutionizing Assessment: AI’s Automated Grading & Feedback - Unlocking Efficiency, Objectivity, and Personalized Learning - Teachflow.AI
Welcome to our blog post on revolutionizing assessment through AI’s automated grading and feedback. In today’s rapidly evolving digital era, technology has
Artificial Intelligence for Student Assessment: A Systematic Review
Artificial Intelligence (AI) is being implemented in more and more fields, including education. The main uses of AI in education are related to tutoring and assessment. This paper analyzes the use of AI for student assessment based on a systematic review. For this purpose, a search was carried out in two databases: Scopus and Web of Science. A total of 454 papers were found and, after analyzing them according to the PRISMA Statement, a total of 22 papers were selected. It is clear from the studies analyzed that, in most of them, the pedagogy underlying the educational action is not reflected. Similarly, formative evaluation seems to be the main use of AI. Another of the main functionalities of AI in assessment is for the automatic grading of students. Several studies analyze the differences between the use of AI and its non-use. We discuss the results and conclude the need for teacher training and further research to understand the possibilities of AI in educational assessment, mainly in other educational levels than higher education. Moreover, it is necessary to increase the wealth of research which focuses on educational aspects more than technical development around AI.
AI in Education: Adaptive Learning and Student Assessment - Thideai
In today’s rapidly evolving world, technology has found its way into nearly every aspect of our lives, including education.
Universitetsstuderende: Gav din gymnasielærer også karakterer, som vinden blæser? Det er der nu en løsning på
I en ny undersøgelse fra Aalborg Universitet vurderede 119 gymnasielærere den samme opgave. Den blev tildelt alle karakterer på skalaen på nær -3. AI kan være en genvej til mere gennemsigtige vurderinger.
Automation Bias: What It Is And How To Overcome It
Automated systems can reduce errors and speed up decision-making, but they are not perfect – and once we begin relying on automated systems, we stop questioning them.