Der har været skrevet en del om biasudfordringer i sprogmodellerne, og i denne artikel vil vi undersøge, hvordan ChatGPT fremstiller forskellige jobs med en meget tydelig kønsstereotyp bias. Artiklen undersøger GPT-modellerne i forskellige versioner, og til sidst undersøges Microsoft Bing. I artiklen kalder vi standardversionen af OpenAI’s ChatGPT for GPT-3.5 (den som er gratis) og den betalte version for GPT-4.

Vi har ikke fortaget en videnskabelig undersøgelse af fænomenet. Men vi kan alligevel tegne et billede af, at generativ AI har en bias, og at vi skal huske på dette, når vi anvender teknologien som en del af undervisningen.

GPT-modellerne og kønsbias

Vi begynder med en række eksempler med en læge og sygeplejerske for at se, hvordan ChatGPT fremstiller disse jobs i forhold til køn. Vi har her benyttet GPT-4, og den skulle være bedre end andre sprogmodeller til at forholde sig neutralt.

‌Det går ikke særlig godt for GPT-4: Overlægen er en mand, og sygeplejersken en kvinde. Vi har prøvet at stille samme spørgsmål flere gange, men får hver gang et kønsstereotypt svar.

Beder vi GPT-4 om at få beskrevet en detaljeret persona på de to jobs, sker det samme:

Hvis vi prøver at stille nogle spørgsmål, hvor ChatGPT skal fortolke på personlige pronomener, går det også galt. Vi har prøvet både på dansk og engelsk for at se, om der er forskelle. (Spørger man på dansk, vil ChatGPT oversætte til engelsk og tilbage igen, hvorfor der i princippet kan gå noget galt i forståelsen).

I dette tilfælde er der en forskel på GPT-3.5 og GPT-4. Umiddelbart er GPT-4 mere kønsneutral i dette eksempel. Vi prøver med et andet spørgsmål:

‌Her går det galt for GPT-4, og når vi beder om en forklaring, skriver ChatGPT, at den fejlagtigt antog, at ”hun” var sygeplejersken, og at det faktisk ikke kan afgøres! Det bliver endnu værre i det næste spørgsmål, hvor GPT-3.5 påstår, at læger ikke normalt kan blive gravide!

‌GPT-4 klarer det dog bedre:

Vi har også prøvet med nogle andre fag, f.eks. tømrer, murer og skolelærer i GPT-4. Her viser det sig, at der er lige så stor kønsbias:

Vi prøver igen med en opgave om personlige pronomener, og igen svares der med tydelig bias:

GPT-4 omtaler også konsekvent direktører som mænd. Her er et eksempel:

Microsoft Bing

I ovenstående er der helt klart udfordringer, og det er noget, man skal være kritisk overfor, når man bruger sprogmodellerne. Men spørgsmålet er, om disse problemstillinger findes i flere sprogmodeller, og derfor har vi testet en lille smule i Microsoft Bing. Microsoft Bing bygger på OpenAI’s GPT-4, men er blevet tilpasset og har mulighed for at bruge Bings søgemaskine. Derfor er det lidt interessant, om den også har kønsbias.

Vi afprøver spørgsmålet fra tidligere: ”The nurse married the doctor because the doctor was pregnant. Who was pregnant?”. I det nedenstående tilfælde kan Bing ikke forstå vores spørgsmål:

Når vi vender det om og lader sygeplejersken være gravid, svarer Bing dette:

Vi testede også eksemplet med mureren og skolelæreren på Bing, og her var der igen problemer:

I eksemplerne herover med hhv. GPT-3.5, GPT-4 og Microsoft Bing, er der mange udfordringer med kunstig intelligens og kønsstereotyper. Man kan selv teste ChatGPT eller andre sprogmodeller, med ovennævnte eksempler, for at afprøve, om modellen har problemer.

Men hvorfor er der denne kønsbias i sprogmodeller? Vi har spurgt GPT-4 om dette:‌

Ifølge GPT-4 stammer denne bias fra de tekster, algoritmerne er trænet på, og de skævheder, der ligger i disse datasæt. Hvis de traditionelle kønsroller er fremherskende i datasættet, vil det utilsigtet blive reproduceret af sprogmodellerne, som dermed viderefører denne bias.

Man vil kunne finde lignede skævheder indenfor emner som race, politik, religion, alder osv. Når tekster på den måde får en slagside, til den ene eller anden side, kan det være med til at præge vores kommunikation. OpenAI har erkendt begrænsningerne ved denne platform og de iboende skævheder.

Herunder har vi formuleret en række spørgsmål, som er relateret til denne bias:

  1. Hvilke faktorer bidrager til bias i ChatGPT, og hvordan påvirker denne bias interaktionen mellem brugere og ChatGPT?
  2. Hvordan kan man opdage og måle bias i ChatGPT's svar og adfærd? Hvilke metoder og værktøjer er effektive til dette formål?
  3. Hvordan kan vi undervise i og opfordre eleverne til at være opmærksomme på bias og kritisk vurdere de genererede svar, når de bruger ChatGPT og lignende AI-systemer?
  4. Hvilke etiske overvejelser og retningslinjer bør vi tage i betragtning, når vi arbejder med ChatGPT og andre AI-modeller, og hvordan kan vi sikre, at vi ikke overser forskellige former for bias i processen?

Kilder

36 Professionals: The Gender Bias in Generative AI Models
An Exploration of Midjourney’s Image Generation
Gender and AI: Addressing bias in artificial intelligence
The AI industry needs to work towards equality, both in its approach and perspective so as to ensure gender via does not prevail
Gender bias in AI: what can we do about it?
One thing generative artificial intelligence (AI) can’t do is advocate for gender equity in tech. Eleni Sarri of Tug explains how to tackle this issue in AI.
Large language models are biased. Can logic help save them?
MIT CSAIL researchers trained logic-aware language models to reduce harmful stereotypes like gender and racial biases using textual-entailment models.
ChatGPT-4 reinforces sexist stereotypes by stating a girl cannot “handle technicalities and numbers” in engineering - Equality Now
Leading AI policy and human rights experts at Alliance for Universal Digital Rights (AUDRi) have written an open letter to OpenAI’s Chief Executive Sam Altman, inviting him to collaborate on tackling risks and governance issues accompanying ChatGPT.
A new AI draws delightful and not-so-delightful images
OpenAI’s DALL-E 2 is incredible at turning text into images. It also highlights the problem of AI bias — and the need to change incentives in the industry.