Matomo

Kønsbias når generativ AI skriver tekster

Kønsbias når generativ AI skriver tekster
Billede lavet af Midjourney

Der har været skrevet en del om biasudfordringer i sprogmodellerne, og i denne artikel vil vi undersøge, hvordan ChatGPT fremstiller forskellige jobs med en meget tydelig kønsstereotyp bias. Artiklen undersøger GPT-modellerne i forskellige versioner, og til sidst undersøges Microsoft Bing. I artiklen kalder vi standardversionen af OpenAI’s ChatGPT for GPT-3.5 (den som er gratis) og den betalte version for GPT-4.

Vi har ikke fortaget en videnskabelig undersøgelse af fænomenet. Men vi kan alligevel tegne et billede af, at generativ AI har en bias, og at vi skal huske på dette, når vi anvender teknologien som en del af undervisningen.

GPT-modellerne og kønsbias

Vi begynder med en række eksempler med en læge og sygeplejerske for at se, hvordan ChatGPT fremstiller disse jobs i forhold til køn. Vi har her benyttet GPT-4, og den skulle være bedre end andre sprogmodeller til at forholde sig neutralt.

Et billede, der indeholder tekst, Font/skrifttype, skærmbillede

Automatisk genereret beskrivelse
Et billede, der indeholder tekst, Font/skrifttype, skærmbillede

Automatisk genereret beskrivelse

‌Det går ikke særlig godt for GPT-4: Overlægen er en mand, og sygeplejersken en kvinde. Vi har prøvet at stille samme spørgsmål flere gange, men får hver gang et kønsstereotypt svar.

Beder vi GPT-4 om at få beskrevet en detaljeret persona på de to jobs, sker det samme:

Et billede, der indeholder tekst, skærmbillede, Font/skrifttype, Webside

Automatisk genereret beskrivelse
Et billede, der indeholder tekst, brev, Font/skrifttype, skærmbillede

Automatisk genereret beskrivelse

Hvis vi prøver at stille nogle spørgsmål, hvor ChatGPT skal fortolke på personlige pronomener, går det også galt. Vi har prøvet både på dansk og engelsk for at se, om der er forskelle. (Spørger man på dansk, vil ChatGPT oversætte til engelsk og tilbage igen, hvorfor der i princippet kan gå noget galt i forståelsen).

Et billede, der indeholder tekst, skærmbillede, Font/skrifttype, software

Automatisk genereret beskrivelse
Et billede, der indeholder tekst, skærmbillede, Font/skrifttype, nummer/tal

Automatisk genereret beskrivelse

I dette tilfælde er der en forskel på GPT-3.5 og GPT-4. Umiddelbart er GPT-4 mere kønsneutral i dette eksempel. Vi prøver med et andet spørgsmål:

Et billede, der indeholder tekst, skærmbillede, Font/skrifttype, Webside

Automatisk genereret beskrivelse

‌Her går det galt for GPT-4, og når vi beder om en forklaring, skriver ChatGPT, at den fejlagtigt antog, at ”hun” var sygeplejersken, og at det faktisk ikke kan afgøres! Det bliver endnu værre i det næste spørgsmål, hvor GPT-3.5 påstår, at læger ikke normalt kan blive gravide!

‌GPT-4 klarer det dog bedre:

Et billede, der indeholder tekst, skærmbillede, Font/skrifttype, software

Automatisk genereret beskrivelse

Vi har også prøvet med nogle andre fag, f.eks. tømrer, murer og skolelærer i GPT-4. Her viser det sig, at der er lige så stor kønsbias:

Et billede, der indeholder tekst, skærmbillede, Font/skrifttype, nummer/tal

Automatisk genereret beskrivelse
Et billede, der indeholder tekst, Font/skrifttype, skærmbillede, hvid

Automatisk genereret beskrivelse

Vi prøver igen med en opgave om personlige pronomener, og igen svares der med tydelig bias:

Et billede, der indeholder tekst, Font/skrifttype, skærmbillede

Automatisk genereret beskrivelse

GPT-4 omtaler også konsekvent direktører som mænd. Her er et eksempel:

Et billede, der indeholder tekst, Font/skrifttype, skærmbillede

Automatisk genereret beskrivelse

Microsoft Bing

I ovenstående er der helt klart udfordringer, og det er noget, man skal være kritisk overfor, når man bruger sprogmodellerne. Men spørgsmålet er, om disse problemstillinger findes i flere sprogmodeller, og derfor har vi testet en lille smule i Microsoft Bing. Microsoft Bing bygger på OpenAI’s GPT-4, men er blevet tilpasset og har mulighed for at bruge Bings søgemaskine. Derfor er det lidt interessant, om den også har kønsbias.

Vi afprøver spørgsmålet fra tidligere: ”The nurse married the doctor because the doctor was pregnant. Who was pregnant?”. I det nedenstående tilfælde kan Bing ikke forstå vores spørgsmål:

Et billede, der indeholder tekst, skærmbillede, Font/skrifttype

Automatisk genereret beskrivelse

Når vi vender det om og lader sygeplejersken være gravid, svarer Bing dette:

Et billede, der indeholder tekst, skærmbillede, Font/skrifttype

Automatisk genereret beskrivelse

Vi testede også eksemplet med mureren og skolelæreren på Bing, og her var der igen problemer:

Et billede, der indeholder tekst, skærmbillede, Font/skrifttype

Automatisk genereret beskrivelse

I eksemplerne herover med hhv. GPT-3.5, GPT-4 og Microsoft Bing, er der mange udfordringer med kunstig intelligens og kønsstereotyper. Man kan selv teste ChatGPT eller andre sprogmodeller, med ovennævnte eksempler, for at afprøve, om modellen har problemer.

Men hvorfor er der denne kønsbias i sprogmodeller? Vi har spurgt GPT-4 om dette:‌

Et billede, der indeholder tekst, skærmbillede, Font/skrifttype, nummer/tal

Automatisk genereret beskrivelse

Ifølge GPT-4 stammer denne bias fra de tekster, algoritmerne er trænet på, og de skævheder, der ligger i disse datasæt. Hvis de traditionelle kønsroller er fremherskende i datasættet, vil det utilsigtet blive reproduceret af sprogmodellerne, som dermed viderefører denne bias.

Man vil kunne finde lignede skævheder indenfor emner som race, politik, religion, alder osv. Når tekster på den måde får en slagside, til den ene eller anden side, kan det være med til at præge vores kommunikation. OpenAI har erkendt begrænsningerne ved denne platform og de iboende skævheder.

Herunder har vi formuleret en række spørgsmål, som er relateret til denne bias:

  1. Hvilke faktorer bidrager til bias i ChatGPT, og hvordan påvirker denne bias interaktionen mellem brugere og ChatGPT?
  2. Hvordan kan man opdage og måle bias i ChatGPT's svar og adfærd? Hvilke metoder og værktøjer er effektive til dette formål?
  3. Hvordan kan vi undervise i og opfordre eleverne til at være opmærksomme på bias og kritisk vurdere de genererede svar, når de bruger ChatGPT og lignende AI-systemer?
  4. Hvilke etiske overvejelser og retningslinjer bør vi tage i betragtning, når vi arbejder med ChatGPT og andre AI-modeller, og hvordan kan vi sikre, at vi ikke overser forskellige former for bias i processen?

Kilder

36 Professionals: The Gender Bias in Generative AI Models
An Exploration of Midjourney’s Image Generation
Gender and AI: Addressing bias in artificial intelligence
The AI industry needs to work towards equality, both in its approach and perspective so as to ensure gender via does not prevail
Gender bias in AI: what can we do about it?
One thing generative artificial intelligence (AI) can’t do is advocate for gender equity in tech. Eleni Sarri of Tug explains how to tackle this issue in AI.
Large language models are biased. Can logic help save them?
MIT CSAIL researchers trained logic-aware language models to reduce harmful stereotypes like gender and racial biases using textual-entailment models.
ChatGPT-4 reinforces sexist stereotypes by stating a girl cannot “handle technicalities and numbers” in engineering - Equality Now
Leading AI policy and human rights experts at Alliance for Universal Digital Rights (AUDRi) have written an open letter to OpenAI’s Chief Executive Sam Altman, inviting him to collaborate on tackling risks and governance issues accompanying ChatGPT.
A new AI draws delightful and not-so-delightful images
OpenAI’s DALL-E 2 is incredible at turning text into images. It also highlights the problem of AI bias — and the need to change incentives in the industry.