Billedanalyse med kunstig intelligens: MiniGPT-4

OpenAI demonstrerede d. 14. marts 2023 GPT-4, der både kan "se", beskrive og analysere billeder. (Se denne artikel for yderligere information: https://viden.ai/gpt-4-flytter-graenserne-for-kunstig-intelligens-i-undervisningen/). Vi mangler dog stadig at se det og prøve det af i praksis, da det indtil videre kun er enkelte samarbejdspartnere, der har adgang via api (f.eks. Be My Eyes: https://openai.com/customer-stories/be-my-eyes).

Imens vi venter, har en forskergruppe fra Saudi-Arabien lanceret open source-modellen MiniGPT-4, som de beskriver som "Enhancing Vision-language Understanding with Advanced Large Language Models". Ifølge deres egen beskrivelse kan MiniGPT-4 bl.a. beskrive og analysere billeder, lave HTML-hjemmesider ud fra håndtegnede skitser, finde opskrifter ud fra billeder af retter, forklare, hvorfor memes er sjove og meget mere - præcis det samme som OpenAI har vist, at GPT-4 kan. Vi har testet Mini-GPT og er faktisk ret imponerede over modellens kunnen.

Test af MiniGPT-4

I den første test har vi brugt et billede, som vi selv har taget på vej over Storebæltsbroen, Vi beder GPT-4 om at beskrive det, og det klarer den imponerende godt! Den beskriver, at billedet er taget ud af forruden på en bil, der kører på en motorvej - over en hængebro der er lavet af beton og stål og som desuden er holdt oppe af kabler mellem høje tårne. Den beskriver, at der kører mange biler i begge retninger, og at der er en adskillelse midt på vejen. Den beskriver billedet som et panoramabillede, et fladt landskab med bakker i det fjerne. Her tager den fejl, ligesom den ser træer og bygninger i horisonten, der ikke findes på billedet. Skyerne og vejret rammer den ret fint. Alt i alt er det et ganske imponerende resultat.

I det næste eksempel har vi igen brugt et billede, vi selv har taget. Denne gange beder vi MiniGPT-4 om at beskrive og analysere billedet og derefter skrive en kort novelle med udgangspunkt i billedet.

MiniGPT-4 analyserer billedet og skriver følgende historie:

Once upon a time, there was a beautiful white plate with a delicate design on it. The plate was placed on a white tablecloth with a green napkin on top. On the plate were two silver forks, one of which had a piece of food on it.

As the waiter walked by, he noticed the plate and thought to himself, “That’s a shame, someone left their food on the plate and didn’t finish it.” He decided to take the plate and forks away and bring a new, clean plate for the next customer.

But as he was walking towards the kitchen, he stumbled and dropped the plate. The plate shattered into pieces and the food fell onto the ground. The waiter was devastated, he had never made such a mistake before.

Just then, a kind customer saw what had happened and offered to help. Together, they cleaned up the mess and the customer even offered to pay for a new plate. The waiter was grateful and thanked the customer for their kindness.

From that day on, the waiter made sure to be more careful when carrying plates and to always finish his food. He never forgot the kindness of the customer who had helped him that day.

I den sidste test har vi taget et billede af en hund der læser avisen og spurgt hvad der er sjovt ved billedet og hvorfor.

MiniGPT-4 kommer med en fin forklaring om, at det er sjovt at hunden har briller på, imens den læser avisen, og at det er morsomt, fordi det er unormalt for hunde at bruge briller. Det bliver ikke nævnt, at hundens læsning af hhv. avisen og dens sigende titel også er en del af joken. Men helt skævt er det ikke.

Vi har også testet, om MiniGPT-4 kan analysere en graf, men det går ikke så godt. Grafen viser et spektrum over dagslys, men fortolkes som distribution af en sygdom hos en gruppe mennesker. Især er det interessant, at den ikke bruger teksterne til at få en indikation på indholdet i grafen.

Vi har også prøvet at få MiniGPT-4 til at lave en HTML-kode fra en skitse (ligesom OpenAI's demo), men det lykkedes ikke at få noget fornuftigt ud af det i de test, som vi lavede.

I ovenstående eksempler har vi valgt at bruge billeder, der ikke indeholder information i billednavnet eller andre metadata, som forklarer noget om billedet. Dermed sikrer vi, at disse data ikke er blevet brugt til analysen.

Men der går nok ikke længe, inden teknologien er god nok til at afkode grafer og lave en HTML-kode. Og disse metoder vil som så mange andre blive tilgængelig for alle.

Kilder

Del dette indlæg

Skrevet af

Claus Scheuer-Larsen

Cand.Scient og master i multimedier. Lektor og ansvarlig for pædagogisk IT på Odense Tekniske Gymnasium, underviser i kommunikation og IT og mediefag.