Både Googles Bard og Microsofts Bing Chat har indbygget visuel søgning. Man kan uploade et billede, som man kan bruge som input til søgning - eller som vi har testet her - og få billederne beskrevet i detaljer. Der er stor forskel på resultaterne i vores test, hvor det ser ud som om, at Google Bard har en fordel her, hvorimod en anden test (se links nederst i artiklen) viser en lille fordel til Microsoft Bing.

Det er ikke offentliggjort præcis, hvordan Microsoft og Google har implementeret teknologien. Begge oplyser imidlertid, at de bruger computer vision-algoritmer, kombineret med visuel søgning. Google benytter sandsynligvis deres Google Lens-teknologi til at finde lignende billeder på nettet, og Microsoft har til samme formål udviklet Visual search-teknologi. Der er helt sikkert også indbygget en form for OCR (Optical Character Recognition), da begge modeller kan "læse" tekster i billederne og oversætte dem. Her er Googles Bard dog klart bedst.

Vi har lavet en lille test, hvor vi beder Microsofts og Googles chatbots om at beskrive et billede i detaljer. Vi har selv taget billedet ud af forruden på en bil, på vej over Storebæltsbroen, en dag med kø i den modsatte retning.

Google Bard beskriver billedet godt og identificerer også Storebæltsbroen ganske korrekt. Den giver os nogle detaljer om broen og roser os i øvrigt lidt for billedets komposition. Den beskriver dog også vandet under broen, selvom det ikke er synligt på billedet.

Google Bard billedanalyse

Vi fodrer Microsoft Bing Chat med samme billede og stiller præcis den samme opgave. Igen får vi en troværdig beskrivelse af billedet. Imidlertid tilføjer programmet en del mere viden, end billedet viser (f.eks. hvilke typer biler der ses, og at bilerne har nummerplader!).

Microsoft Bing AI billedanalyse

Da vi spørger Bing, hvilken bro der er tale om, går det helt galt. Broen identificeres som Luzhijang- broen i Kina. Bings billedsøgning er altså ikke helt så god som Google Bards i dette tilfælde.

Microsoft Bing AI

Vi har også (til begge chatbots) prøvet at uploade en graf, som viser et lysspektrum af himlen. Google Bard starter med at fortælle os, at det ikke viser en graf over gennemsnitshøjden af en person over tid, men en graf over den relative intensitet af lys ved forskellige bølgelængder. Den aflæser også teksten på akserne helt rigtigt, identificerer det som dansk og oversætter teksterne til engelsk. Ganske imponerende. Vi får også en fin forklaring af, hvad lysspektret viser og lidt viden om dagslys generelt. Den er dog ikke helt skarp, når vi efterspørger den bølgelængde med højest lysintensitet. Her påstår den, at svaret er 450 nm, hvor det rigtige svar snarere er tæt på 500 nm.

Google Bard - grafanalyse

Microsoft Bing Chat får samme opgave og starter med at sløre eventuelle ansigter fra billedet. Begge chatbots slører personer på billeder, inden de laver billedsøgning. Herefter søges på "Lysspektræ fra himlen" - en ikke helt perfekt aflæsning af teksten. Bing kan fint forklare, hvad billedet viser, men bestemmer maksimum til ca. 600 nm. Bing laver en internetsøgning på "Lysspektræ fra himlen" og finder noget interessant om nordlys og stjernehimlen i juli 2023 samt informationer om lydterapi og healing! Bing sætter - som altid - kilder på de informationer, den har fundet.

Microsoft Bing AI - grafanalyse

I vores to små opgaver var Googles Bard klart bedst til billedanalyse og beskrivelse. Der er lavet mange andre sammenligninger, og nogle steder kåres Microsoft Bing som bedre (f.eks. i opgaver med at tælle antallet af personer i et billede). Til andre opgaveløsninger vinder Google Bard (f.eks. klassifikation af billeder). En ting er dog helt sikker: Det er meget imponerende, hvad de to chatbots kan med billeder, selvom de endnu ikke løser opgaverne fejlfrit.

Kilder

What’s ahead for Bard: More global, more visual, more integrated
We’re ending the waitlist for Bard, adding support for more regions, introducing images and connecting with partner apps.
Microsoft’s Bing Chat A.I. bot now lets you search using images
Users can now take or upload a photo to Bing Chat and ask for more information on it via desktop or the Bing app.
11 Practical Uses for Bing’s Image Recognition
My experiments with Bing Chat’s newfound ability to see images and its practical applications.
How Good Is Bing (GPT-4) Multimodality?
In this blog post, we qualitatively analyze how well Bing’s combination of text and image input ability performs at object detection tasks.
Prompting Google Bard with Images & How it Compares to Bing
In this article, we will examine how Bard’s image input performs, how it stacks up against Microsoft Bing, and how we believe it works.