Google lancerer Gemini: multimodal AI, der overgår GPT-4

Google har netop lanceret deres projekt Gemini, som består af tre forskellige AI-modeller, der alle skal tage kampen op mod OpenAIs ChatGPT.

Gemini Nano er udviklet til brug i mobiltelefoner og kan køre offline på Android-enheder.
Gemini Pro er en lidt større model, som i øjeblikket bruges til Bard i USA. Pro-udgaven er udviklet til at kunne køre mange af Googles AI-tjenester.
Gemini Ultra, som først lanceres i det nye år, er den største model, og kan udføre meget komplekse opgaver. Modellen er designet til at køre på datacentre og virksomhedsapplikationer.

Fælles for modellerne er, at de er multimodale, hvilket betyder, at de kan bearbejde tekst, lyd, billeder, video og computerkode samtidig. Ifølge Google skulle Gemini Ultra være bedre end ChatGPTs bedste model, GPT-4, som den skulle slå i 30 ud af 32 benchmarks. Herunder ville den være god til avanceret ræsonnement og billedforståelse.

Vi har herunder samlet en række eksempler fra lanceringen af Gemini, som relaterer sig til undervisningen.

Videnskabelige artikler

I denne video bruges Gemini til at læse, forstå og filtrere 200.000 videnskabelige artikler for at udtrække afgørende videnskabelig information. Alt sammen i en frokostpause.

Programmering

I denne video demonstrerer Google Geminis avancerede kodningsevner, herunder hurtig prototyping af en webapp til at udforske Londons togstationer. Derudover introducerer de også AlphaCode 2, et avanceret kodegenereringssystem, der kan løse programmeringsproblemer, der involverer kompleks matematik og teoretisk datalogi.

Matematik og fysik

I denne video vises Geminis multimodale muligheder og resoneringsevne til at undersøge et håndskrevet lektieark. Efterfølgende skaber Gemini tilpassede forklaringer og hjælper brugerne med at øve spørgsmål for at hjælpe med at teste og udvide deres viden om fysik.