Google lancerer Gemini: multimodal AI, der overgår GPT-4
Google har netop lanceret deres projekt Gemini, som består af tre forskellige AI-modeller, der alle skal tage kampen op mod OpenAIs ChatGPT.
Fælles for modellerne er, at de er multimodale, hvilket betyder, at de kan bearbejde tekst, lyd, billeder, video og computerkode samtidig. Ifølge Google skulle Gemini Ultra være bedre end ChatGPTs bedste model, GPT-4, som den skulle slå i 30 ud af 32 benchmarks. Herunder ville den være god til avanceret ræsonnement og billedforståelse.
Vi har herunder samlet en række eksempler fra lanceringen af Gemini, som relaterer sig til undervisningen.
I denne video bruges Gemini til at læse, forstå og filtrere 200.000 videnskabelige artikler for at udtrække afgørende videnskabelig information. Alt sammen i en frokostpause.
I denne video demonstrerer Google Geminis avancerede kodningsevner, herunder hurtig prototyping af en webapp til at udforske Londons togstationer. Derudover introducerer de også AlphaCode 2, et avanceret kodegenereringssystem, der kan løse programmeringsproblemer, der involverer kompleks matematik og teoretisk datalogi.
I denne video vises Geminis multimodale muligheder og resoneringsevne til at undersøge et håndskrevet lektieark. Efterfølgende skaber Gemini tilpassede forklaringer og hjælper brugerne med at øve spørgsmål for at hjælpe med at teste og udvide deres viden om fysik.
Herunder demonstrerer Google Geminis muligheder for at forstå lyd på forskellige sprog fra flere højttalere og kombinere syn, lyd og tekst.
Herunder vises de multimodale muligheder med Gemini.

/cdn.vox-cdn.com/uploads/chorus_asset/file/25137172/gemini_mm_02.png)


