Matomo

Google lancerer Gemini: multimodal AI, der overgår GPT-4

· 3 min read
Google lancerer Gemini: multimodal AI, der overgår GPT-4

Google har netop lanceret deres projekt Gemini, som består af tre forskellige AI-modeller, der alle skal tage kampen op mod OpenAIs ChatGPT.

  • Gemini Nano er udviklet til brug i mobiltelefoner og kan køre offline på Android-enheder.
  • Gemini Pro er en lidt større model, som i øjeblikket bruges til Bard i USA. Pro-udgaven er udviklet til at kunne køre mange af Googles AI-tjenester.
  • Gemini Ultra, som først lanceres i det nye år, er den største model, og kan udføre meget komplekse opgaver. Modellen er designet til at køre på datacentre og virksomhedsapplikationer.

Fælles for modellerne er, at de er multimodale, hvilket betyder, at de kan bearbejde tekst, lyd, billeder, video og computerkode samtidig. Ifølge Google skulle Gemini Ultra være bedre end ChatGPTs bedste model, GPT-4, som den skulle slå i 30 ud af 32 benchmarks. Herunder ville den være god til avanceret ræsonnement og billedforståelse.

Vi har herunder samlet en række eksempler fra lanceringen af Gemini, som relaterer sig til undervisningen.

Videnskabelige artikler

I denne video bruges Gemini til at læse, forstå og filtrere 200.000 videnskabelige artikler for at udtrække afgørende videnskabelig information. Alt sammen i en frokostpause.

Programmering

I denne video demonstrerer Google Geminis avancerede kodningsevner, herunder hurtig prototyping af en webapp til at udforske Londons togstationer. Derudover introducerer de også AlphaCode 2, et avanceret kodegenereringssystem, der kan løse programmeringsproblemer, der involverer kompleks matematik og teoretisk datalogi.

Matematik og fysik

I denne video vises Geminis multimodale muligheder og resoneringsevne til at undersøge et håndskrevet lektieark. Efterfølgende skaber Gemini tilpassede forklaringer og hjælper brugerne med at øve spørgsmål for at hjælpe med at teste og udvide deres viden om fysik.

Lyd

Herunder demonstrerer Google Geminis muligheder for at forstå lyd på forskellige sprog fra flere højttalere og kombinere syn, lyd og tekst.

Geminis multimodale muligheder

Herunder vises de multimodale muligheder med Gemini.

Kilder:

Gemini - Google DeepMind
Gemini is built from the ground up for multimodality — reasoning seamlessly across image, video, audio, and code.
Google launches Gemini, the AI model it hopes will take down GPT-4
Google let OpenAI take the lead in the AI race — now, it’s mounting a comeback.
Google launches its largest and ‘most capable’ AI model, Gemini
The company is planning to license Gemini to customers through Google Cloud for them to use in their own applications.
Google Just Launched Gemini, Its Long-Awaited Answer to ChatGPT
Google says Gemini, launching today inside the Bard chatbot, is its “most capable” AI model ever. It was trained on video, images, and audio as well as text.
Google DeepMind’s new Gemini model looks amazing—but could signal peak AI hype
It outmatches GPT-4 in almost all ways—but only by a little. Was the buzz worth it?