OpenAI GPT-4 kommer midten av mars 2023

Microsoft Germany CTO, Andreas Braun, bekreftet at GPT-4 kommer innen en uke etter 9. mars 2023, og at det vil være multimodalt. Multimodal AI betyr at den vil kunne operere med flere typer inndata, som video, bilder og lyd.

Oppdatert: GPT-4 utgitt 14. mars 2023

OpenAI lanserte GPT-4 den 14. mars 2023. Det er en multimodal modell som aksepterer bilde- og tekstforespørsler.

Modal er et begrep som brukes innen maskinlæring for å beskrive former for inndata som tekst, men også sanseinntrykk som lyd, visuelt, lukt, osv.

OpenAI sin kunngjøring beskrev omfanget av fremskrittene med GPT-4:

"...mens den er mindre kapabel enn mennesker i mange virkelige scenarioer, viser menneskenivå ytelse på ulike faglige og akademiske målinger.

For eksempel består den en simulert advokateksamen med en score rundt topp 10% av testdeltakere; i motsetning til GPT-3.5 sin score som var rundt bunnen 10%.

Vi har brukt 6 måneder på å iterativt justere GPT-4 ved å bruke lærdom fra vårt fiendtlige testprogram samt ChatGPT, som resulterer i våre beste resultater noensinne (selv om det er langt fra perfekt) innen faktuell informasjon, styringsevne og evne til å holde seg innenfor rammer."

Multimodale store språkmodeller

Det store poenget med kunngjøringen er at GPT-4 er multimodal (SEJ forutsa GPT-4 er multimodal i januar 2023).

Modalitet er en referanse til inndatatypen som (i dette tilfellet) en stor språkmodell jobber med.

Multimodal kan omfatte tekst, tale, bilder og video.

GPT-3 og GPT-3.5 opererte bare i én modalitet, tekst.

Ifølge den tyske nyhetsrapporten kan GPT-4 være i stand til å operere i minst fire modaliteter, bilder, lyd (auditiv), tekst og video.

Dr. Andreas Braun, teknisk direktør hos Microsoft Tyskland, sier:

"Vi vil introdusere GPT-4 neste uke, der vil vi ha multimodale modeller som vil tilby helt forskjellige muligheter - for eksempel videoer..."

Rapporteringen manglet spesifikasjoner for GPT-4, så det er uklart om det som ble delt om multimodalitet var spesifikt for GPT-4 eller bare generelt.

Microsofts direktør for forretningsstrategi, Holger Kenn, forklarte multimodaliteter, men rapporteringen var uklar om han refererte til GPT-4 multimodalitet eller multimodalitet generelt.

Jeg tror referansene hans til multimodalitet var spesifikke for GPT-4.

Nyhetsrapporten delte:

"Kenn forklarte hva multimodal kunstig intelligens handler om, som kan oversette tekst ikke bare tilsvarende til bilder, men også til musikk og video."

En annen interessant faktum er at Microsoft arbeider med "selvtillitsmålinger" for å forankre deres AI med fakta for å gjøre den mer pålitelig.

Microsoft Kosmos-1

Noe som tilsynelatende fikk liten oppmerksomhet i USA, er at Microsoft lanserte en multimodal språkmodell kalt Kosmos-1 i begynnelsen av mars 2023.

Ifølge rapporteringen fra den tyske nyhetssiden Heise.de:

"...laget utsatte den forhåndstrekkede modellen for ulike tester, med gode resultater i klassifisering av bilder, besvarelse av spørsmål om bildeinnhold, automatisert merking av bilder, optisk tekstgjenkjenning og talegenerering."

...Visuell resonnering, det vil si å trekke konklusjoner om bilder uten å bruke språk som et mellomtrinn, ser ut til å være nøkkelen her...

Kosmos-1 er et multimodalt modular som integrerer modalitetene av tekst og bilder.

GPT-4 går lenger enn Kosmos-1 fordi den legger til en tredje modalitet, video, og ser også ut til å inkludere modaliteten lyd.

Fungerer på tvers av flere språk

GPT-4 ser ut til å fungere på alle språk. Den beskrives som i stand til å motta et spørsmål på tysk og svare på italiensk.

Det er en litt merkelig eksempel, for hvem vil stille et spørsmål på tysk og ønske å få svar på italiensk?

Dette er det som ble bekreftet:

"...teknologien har kommet så langt at den i praksis "fungerer på alle språk": Du kan stille et spørsmål på tysk og få et svar på italiensk."

Med multimodalitet vil Microsoft (-OpenAI) 'gjøre modellene omfattende'."

Jeg mener at poenget med gjennombruddet er at modellen overskrider språk med sin evne til å hente kunnskap på tvers av forskjellige språk. Så hvis svaret er på italiensk, vil den vite det og kunne gi svaret på det språket som spørsmålet ble stilt på.

Det ville gjøre det lignende målet for Googles multimodale AI kalt MUM. MUM sies å være i stand til å gi svar på engelsk for data som bare finnes på et annet språk, som japansk.

GPT-4 Applikasjoner

Det er ingen nåværende kunngjøring om hvor GPT-4 vil dukke opp. Men Azure-OpenAI ble spesifikt nevnt.

Google sliter med å ta igjen Microsoft ved å integrere en konkurrerende teknologi i sin egen søkemotor. Denne utviklingen bidrar til å ytterligere forsterke oppfatningen om at Google henger etter og mangler lederskap innenfor forbrukerrettede AI.

Google integrerer allerede AI i flere produkter som Google Lens, Google Maps og andre områder der forbrukere samhandler med Google. Denne tilnærmingen er å utnytte AI som en hjelpeteknologi, for å hjelpe mennesker med små oppgaver.

Måten Microsoft implementerer det på er mer synlig og dermed fanger det all oppmerksomhet og forsterker bildet av Google som sliter og prøver å henge med.

Les kunngjøringen om den offisielle lanseringen av OpenAI GPT-4 her.

Les den opprinnelige tyske rapporten her:

GPT-4 kommer neste uke - og den vil være multimodal, sier Microsoft Tyskland

OpenAI GPT-4 Ankommer Midten av mars 2023

Oppdatert: GPT-4 utgitt 14. mars 2023

Multimodale store språkmodeller

Microsoft Kosmos-1

Fungerer på tvers av flere språk

GPT-4 Applikasjoner

Relaterte Artikler