OpenAI gigantiske GPT-3 antyder grensene for språkmodeller for AI

For litt over et år siden, OpenAI, et kunstig intelligensselskap med base i San Francisco, sjokkerte verden ved å vise en dramatisk økning i det som syntes å være datamaskiners evne til å danne naturlig språk, og til og med løse spørsmål som å fullføre en setning og formulere lange tekstavsnitt som mennesker fant ganske menneskelige.

Det siste arbeidet fra det teamet viser hvordan OpenAI's tenkning har utviklet seg på noen områder. GPT-3, som den nyeste kreasjonen kalles, ble lansert forrige uke, med flere ekstrafunksjoner, skapt av noen av de samme forfatterne som forrige versjon, inkludert Alec Radford og Ilya Sutskever, sammen med flere samarbeidspartnere, inkludert forskere fra Johns Hopkins University.

Det er nå en virkelig monster språkmodell, som den kalles, som spiser to størrelsesordener mer tekst enn sin forgjenger.

Men innenfor den større-er-bedre stuntet, virker OpenAI-teamet å nærme seg noen dypere sannheter, på samme måte som Dr. David Bowman nærmet seg grensene for det kjente på slutten av filmen 2001.

Begravet i avslutningsdelen av den 72-siders artikkelen, Språkmodeller er lærende med få eksempler, publisert forrige uke på arXiv-forhåndsutskriftstjenesten, finner vi en ganske slående erkjennelse.

"En mer grunnleggende begrensning ved den generelle tilnærmingen som beskrives i denne artikkelen - å skalere opp hvilken som helst modell som likner på en språkmodell, enten den er autoregressiv eller bidiagonal - er at den til slutt kan nå (eller allerede kan har nådd) grensene for forbeholdet til opplæringsoppgaven," skriver forfatterne.

Hva forfatterne sier er at å bygge et nevralt nettverk som bare forutsier sannsynligheten for det neste ordet i en setning eller frase kan ha sine begrensninger. Å gjøre det stadig mer kraftig og fylle det med stadig mer tekst kan kanskje ikke gi bedre resultater. Dette er en betydelig erkjennelse i en artikkel som i hovedsak feirer prestasjonen av å kaste mer datamaskinkraft på et problem.

For å forstå hvorfor forfatternes konklusjon er så viktig, må vi se på hvordan vi kom hit. Historien om OpenAI's arbeid med språk har vært en del av historien til en jevn framgang av en bestemt tilnærming, med økende suksess ettersom teknologien ble større og større og større.

Den opprinnelige GPT-en, og GPT-2, er begge tilpasninger av det som kalles en Transformer, en oppfinnelse pionert hos Google i 2017. Transformeren bruker en funksjon kalt oppmerksomhet for å beregne sannsynligheten for at et ord vil vises gitt omkringliggende ord. OpenAI skapte kontrovers for ett år siden da de sa at de ikke ville frigi kildekoden til den største versjonen av GPT-2, fordi, sa de, denne koden kunne havne i feil hender og misbrukes til å villede folk med ting som for eksempel falske nyheter.

Den nye artikkelen tar GPT til neste nivå ved å gjøre den enda større. GPT-2 sin største versjon, den som ikke ble lagt ut som kildekode, hadde 1,5 milliarder parametere. GPT-3 har 175 milliarder parametere. En parameter er en beregning i et nevralt nettverk som gir en større eller mindre vektlegging til enkelte aspekter av dataene, for å gi disse aspektene større eller mindre betydning i den totale beregningen av dataene. Det er disse vektene som gir form til dataene og gir det nevrale nettverket en lært perspektiv på dataene.

Økende vekter over tid har ført til imponerende benchmark-testresultater fra GPT-programfamilien og andre store Transformer-avledninger, som for eksempel Googles BERT, resultater som har vært jevnt over ganske imponerende.

Aldri tank på at mange har påpekt at ingen av disse språkmodellene virkelig ser ut til å forstå språk på noen meningsfylt måte. De presterer bra på tester, og det teller for noe.

Den nyeste versjonen viser igjen kvantitativ fremgang. Som GPT-2 og andre Transformer-baserte programmer, er GPT-3 trent på Common Crawl datasettet, et korpus med nesten en billion ord med tekst skrapt fra internett. "Datasettet og modellstørrelsen er omtrent to størrelsesordener større enn de som ble brukt for GPT-2", skriver forfatterne.

GPT-3 med 175 milliarder parametere er i stand til å oppnå det forfatterne beskriver som "meta-læring". Meta-læring betyr at GPT neurale nettverket ikke blir trent på nytt for å utføre en oppgave som setningsutfylling. Gitt et eksempel på en oppgave, for eksempel en ufullstendig setning, og deretter den fullstendige setningen, vil GPT-3 fortsette å fullføre enhver ufullstendig setning den får.

GPT-3 er i stand til å lære seg hvordan man utfører en oppgave med bare én ledetråd, bedre, i noen tilfeller, enn versjoner av Transformer som har blitt finjustert til å utføre bare den oppgaven. Derfor er GPT-3 en triumf innenfor en overordnet allmengyldighet. Bare mat det med en enorm mengde tekst til vektene er ideelle, og det kan fortsette å utføre ganske bra på en rekke spesifikke oppgaver uten videre utvikling.

Der kommer historien til en slående avslutning i den nye artikkelen. Etter å ha listet opp imponerende resultater av GPT-3 på språkoppgaver som inkluderer å fullføre setninger, utlede den logiske implikasjonen av påstander og oversette mellom språk, merker forfatterne ned de manglende egenskapene.

"Tross de sterke kvantitative og kvalitative forbedringene til GPT-3, spesielt når den sammenlignes med sin direkte forgjenger GPT-2, har den fremdeles betydelige svakheter."

Disse svakhetene inkluderer manglende evne til å oppnå betydelig nøyaktighet når det gjelder det som kalles Adversarial NLI. NLI, eller naturlig språkinterferens, er en test der programmet må avgjøre forholdet mellom to setninger. Forskere fra Facebook og University of North Carolina har introdusert en motstanders versjon der mennesker lager setningspar som er vanskelig for datamaskinen å løse.

GPT-3 klarer "litt bedre enn tilfeldighetene" når det gjelder Adversarial NLI, skriver forfatterne. Verre er det at forfatterne, til tross for å ha økt prosesseringskraften til systemet sitt til 175 milliarder vekter, ikke er helt sikre på hvorfor de har kommet til kort i noen oppgaver.

Det er da de kommer til konklusjonen, sitert ovenfor, at kanskje bare å mate en enorm tekstkropp til en gigantisk maskin ikke er den ultimate svaret.

Enda mer oppsiktsvekkende er neste observasjon. Hele praksisen med å prøve å forutsi hva som vil skje med språket kan være feil tilnærming, skriver forfatterne. De kan ha fokusert på feil sted.

"Ved selvovervåkede mål avhenger oppgavespesifikasjonen av å tvinge den ønskede oppgaven inn i et prediksjonsproblem," skriver de, "mens nyttige språksystemer (for eksempel virtuelle assistenter) til syvende og sist kan betraktes som handlinger med målrettede formål, i stedet for bare å gjøre forutsigelser."

Forfatterne lar det være opp til en annen gang å spesifisere hvordan de vil ta tak i denne ganske fascinerende potensielt nye retningen.

Tross erkjennelsen av at større kanskje ikke er det beste til syvende og sist, vil de forbedrede resultatene til GPT-3 på mange oppgaver mest sannsynlig øke, ikke minske, ønsket om større og større nevrale nettverk. Med 175 milliarder parametere er GPT-3 kongen av store nevrale nettverk, for øyeblikket. En presentasjon i april av AI-brikkeselskapet Tenstorrent beskrev fremtidige nevrale nettverk med over én billion parametere.

I stor del av maskinlæringsmiljøet vil større og større språkmodellering forbli state of the art.

OpenAI's kjempestore GPT-3 antyder begrensningene til språkmodeller for AI

Relaterte Artikler