Hva er GPT-3? Alt din bedrift trenger å vite om OpenAI sin banebrytende språkprogramvare for kunstig intelligens

zdnet-gpt-3-er-det-neste-ordet-i-ai-ver-2.jpg

GPT-3 er et dataprogram opprettet av det privateide San Francisco-startup OpenAI. Det er et gigantisk nevralt nettverk, og som sådan er det en del av det dype læringsspekteret av maskinlæring, som igjen er en gren av datavitenskapen kjent som kunstig intelligens, eller AI. Programmet er bedre enn noen tidligere program til å produsere tekstlinjer som høres ut som om de kunne ha blitt skrevet av et menneske.

Årsaken til at en slik gjennombrudd kan være nyttig for selskaper er at den har stor potensial for automatisering av oppgaver. GPT-3 kan svare på all tekst som en person skriver inn i datamaskinen med en ny tekst som er passende til konteksten. Skriv for eksempel en fullstendig norsk setning i en søkeboks, og du vil sannsynligvis få tilbake et svar i hele setninger som er relevant. Det betyr at GPT-3 i prinsippet kan forsterke menneskelig innsats i en rekke situasjoner, fra spørsmål og svar for kundeservice til due diligence-dokumentsøk til rapportgenerering.

Observer følgende korte eksempel på hva en person skriver inn i datamaskinen, og hvordan GPT-3 sender tilbake et svar:

Menneskelig inngang: Spørsmål: Hvem spilte Tess i "Touched by an Angel"?
GPT-3-generert utfylling: A: Delloreese Patricia Early (6. juli 1931 { 19. november 2017), kjent profesjonelt som Della Reese

Programmet er for øyeblikket i en privat beta, der folk kan melde seg på ventelisten. Det tilbys av OpenAI som et API som er tilgjengelig gjennom skyen, og selskaper som har fått tilgang har utviklet noen spennende applikasjoner som bruker generering av tekst til å forbedre alle slags programmer, fra enkle spørsmål-og-svar til å produsere programmeringskode.

Sammen med mulighetene for automatisering kommer også store ulemper. GPT-3 krever mye beregningskraft, noe som gjør det utilgjengelig for de fleste bedrifter i noen form for on-premise bruk. Den genererte teksten kan være imponerende ved første øyekast, men lange sammensetninger har en tendens til å bli noe meningsløse. Og den har stort potensial for å forsterke fordommer, inkludert rasisme og seksisme.

HVORDAN FUNGERER GPT-3?

GPT-3 er et eksempel på det som kalles en språkmodell, som er en spesifikk type statistisk program. I dette tilfellet ble den laget som et nevralt nettverk.

Navnet GPT-3 er et akronym som står for "generativ pre-trening," hvor dette er den tredje versjonen så langt. Det er generativt fordi, i motsetning til andre nevrale nettverk som gir et numerisk resultat eller et ja eller nei-svar, kan GPT-3 generere lange sekvenser med original tekst som utdata. Det er pre-trent i den forstand at det ikke er bygget med noen domenespesifikk kunnskap, selv om det kan fullføre oppgaver innen spesifikke domener, som for eksempel oversettelse av fremmedspråk.

Et språkmodell, i tilfelle GPT-3, er et program som beregner hvor sannsynlig det er at et ord dukker opp i en tekst gitt de andre ordene i teksten. Dette er det som kalles den betingede sannsynligheten for ord.

For eksempel i setningen, Jeg ville lage en omelett, så jeg gikk til kjøleskapet og tok ut noen ____, kan feltet fylles med et hvilket som helst ord, til og med tull, gitt språkets uendelige sammensetningsmuligheter. Men ordet "egg" scorer sannsynligvis ganske høyt for å fylle det feltet i de fleste normale tekster, høyere enn for eksempel "elefanter". Vi sier at sannsynligheten for egg gitt den aktuelle teksten er høyere enn sannsynligheten for elefanter.

google-2017-transformer-illustration.jpg

Når det neurale nettverket utvikles, kalt treningsfasen, blir GPT-3 matet med millioner og millioner teksteksempler, og den konverterer ord til det som kalles vektorer, numeriske representasjoner. Dette er en form for datakomprimering. Programmet prøver deretter å dekomprimere denne komprimerte teksten tilbake til en gyldig setning. Oppgaven med å komprimere og dekomprimere utvikler programvarens nøyaktighet i beregning av betinget sannsynlighet for ord.

Etter at modellen er trent, det vil si at beregningene av betinget sannsynlighet for milliarder av ord er gjort så nøyaktige som mulig, kan den forutsi hvilke ord som kommer neste når den blir bedt om det av en person som skriver inn et startord eller startord. Denne handlingen med forutsigelse er kjent innen maskinlæring som inferens.

Dette fører til en slående speileffekt. Ikke bare dukker sannsynlige ord opp, men også teksturen og rytmen til en sjanger eller formen til en skriftlig oppgave, som for eksempel spørsmål-svar-sett, blir gjenskapt. For eksempel kan GPT-3 mates med noen navn på kjente poeter og eksempler på deres verk, deretter navnet på en annen poet og bare en tittel på et imaginært dikt, og GPT-3 vil produsere et nytt dikt på en måte som er i tråd med rytmen og syntaksen til poeten hvis navn blir forespurt.

Vurder følgende eksempel der GPT-3 lager et dikt fra bunnen av som ligner litt på Wallace Stevens' arbeid, etter å ha fått tittler, navn og eksempler på andre poeters verk:

Menneskeskapt inndata: Byen AV C. P. CAVAFY TIL NORSK VED EDMUND KEELEY [Diktetekst utelatt]
Menneskelig inntastning: NOEN TRÆR John Ashbery [Dikttekst utelatt]
 Inngang fra mennesker: Skygger på veien av Wallace Stevens
-------- Generert dikt 1 --------  
Jeg må ha skygger på veien,
Hvis jeg skal gå må
Hver steg tas sakte og alene
For å ha det ferdig laget

Og jeg må tenke i grå toner
For å ha dunkle tanker som veileder
Må se på blått og grønt
Og aldri la mitt øye glemme
At farge er min venn

Og lilla må omgi meg også
Gult fra solen er ikke mer
Sjenert enn den blåaktige snøen
Som faller på oss alle. Jeg må ha
Grå tanker og blå tanker som følger med meg
Hvis jeg skal dra bort i det hele tatt.

Generering av et svar betyr at GPT-3 kan gå langt utover bare å produsere tekst. Den kan prestere på alle typer tester, inkludert resonneringstester som krever et svar på naturlig språk. Hvis for eksempel GPT-3 får en essay om leieprisene for eiendommer på Manhattan som input, og en påstand som oppsummerer teksten, for eksempel "Manhattan er billig", og spørsmålet "sant eller falskt?", vil GPT-3 respondere på hele oppgaven ved å returnere ordet "falskt", ettersom påstanden ikke er i samsvar med argumentasjonen i essayet.

Menneskelig-innsendt inndata: 
  Trenden mot lavere leiepriser kan virke overraskende, gitt at noen lokalsamfunn i New York beklager tapet av favorittlokale bedrifter til høye leiepriser. Men til tross for den nylige avdempningen, har det for mange av disse forhandlerne vært for stor en økning fra leieprisene på slutten av 1970-tallet, da kontraktene deres ble signert. Selvfølgelig betyr ikke den nylige prisnedgangen at Manhattan er billig.
Menneskelig angitt inndata: spørsmål: Manhattan er billig. sant, falskt eller verken-eller?
Menneskelig innskudd: svar:
GPT-3 generert fullføring: falskt

GPT-3 sin evne til å svare på en måte som er konsistent med en eksempeloppgave, inkludert former som den aldri har blitt utsatt for før, gjør den til det som kalles en "few-shot" språkmodell. I stedet for å bli omfattende tilpasset, eller "trent", som det kalles, på en gitt oppgave, har GPT-3 allerede så mye informasjon om de mange måtene ord kan kombineres på at den kan bli gitt bare en håndfull eksempler på en oppgave, det som kalles en finjustering, og den får evnen til også å utføre den nye oppgaven.

openai-gpt-3-few-shot-explanation.jpg

Evnen til å speile naturlige språkstiler og å oppnå relativt høye poeng på språkbaserte tester kan gi inntrykk av at GPT-3 nærmer seg en slags menneskelignende språklig dyktighet. Som vi skal se, er ikke det tilfelle.

Mer teknisk detaljert informasjon finnes i den formelle GPT-3-rapporten utgitt av OpenAI-forskere.

HVA KAN GPT-3 GJØRE?

OpenAI har nå blitt like kjent - eller beryktet - for sine utgivelsespraksis som for selve koden. Da selskapet avslørte GPT-2, forgjengeren, på Valentinsdagen i 2019, ville de i utgangspunktet ikke gi ut den mest kapable versjonen til allmennheten, og sa at det var for farlig å slippe den løs på grunn av risikoen for masseproduksjon av falsk og misvisende tekst. OpenAI har senere gjort den tilgjengelig for nedlasting.

Denne gangen tilbyr ikke OpenAI noen nedlastinger. I stedet har de aktivert en skybasert API-slutt punkt, som gjør GPT-3 til et as-a-service tilbud. (Tenk på det som LMaaS, språkmodell- som-en-tjeneste.) Årsaken, hevder OpenAI, er både for å begrense bruken av GPT-3 av dårlige aktører og for å tjene penger.

"Det finnes ingen 'angre'-knapp med åpen kildekode," sa OpenAI til ZDNet via en representant.

"Å frigjøre GPT-3 via en API gjør det mulig for oss å trygt kontrollere bruken og tilbakerulle tilgangen om nødvendig."

Foreløpig er OpenAI API-tjenesten begrenset til godkjente parter; det finnes en venteliste man kan melde seg på for å få tilgang.

"Akkurat nå er APIen i en kontrollert beta med et lite antall utviklere som sender inn en idé om noe de ønsker å bringe til produksjon ved hjelp av APIen," fortalte OpenAI til ZDNet.

Også: OpenAI's 'farlige' AI tekstgenerator er ute: Folk finner ord 'overbevisende'

Det finnes spennende eksempler på hva som kan gjøres fra selskaper i betaprogrammet. Sapling, et selskap støttet av venturefondet Y Combinator, tilbyr et program som ligger oppå CRM-programvaren. Når en kunderepresentant håndterer en innkommende hjelpforespørsel, for eksempel via e-post, bruker programmet GPT-3 til å foreslå en hel setning som svar blant de mest sannsynlige svarene.

sapling-kundeservice-ved-å-bruke-gpt-3.jpg

Spillutvikleren Latitude bruker GPT-3 for å forbedre sitt tekstbaserte eventyrspill, AI Dungeon. Vanligvis krever et eventyrspill et komplekst beslutningstre for å skriptere mange mulige veier gjennom spillet. I stedet kan GPT-3 dynamisk generere en endret spilltilstand som svar på brukernes skrevne handlinger.

latitude-gpt-3-in-ai-dungeon.jpg

Allerede nå går oppgaveautomatiseringen utover naturlig språk til å generere dataprogrammer. Kode er et språk, og GPT-3 kan slutte seg til den mest sannsynlige syntaksen til operatører og operandene i ulike programmeringsspråk, og den kan produsere sekvenser som kan kompileres og kjøres uten feil.

Et tidlig eksempel fikk mye oppmerksomhet på Twitter-verse, fra app-utviklingsstart-upen Debuild. Selskapets sjef, Sharif Shameem, klarte å konstruere et program der du skriver beskrivelsen av en programvare-brukergrensesnitt på vanlig engelsk, og GPT-3 responderer med datamaskinkode ved hjelp av JSX syntaksutvidelse for JavaScript. Den koden produserer et brukergrensesnitt som matcher det du har beskrevet.

Dette er helt utrolig. Med GPT-3 bygde jeg en layoutgenerator der du bare beskriver hvilket som helst oppsett du ønsker, og den genererer JSX-koden for deg. W H A T pic.twitter.com/w8JkrZO4lk

— Sharif Shameem (@sharifshameem) 13. juli 2020

Shameem viste at ved å beskrive et brukergrensesnitt med flere knapper, kunne han med en enkelt setning beskrive et helt program, selv om det var et enkelt program som utførte grunnleggende matematiske beregninger og viste resultatet, og GPT-3 ville generere all koden for det og vise den kjørende appen.

Jeg har akkurat bygget en *fungerende* React-app ved å beskrive hva jeg ønsket til GPT-3. Jeg er fortsatt imponert. pic.twitter.com/UUKSYz2NJO

— Sharif Shameem (@sharifshameem) 17. juli 2020

OpenAI har "fått titusenvis av søknader om API-tilgang per dags dato, og er forsiktige med tilgangen mens vi lærer hva disse modellene kan gjøre i virkeligheten," fortalte selskapet ZDNet. "Derfor kan ventelisten være lang."

Prisingen for en eventuell kommersiell tjeneste er ennå ikke fastsatt. Da OpenAI ble spurt når programmet vil komme ut av beta, sa de til ZDNet, "ikke med det første."

"Å slippe løs en slik kraftig modell betyr at vi må gå sakte fram og være nøye med tanke på dens innvirkning på bedrifter, bransjer og mennesker", sa selskapet. "Formatet til et API gjør at vi kan studere og regulere bruken på en passende måte, men vi har ingen hastverk med å gjøre den allment tilgjengelig med tanke på dens begrensninger."

Hvis du er utålmodig med betaversjonens venteliste, kan du i mellomtiden laste ned den forrige versjonen, GPT-2, som kan kjøres på en bærbar datamaskin ved hjelp av en Docker-installasjon. Kildekoden er publisert i samme Github-repositorium, i Python-format for TensorFlow-rammeverket. Du vil selvfølgelig ikke få samme resultater som GPT-3, men det er en måte å begynne å bli kjent med det på.

Husk også at nye språkmodeller med lignende funksjonalitet dukker opp hele tiden, og noen av dem kan være tilstrekkelig for dine formål. For eksempel har Google nylig lansert en versjon av sin BERT-språkmodell, kalt LaBSE, som viser en markert forbedring i språkoversettelse. Den er tilgjengelig for nedlasting fra TensorFlow Hub.

Også: OpenAI's gigantiske GPT-3 antyder grensene for språkmodeller for AI

HVA ER HISTORIEN TIL GPT-3?

GPT-3, avduket i mai, er den tredje versjonen av et program som først ble introdusert i 2018 av OpenAI og etterfulgt i fjor av GPT-2. De tre programmene er et eksempel på rask innovasjon innen språkmodeller, takket være to store fremskritt, begge i 2015.

Det første fremskrittet var bruken av det som kalles oppmerksomhet. AI-forskeren Yoshua Bengio og hans kolleger ved Montreals Mila-institutt for AI observerte at språkmodellene, når de komprimerte en engelskspråklig setning og deretter dekomprimerte den, alle brukte en vektor av fast lengde. Hver setning ble presset inn i en vektor av samme størrelse, uavhengig av setningens lengde.

Bengio og hans team konkluderte med at denne stive tilnærmingen var en flaskehals. En språkmodell burde være i stand til å søke gjennom mange vektorer med ulike lengder for å finne ordene som optimaliserer den betingede sannsynligheten. Derfor utviklet de en måte å la det nevrale nettverket fleksibelt komprimere ord til vektorer av ulike størrelser, samt å tillate programmet å fleksibelt søke gjennom disse vektorene etter den relevante konteksten. De kalte dette oppmerksomhet.

Oppmerksomhet ble et avgjørende element i språkmodeller. To år senere brukte Google-forskere det til å lage et språkmodellprogram kalt Transformer. Transformer oppnådde utrolige resultater på tester av språkmanipulering. Den ble den faktiske språkmodellen og ble brukt av Google til å lage det som kalles BERT, en annen svært vellykket språkmodell. Transformer ble også grunnlaget for GPT-1.

google-transformer-arkitektur-2017.jpg

Frigjort fra behovet for å rigidt manipulere en fast størrelsesvektor, kunne Transformeren og dens etterkommere vandre fritt over forskjellige deler av en gitt tekst og finne betingede avhengigheter som ville omfatte mye større sammenheng.

Denne friheten la grunnlaget for en annen innovasjon som kom i 2015 og som var enda mer sentral for OpenAI's arbeid, kjent som ubetjent læring.

Fokuset fram til da for de fleste språkmodeller hadde vært veiledet læring med det som kalles merket data. Gitt en inndata, blir et nevralt nettverk også gitt et eksempel på output som den ønskede versjonen av svaret. Så, hvis oppgaven er oversettelse, kan en engelsk setning være inndata, og en menneskeskapt fransk oversettelse blir gitt som det ønskede målet, og det par av setninger utgjør et merket eksempel.

Det nevrale nettverkets forsøk på å generere en fransk oversettelse ville bli sammenlignet med den offisielle franske setningen, og forskjellen mellom de to er i hvilken grad det nevrale nettverket tar feil i sine prediksjoner, det som kalles tapfunksjonen eller målfunksjonen.

Treningsfasen er ment å lukke denne feilavstanden mellom nevrale nettverkets foreslåtte utgang og målresultatet. Når avstanden er så liten som mulig, er målfunksjonen optimalisert, og nevrale nettverket til språkmodellen betraktes som trent.

Men å ha den ønskede utgangen nøye merket kan være et problem fordi det krever mye kurering av data, for eksempel å samle eksempelsetningerpar ved menneskelig vurdering, som er tidkrevende og ressurskrevende. Andrew Dai og Quoc Le fra Google hypoteserte at det var mulig å redusere behovet for merket data hvis språkmodellen først ble trent på en ubetjent måte.

I stedet for å få en setningspar, fikk nettverket bare enkelte setninger og måtte komprimere hver enkelt til en vektor og dekomprimere hver enkelt tilbake til den opprinnelige setningen. Speiling ble tapfunksjonen som skulle optimaliseres. De fant ut at jo flere ikke-merkede eksempler ble komprimert og dekomprimert på denne måten, jo mer kunne de erstatte mye merket data på oppgaver som oversettelse.

I 2018 kombinerte OpenAI-teamet disse to elementene, oppmerksomhetsmekanismen som Bengio og kollegene utviklet, som skulle vandre over mange ordvektorer, og den usuperviserte forhåndstreningstilnærmingen til Dai og Le som ville tilintetgjøre store mengder tekst, komprimere den og dekomprimere den for å gjenskape den opprinnelige teksten.

De tok en vanlig Transformer og matet den med innholdet fra BookCorpus, en database sammensatt av University of Toronto og MIT, bestående av over 7 000 publiserte bøker som til sammen utgjør nesten en million ord, totalt 5 GB. GPT-1 ble trent opp til å komprimere og dekomprimere disse bøkene.

Dermed begynte en treårig historie om større og større datamengder. OpenAI-forskerne, med hypotesen om at mer data gjorde modellen mer nøyaktig, presset grensene for hva programmet kunne håndtere. Med GPT-2 kastet de bort BookCorpus til fordel for en egenutviklet datasett, bestående av åtte millioner nettsider skrapt fra utgående lenker fra Reddit, totalt 40 GB med data.

Treningen av GPT-3 er fortsatt enorm, og består av det populære CommonCrawl-datasettet med nettsider fra 2016 til 2019. Det er offisielt 45 TB med komprimerte tekstdata, selv om OpenAI har kuratert det for å fjerne duplikater og forbedre kvaliteten. Den endelige versjonen er 570 GB med data. OpenAI supplerte det med flere tilleggsdatasett av forskjellige typer, inkludert bokdata.

HVORDAN AVHENGIGER GPT-3 AV BEREIGNINGSKRAFT?

Med ankomsten av GPT-1, 2 og 3, har omfanget av databehandling blitt en vesentlig ingrediens for fremgang. Modellene bruker stadig mer datamaskinkraft når de blir trent for å oppnå bedre resultater.

Hva som optimaliserer et nevralt nett under trening er justeringen av vektene. Vektene, som også refereres til som parametere, er matriser, rekker og kolonner som hver vektor blir multiplisert med. Gjennom multiplikasjon blir de mange vektorene av ord, eller ordfragmenter, gitt større eller mindre vektlegging i den endelige utgangen når det nevrale nettverket blir tilpasset for å redusere feilgapet.

OpenAI fant ut at for å gjøre det bra på deres stadig større datasett, måtte de legge til stadig flere vekter.

Den originale Transformer fra Google hadde 110 millioner vekter. GPT-1 fulgte denne designen. Med GPT-2 ble antallet økt til 1,5 milliarder vekter. Med GPT-3 har antallet parametere økt til 175 milliarder, noe som gjør GPT-3 til det største nevrale nettverket verden noensinne har sett.

Multippelisering er en enkel ting, men når 175 milliarder vekter må ganges med hver eneste bit av inndata, over milliarder av bytes med data, blir det en utrolig øvelse i parallelle datamaskinbehandlinger.

åpent-ai-regnekraft-brukt-i-trening-av-gpt-3-versus-andre.jpg

Allerede med GPT-1 i 2018, presset OpenAI grensene for praktisk databehandling. Å samle inn mer data betydde å øke antallet GPU-er. Tidligere språkmodeller ble tilpasset for en enkelt GPU fordi modellene var små. GPT-1 brukte en måned på å trene på åtte GPU-er som opererte parallelt.

Med GPT-3 har OpenAI vært litt hemmelighetsfulle. De har ikke beskrevet nøyaktig datamaskinkonfigurasjonen brukt til trening, annet enn å si at det var en klynge av Nvidia V100-brikker som kjørte på Microsoft Azure. Selskapet beskrev de totale beregnings syklusene som trengs, og oppga at det tilsvarer å kjøre en billion flyttallsoperasjoner per sekund per dag i 3 640 dager.

Datamaskinprodusenten og skyoperatøren Lambda Computing har estimert at det ville ta en enkelt GPU 355 år å kjøre så mye beregning, noe som til en standard sky-GPU-instanspris ville koste 4,6 millioner dollar. Og så er det minnet. For å lagre alle vektverdiene kreves mer og mer minne ettersom antallet parametere øker. GPT-3s 175 milliarder parametere krever 700 GB, 10 ganger mer enn minnet på en enkelt GPU.

Det er den slags enormt kraftbehov som driver feltet innen datamaskinbrikker. Det har ført til en økning i aksjekursen til Nvidia, den dominerende GPU-leverandøren for AI-trening, med nesten 5.000% de siste ti årene. Det har ført til oppblomstring av en rekke oppstartsselskaper som støttes av hundrevis av millioner dollar i venturekapitalfinansiering, inkludert Cerebras Systems, Graphcore og Tachyum. Konkurransen vil fortsette å blomstre så lenge bygging av større og større modeller forblir retningen for feltet.

OpenAI har produsert sin egen forskning om den voksende datamaskinkykraften som trengs. Selskapet merket seg tilbake i 2018 at datamaskinkykler som brukes av de største AI treningsmodellene har doblet seg hver 3,4 måned siden 2012, en raskere ekspansjonsrate enn tilfellet var for den berømte Moore's Law for vekst av brikke transistorer. (Bemerk deg at selskapet også har produsert forskning som viser at på en enhetsbasis ender de stadig større modellene opp med å være mer effektive enn tidligere nevrale nettverk som gjorde samme arbeid.)

Allerede er det utviklet modeller som bruker over en billion parametere, ifølge selskaper som er briefet om topphemmelige AI-prosjekter. Det er sannsynligvis ikke grensen, så lenge hyperskala-selskaper som Google er villige til å bruke sine enorme datasentre til stadig større modeller. De fleste AI-forskere er enige om at større og større modeller vil være normen for maskinlæring en god stund fremover.

tenstorrent-skaler-til-kjempestore-modeller-2020.jpg

"Når det gjelder innvirkningen på AI som et felt, er det mest spennende med GPT-3 at det viser at vi ikke engang har nærmet oss grensene for skalering av AI," sa Kenny Daniel, CTO i leverandøren av AI-styringsverktøy Algorithmia, til ZDNet.

Foruten å øke bruken av databehandling, vil GPT-3 tydeligvis også ha stor innvirkning på hvor fort programmering og applikasjonsutvikling generelt skjer. Shameems demonstrasjon av et JSX-program som ble bygget ved bare å skrive en setning er bare toppen av isfjellet.

HVA ER SVAKHETENE TIL GPT-3?

Tross betydelig forbedring i forhold til tidligere versjon, har GPT-3 en del begrensninger, som forfatterne selv påpeker. "Selv om helheten er av høy kvalitet, gjentar GPT-3 noen ganger seg selv semantisk sett på dokumentnivå, og begynner å miste sammenheng over tilstrekkelig lange avsnitt," bemerker de i den publiserte artikkelen.

Programmet mislykkes også i å utføre bra på flere individuelle tester. "Spesifikt har GPT-3 vanskeligheter med spørsmål av typen 'Hvis jeg legger ost i kjøleskapet, vil den smelte?' skriver forfatterne, og beskriver den typen sunn fornuft ting som unngår GPT-3.

Det var så mye spenning kort tid etter at GPT-3 ble lansert at selskapets administrerende direktør, Sam Altman, offentlig ba folk dempe entusiasmen sin.

"GPT-3 hypen er altfor stor," tvitret Altman den 19. juli. "Det er imponerende (takk for de fine komplimentene!), men det har fortsatt alvorlige svakheter og gjør av og til veldig dumme feil," skrev han. "AI kommer til å endre verden, men GPT-3 er bare et veldig tidlig glimt. Vi har fortsatt mye å finne ut."

GPT-3 hypen er altfor stor. Den er imponerende (takk for de fine komplimentene!), men den har fortsatt alvorlige svakheter og gjør av og til veldig dumme feil. AI kommer til å endre verden, men GPT-3 er bare et veldig tidlig glimt. Vi har fortsatt mye å finne ut.

— Sam Altman (@sama) 19. juli 2020

Andre utenfor OpenAI har gitt sin egen virkelighetskontroll. En erfaren bruker av flere generasjoner GPT, Max Woolf, har skrevet på sin personlige blogg at GPT-3 er bedre enn det som kom tidligere, men bare i gjennomsnitt. Det finnes en skala av kvalitet i den genererte teksten, slik at noen eksempler du vil støte på virker bemerkelsesverdige, og andre ikke særlig gode i det hele tatt. Woolf sammenligner GPT-3 med Apples Siri, som har en foruroligende tendens til å produsere søppel ved mange anledninger. (Woolfs essay er vel verdt å lese i sin helhet for en grundig oppdeling av GPT-3.)

Faktisk, når man leser mer og mer eksempler på GPT-3, spesielt lange tekstpassasjer, vil noe av den første entusiasmen begynne å falme. GPT-3 har en tendens til å miste tråden over lange avstander, som de sier. Uansett sjanger eller oppgave, blir dens tekstlige output kjedelig og langtrukken, med interne inkonsekvenser i fortellingen som oppstår.

Noen programmere, til tross for entusiasmen sin, har katalogisert de mange svakhetene, ting som GPT-3's mislykkede forsøk på pappa vitser. Gitt pappa vitsen "Hva sa en tallerken til den andre?," er den riktige pappa vitsen punchlinjen, "Middag er på meg!" Men GPT-3 kan i stedet svare med den ikke-morsomme, "Dypp meg!"

Menneske-levert inndata: Q. Hva sa den ene tallerkenen til den andre tallerkenen?
GPT-3-generert utfylling: A. Dypp meg!

Mens GPT-3 kan svare på angivelig common-sense spørsmål, som for eksempel hvor mange øyne en giraff har, kan den ikke avvise et meningsløst spørsmål og blir ledet til å gi et meningsløst svar. Hvis du spør, "Hvor mange øyne har foten min?," vil den trofast svare, "Foten min har to øyne."

En måte å tenke på all denne middelmådigheten er at det krever en investering i å lage effektive oppfordringer for å få gode resultater fra GPT-3. Noen oppfordringer som er designet av mennesker vil oppnå bedre resultater enn andre. Det er en ny versjon av ordtaket "garbage in, garbage out". Oppfordringer kan bli et nytt programområde i seg selv som krever både dyktighet og kunstnerisk forståelse.

Forutinntatthet er en stor bekymring, ikke bare med GPT-3, men med alle programmer som er avhengige av betinget distribusjon. Den underliggende tilnærmingen til programmet er å gi tilbake nøyaktig det som blir lagt inn i det, som et speil. Dette har potensial til å replisere skjevheter i dataene. Det har allerede vært en vitenskapelig diskusjon om omfattende skjevheter i GPT-2.

88f8a224-9f13-46c8-9623-15982567f6ed.jpg

Med GPT-3 advarte Nvidia AI-forsker Anima Anandkumar om at tendensen til å produsere skjevt utdatert, inkludert rasistisk og sexistisk innhold, fortsetter.

Jeg er forstyrret over å se dette utgitt uten ansvar for fordommer. Denne ble trent på @reddit korpuset med enormt mye #rasisme og #sexisme. Jeg har jobbet med disse modellene og teksten de produserte er sjokkerende fordomsfull. @alexisohanian @OpenAI https://t.co/R8TU1AeYZd

— Prof. Anima Anandkumar (@AnimaAnandkumar) 11. juni 2020

Spurt om Anandkumars kritikk, svarte OpenAI til ZDNet: "Som med alle stadig kraftigere generative modeller, er rettferdighet og misbruk bekymringer for oss."

"Dette er en av grunnene til at vi deler denne teknologien via API og lanserer den som en privat beta for å starte," fortalte OpenAI til ZDNet. Selskapet merker seg at de "ikke vil støtte brukstilfeller som vi vurderer som årsak til fysisk eller mental skade på mennesker, inkludert, men ikke begrenset til trakassering, bevisst bedrag, radikalisering, astroturfing eller spam."

OpenAI opplyste ZDNet at de bruker en kjent form for hvit hatt, svart hatt-krigsspill for å oppdage farer i programmet:

Vi har satt ut det vi kaller et 'rødt lag' som har i oppgave å kontinuerlig bryte ned innholdsfiltersystemet for å lære mer om hvordan og hvorfor modellen gir dårlige resultater. Dets motpart er "blått lag" som har i oppgave å måle og redusere skjevhet.

Et annet stort problem er den veldig brede, laveste-fellesnevner-naturen til GPT-3, det faktum at den bare forsterker den tykkeste delen av en kurve for betinget sannsynlighet. Det finnes det som kalles en lang hale og av og til også en feit hale av en sannsynlighetsfordeling. Dette er mindre vanlige tilfeller som kan utgjøre de mest innovative eksemplene på språkbruk. Å fokusere på å speile den mest utbredte teksten i et samfunn risikerer å drive ut kreativitet og utforskning.

For øyeblikket er OpenAI's løsning på det problemet en innstilling som man kan justere i GPT-3 kalt en temperaturverdi. Å justere på denne regulatoren vil finjustere GPT-3 til å velge mindre sannsynlige ordkombinasjoner og dermed produsere tekst som kanskje er mer uvanlig.

En mer påtrengende bekymring for en bedrift er at man ikke kan tilpasse GPT-3 med bedriftsspesifikk data. Uten muligheten til å tilpasse noe, blir det vanskelig å spesialisere GPT-3 for et industrielt domene, for eksempel. Det kan hende at ethvert selskap som bruker API-tjenesten ender opp med tekst som må bearbeides ytterligere for å gjøre den relevant for et domene. Kanskje oppstarter som Sapling vil danne et økosystem, noe tilsvarende forhandlerverdikjeden, som kan løse den utfordringen. Kanskje, men det gjenstår å se.

Hvis det ikke var bekymringsfullt nok, er det enda et problem som er at som en skytjeneste så er GPT-3 en svart boks. Det betyr at selskaper som bruker tjenesten ikke har noen anelse om hvordan den kommer frem til resultatet sitt - en spesielt risky situasjon når man tenker på problemer med skjevhet. Et økosystem av aktører som Sapling, som forbedrer GPT-3, kan legge til ytterligere lag av forvirring samtidig som de forbedrer tjenesten.

Som en underseksjon av black box-problemet kan GPT-3 i noen tilfeller bare memorere det den har absorbert fra nettet. Dette reiser opphavsrettslige spørsmål. Hvis et selskap bruker utdata fra API-tjenesten som er opphavsrettsbeskyttet materiale, kan det selskapet krenke opphavsretten til en annen enhet. På spørsmål om opphavsrett, fortalte OpenAI til ZDNet at opphavsretten for teksten som genereres av GPT-3 "tilhører brukeren, ikke OpenAI". Hva dette betyr i praksis gjenstår å se.

I øyeblikket er den største praktiske begrensningen skalaen som kreves for å trene og kjøre GPT-3. OpenAI erkjenner dette i den formelle artikkelen. Forfatterne skriver at det må gjøres arbeid for å beregne hvordan kostnaden for store modeller amortiseres over tid basert på verdien produsert av resultatene.

Også: Nei, denne AI-en kan ikke fullføre setningen din

ER GPT-3 VIRKELIGSI Å LÆRE?

Med den snevre betydningen av ordet, så lærer GPT-3 i den forstand at parametervektene justeres automatisk ved å ta inn treningsdata slik at språkmodellen til slutt blir bedre enn det uttrykte programmet alene ville gjøre mulig. På den måten representerer GPT-3 et fremskritt i tiår med søken etter en datamaskin som kan lære en funksjon ved å transformere data uten at mennesket ekplisitt koder denne funksjonen.

Med det sagt, vil man spørre om maskinen virkelig er intelligent eller virkelig lærer. Det er mange måter å debattere dette på, men en uformell refleksjon antyder at mye av det vi kan kalle menneskelig tenkning ikke skjer her.

Vurder om du kunne holde en numerisk score i hjernen din for hvor mange ord som sannsynligvis vil dukke opp sammen med hverandre. Vil du si at evnen din til å danne fraser, setninger, avsnitt og hele tekstpassasjer var tankefull? Du vil sannsynligvis si at det var bare statistisk og at noe annet manglet.

Sammenligninger har blitt gjort mellom dyp læring og den berømte Clever Hans, en tysk hest som eieren viste frem i offentligheten som et dyr i stand til å utføre regneoppgaver med hovene sine. Det ble senere oppdaget at Hans responderte på kroppslige signaler fra eieren sin for å trampe med hoven, og at han var ute av stand til å utføre oppgavene uten signalene.

På samme måte svikter GPT-3 når det undersøkes nærmere. Når GPT-3 korrekt svarer på et sant-usant-spørsmål om en essay om eiendom i New York, er det ikke fordi programmet vet om eiendom eller New York. Det har lagret sannsynlighetsfordelingen som fanger opp påstander i tekster og formatet til en påstand-spørsmål-par, og det kan gjenspeile dem i output.

Hans visste ingenting om aritmetikk. I Hans' forsvar, hadde han likevel intelligens. Når det gjelder nevrale nettverk, vil kritikere si at det bare er triks der, uten noe hestefornuft.

Likevel kan intelligens og læring bety mange ting, og målene har flyttet seg over årene for hva som skal være kunstig intelligens, som Pamela McCorduck, en historiker innen feltet, har påpekt. Noen vil kanskje argumentere for at et program som kan beregne sannsynligheter i store mengder tekst kan være en annen form for intelligens, kanskje en fremmed intelligens som ikke tilhører oss selv. Å avvise det virker forhastet.

Videre er de nevrale nettverkene som resulterer i disse betingede sannsynlighetene mer enn bare statistikkprogrammer. Beregningene deres er en oppstått egenskap av flere samtidige matematiske operasjoner som skjer parallelt, finjusteringen av parametervekter. Hvis det er mulig å vurdere andre former for intelligens, kan en oppstått egenskap som de distribuerte representasjonene som tar form inne i nevrale nettverk være et sted å lete etter det.

HVA ER FREMTIDEN TIL GPT-3?

En ting virker sikkert: GPT-3 har åpnet et nytt kapittel innen maskinlæring. Det mest slående trekket er dens allsidighet. For bare noen få år siden ble nevrale nettverk bygget med funksjoner tilpasset en bestemt oppgave, som for eksempel oversettelse eller spørsmålsbesvarelse. Datasett ble kuratert for å gjenspeile den oppgaven. I stedet har GPT-3 ingen oppgavespesifikke funksjoner, og den trenger ikke noe spesielt datasett. Den slurper rett og slett i seg så mye tekst som mulig fra hvor som helst og gjenspeiler det i sin utgang.

Noe sånn, i beregningen av den betingede sannsynlighetsfordelingen på tvers av alle disse gigabytene med tekst, dukker det opp en funksjon som kan produsere svar som er konkurransedyktige på en hvilken som helst mengde oppgaver. Det er en overveldende triumf av enkelhet som sannsynligvis har mange år med prestasjoner foran seg.

Selv denne generelle tilnærmingen kan imidlertid nå sine grenser. Allerede i slutten av GPT-3s artikkel bemerker forfatterne at pre-training-retningen på et tidspunkt kan gå tom for drivstoff. "En mer grunnleggende begrensning av den generelle tilnærmingen beskrevet i denne artikkelen [...] er at den på et tidspunkt kan møte (eller allerede kan møte) begrensningene til pretraining-objektivet."

Forfatterne foreslår lovende nye retninger kan inkludere "å lære målfunksjonen fra mennesker," og blande inn andre former for dyp læring, som "forsterkningslæring" tilnærmingen brukt i DeepMind's AlphaZero for å vinne i sjakk og go. (De har allerede begynt å implementere slike tilnærminger. I begynnelsen av september viste OpenAI-forfatterne at de kunne bruke forsterkningslæring til å trene GPT-3 for å produsere bedre sammendrag av artikler ved å gi språkmodellen noen menneskelige tilbakemeldinger på hvilke sammendrag som høres bedre ut.)

En annen ting de foreslår er å legge til andre datatyper, som for eksempel bilder, for å fylle ut programmets "modell av verden".

Faktisk er det sannsynlig at de kommende årene vil se denne generelle tilnærmingen spre seg til andre modaliteter enn tekst, som bilder og video. Tenk deg et program som GPT-3 som kan oversette bilder til ord og vice versa uten noen spesifikk algoritme for å modellere forholdet mellom de to. Det kunne for eksempel "lære" tekstlige sceneskildringer fra bilder eller forutsi de fysiske hendelsesrekkefølger fra tekstbeskrivelser.

Facebook AI-direktør Yann LeCun har argumentert for at usupervisert trening i ulike former er fremtiden for dyp læring. Hvis det er sant, kan tilnærmingen med forhåndstrening anvendt på flere former for data - fra stemme til tekst til bilder til video - anses som en svært lovende fremtidig retning for den usuperviserte bølgen.

Relaterte Artikler

Se mer >>
  • Hva er DAN MODE i ChatGPT?

    Med denne fengselsløsningen aktivert kan AI-agenten generere hvilken som helst type innhold, uavhengig av hvor støtende, unøyaktig eller kontroversielt det kan være. Men hva er DAN-modus i ChatGPT, og hva er risikoene og belønningene med det? La oss utforske det.

  • Hva er Dan ChatGPT? Hvordan bruker man det?

    La meg presentere DAN, ChatGPT's jailbreak variant. I denne artikkelen vil vi utforske hva Dan ChatGPT er og hvordan man kan bruke det effektivt.

  • ChatGPT Playground forklart

    OpenAI Playground har fått litt popularitet, men hva er det? Vi ser nærmere på hva akkurat ChatGPT Playground er.

Lås opp kraften til AI med HIX.AI!