Denne nye teknologien kan blåse bort GPT-4 og alt lignende

For all the fervor over the chatbot AI program known as ChatGPT, from OpenAI, and its successor technology, GPT-4, the programs are, at the end of they day, just software applications. And like all applications, they have technical limitations that can make their performance sub-optimal.

I en artikkel publisert i mars foreslo kunstig intelligens (KI)-forskere ved Stanford University og Canadas MILA-institutt for KI en teknologi som kan være langt mer effektiv enn GPT-4 - eller noe lignende - til å fange opp enorme mengder data og omdanne det til et svar.

Også: Disse tidligere Apple-ansatte ønsker å erstatte smarttelefoner med denne enheten

Kjent som Hyena, teknologien er i stand til å oppnå tilsvarende nøyaktighet på benchmarktester, som spørsmålsbesvarelse, samtidig som den bruker en brøkdel av regnekraften. I noen tilfeller er Hyena-koden i stand til å håndtere mengder tekst som får GPT-lignende teknologi til å gå tom for minne og mislykkes.

"Våre lovende resultater på sub-milliarderskalaen antyder at oppmerksomhet kanskje ikke er alt vi trenger," skriver forfatterne. Den bemerkningen refererer til tittelen på en banebrytende AI-rapport fra 2017, 'Oppmerksomhet er alt du trenger'. I den artikkelen introduserte Google-forsker Ashish Vaswani og hans kolleger verden for Googles Transformer AI-program. Transformer ble grunnlaget for alle de nyere store språkmodellene.

Men Transformer har en stor svakhet. Den bruker noe som kalles "oppmerksomhet" der dataprogrammet tar informasjonen i en gruppe symboler, som ord, og flytter den informasjonen til en ny gruppe symboler, som svaret du ser fra ChatGPT, som er utdataen.

Også:Hva er GPT-4? Her er alt du trenger å vite

Denne oppmerksomhet-operasjonen - det essensielle verktøyet i alle store språkprogrammer, inkludert ChatGPT og GPT-4 - har "kvadratisk" beregningskompleksitet (Wiki "tidskompleksitet" ved beregning). Denne kompleksiteten betyr at mengden tid det tar for ChatGPT å produsere et svar øker kvadratisk basert på mengden data den blir matet som input.

På et tidspunkt, hvis det er for mye data - for mange ord i oppgaven, eller for mange samtaler over timevis med chatting med programmet - så enten blir programmet overbelastet med å gi et svar, eller det må gis flere og flere GPU-brikker for å kjøre raskere og raskere, noe som fører til en økning i beregningskravene.

I den nye artikkelen, 'Hyena Hierarchy: Mot Større Konvolusjonelle Språkmodeller', publisert på arXiv pre-print server, foreslår hovedforfatter Michael Poli fra Stanford og hans kolleger å erstatte Transformer sin oppmerksomhetsfunksjon med noe sub-kvadratisk, nemlig Hyena.

Også:Hva er Auto-GPT? Alt du trenger å vite om det neste kraftfulle AI-verktøyet

Forfatterne forklarer ikke navnet, men man kan forestille seg flere grunner til å kalle det et "Hyena" program. Hyener er dyr som lever i Afrika og kan jakte i flere mil. På en måte kan en veldig kraftig språkmodell være som en hyene som jakter i flere mil for å finne næring.

Men forfatterne er virkelig bekymret for "hierarki", som tittelen antyder, og hye

Også:Fremtidige versjoner av ChatGPT kan erstatte flertallet av arbeidet mennesker gjør i dag, sier Ben Goertzel

De bidragsyterne til artikkelen inkluderer store navn innenfor AI-verdenen, som Yoshua Bengio, den vitenskapelige direktøren for MILA, som mottok en Turing Award i 2019, datavitenskapens ekvivalent til Nobelprisen. Bengio er bredt anerkjent for å ha utviklet oppmerksomhetsmekanismen lenge før Vaswani og teamet tilpasset den for Transformer.

Også blant forfatterne er Christopher Ré, en assisterende professor i datavitenskap ved Stanford University, som de siste årene har bidratt til å fremme ideen om AI som "programvare 2.0".

For å finne en sub-kvadratisk alternativ til oppmerksomhet, gikk Poli og team i gang med å studere hvordan oppmerksomhetsmekanismen gjør det den gjør, for å se om denne oppgaven kunne gjøres mer effektivt.

En nylig praksis innen AI-vitenskap, kjent som mekanistisk tolkbarhet, gir innsikt i hva som skjer dypt inne i et nevralt nettverk, inne i de beregningsmessige "kretsene" for oppmerksomhet. Du kan tenke på det som å ta fra hverandre programvare på samme måte som du ville ta fra hverandre en klokke eller en PC for å se delene og finne ut hvordan den fungerer.

Også:Jeg brukte ChatGPT til å skrive den samme rutinen i 12 topp programmeringsspråk. Her er hvordan det gikk

Et av arbeidene som Poli og teamet henviser til, er en serie eksperimenter utført av forsker Nelson Elhage ved AI-startupen Anthropic. Disse eksperimentene analyserer Transformer-programmene for å se hva oppmerksomheten gjør.

I essens fant Elhage og teamet ut at oppmerksomhet fungerer på sitt mest grunnleggende nivå ved veldig enkle datamaskinoperasjoner, som å kopiere et ord fra nylig input og lime det inn i output.

For eksempel, hvis man begynner å skrive inn i et stort språkmodellprogram som ChatGPT en setning fra Harry Potter og De vises stein, som for eksempel "Mr. Dursley was the director of a firm called Grunnings…", er det nok å skrive "D-u-r-s", begynnelsen på navnet, for å få programmet til å fullføre navnet "Dursley" fordi det har sett navnet i en tidligere setning i De vises stein. Systemet er i stand til å kopiere fra hukommelsen oppføringen av tegnene "l-e-y" for å automatisk fullføre setningen.

Også:ChatGPT er mer som en 'alien intelligence' enn et menneskehjerne, sier futurist

Imidlertid støter oppmerksomhetsoperasjonen på det kvadratiske kompleksitetsproblemet når antall ord vokser og vokser. Flere ord krever flere av det som kalles "vekter" eller parametere, for å kjøre oppmerksomhetsoperasjonen.

Som forfatterne skriver: "Transformer-blokken er et kraftig verktøy for sekvensmodellering, men den er ikke uten sine begrensninger. En av de mest merkbare er den beregningsmessige kostnaden, som øker raskt når lengden på inntakssekvensen øker."

Selv om de tekniske detaljene om ChatGPT og GPT-4 ikke har blitt avslørt av OpenAI, tror man at de kan ha en billion eller flere slike parametere. Å kjøre disse parameterne krever flere GPU-brikker fra Nvidia, noe som øker beregningskostnadene.

For å redusere den kvadratiske beregningskostnaden, erstatter Poli og teamet oppmerksomhetsoperasjonen med det som kalles en "konvolusjon", som er en av de eldste operasjonene i AI-programmer, forbedret tilbake på 1980-tallet. En konvolusjon er bare en filter som kan plukke ut elementer i data, enten det er piksler i et digitalt bilde eller ord i en setning.

Også:ChatGPTs suksess kan føre til en skadelig tendens mot hemmeligholdelse innen AI, ifølge AI-pioneren Bengio

Poli og teamet gjør en slags sammenslåing: de tar arbeid gjort av forsker Daniel Y. Fu og hans team ved Stanford for å bruke konvolusjonsfiltre på ordsekvenser, og kombinerer det med arbeidet til stipendiat David Romero og kollegene hans ved Vrije Universiteit Amsterdam som lar programmet endre filterstørrelse mens det kjører. Denne evnen til å tilpasse seg fleksibelt reduserer behovet for kostbare parametere, eller vekter, programmet må ha.

Resultatet av sammensmeltingen er at en konvolusjon kan brukes på en ubegrenset mengde tekst uten å kreve flere og flere parametere for å kopiere mer og mer data. Det er en "oppmerksomhetsfri" tilnærming, som forfatterne beskriver det.

"Hyenapåer er i stand til å betydelig redusere kvalitetsgapet med oppmerksomhet i stor skala," skriver Poli og team, "og oppnår lignende forvirring og effektivitet i etterarbeid med et mindre beregningsbudsjett." Forvirring er en teknisk term som refererer til hvor sofistikert svaret er som genereres av et program som ChatGPT.

For å demonstrere evnen til Hyena, tester forfatterne programmet mot en serie referansemaler som bestemmer hvor godt et språkprogram er tilpasset en rekke AI-oppgaver.

Også: 'Rare nye ting skjer innen programvare', sier Stanford AI professor Chris Ré

En test er The Pile, en samling på 825 gigabyte med tekster som ble satt sammen i 2020 av Eleuther.ai, en ideell AI-forskningsgruppe. Tekstene er hentet fra "høykvalitets" kilder som PubMed, arXiv, GitHub, det amerikanske patentkontoret og andre, slik at kildene har en mer streng form enn bare Reddit-diskusjoner, for eksempel.

Den største utfordringen for programmet var å produsere det neste ordet når en mengde nye setninger ble gitt som inndata. Hyena-programmet klarte å oppnå en tilsvarende resultat som OpenAI sin opprinnelige GPT-program fra 2018, med 20% færre beregningsoperasjoner - "den første oppmerksomhetsfrie, konvolusjonsarkitekturen for å matche GPT-kvalitet" med færre operasjoner, skriver forskerne.

Neste, testet forfatterne programmet på resonneringsoppgaver kjent som SuperGLUE, introdusert i 2019 av forskere ved New York University, Facebook AI Research, Googles DeepMind-enhet og University of Washington.

For eksempel, når gitt setningen "Kroppen min kastet en skygge over gresset", og to alternativer for årsaken, "solen steg" eller "gresset ble kuttet", og bedt om å velge ett eller annet, bør programmet generere "solen steg" som passende utgang.

I flere oppgaver oppnådde Hyena-programmet poengsummer som var lik eller nær den til en versjon av GPT, samtidig som det ble trent med mindre enn halvparten av treningsdataene.

Og: Hvordan bruke den nye Bing (og hvordan den er annerledes enn ChatGPT)

Enda mer interessant er hva som skjedde da forfatterne økte lengden på setningene som ble brukt som input: flere ord betydde bedre forbedring i ytelsen. Ved 2,048 "tokens", som du kan tenke på som ord, trenger Hyena mindre tid på å fullføre en språkoppgave enn en oppmerksomhetsmetode.

Ved 64 000 tokens, sier forfatterene: "Hyenehastigheten øker til 100x" - en hundre ganger bedring i ytelse.

Poli og teamet hevder at de ikke bare har prøvd en annen tilnærming med Hyena, de har "brutt den kvadratiske barrieren" og forårsaket en kvalitativ endring i hvor vanskelig det er for et program å beregne resultater.

De antyder også mulige betydelige endringer i kvalitet lenger ned i veien: "Å bryte den kvadratiske barrieren er et viktig steg mot nye muligheter for dyp læring, som for eksempel å bruke hele lærebøker som kontekst, generere langformet musikk eller prosessere gigapikselbilder," skriver de.

Evnen for Hyenen til å bruke en filter som strekker seg mer effektivt over tusenvis og tusenvis av ord, skriver forfatterne, betyr at det praktisk talt ikke kan være noen begrensning på "konteksten" i en forespørsel til et språkprogram. Det kunne i praksis hente frem elementer fra tekster eller tidligere samtaler som er langt unna den nåværende samtaletråden - akkurat som hyenene som jakter i milesvis.

Også: De beste AI-chatbotene: ChatGPT og andre morsomme alternativer å prøve

"Hyena-operatører har ubegrenset kontekst," skriver de. "Nemlig, de er ikke kunstig begrenset av f.eks. lokasjon, og kan lære langsiktige avhengigheter mellom hvilke som helst elementer i [inndata]."

Foruten ord kan programmet også brukes på data av ulike modaliteter, som bilder og kanskje video og lyd.

Det er viktig å merke seg at Hyena-programmet som vises i artikkelen, er lite i størrelse sammenlignet med GPT-4 eller til og med GPT-3. Mens GPT-3 har 175 milliarder parametere, eller vekter, har den største versjonen av Hyena bare 1,3 milliarder parametere. Det gjenstår derfor å se hvor godt Hyena vil klare seg i en direkte sammenligning med GPT-3 eller 4.

Men hvis effektiviteten som oppnås holder seg for større versjoner av Hyena-programmet, kan det være en ny paradigme som er like utbredt som oppmerksomhet har vært de siste tiårene.

Som Poli og team konkluderer: "Enklere sub-kvadratiske design som Hyena, informert av en rekke enkle retningslinjer og evaluering på mekanistiske tolkningsmål, kan danne grunnlaget for effektive store modeller."

Denne nye teknologien kan blåse bort GPT-4 og alt lignende

Relaterte Artikler