Hvordan ChatGPT-vannmerket fungerer og hvorfor det kan bli beseiret

OpenAIs ChatGPT introduserte en måte å automatisk lage innhold på, men planlegger å introdusere en vannmerkefunksjon for å gjøre det enkelt å oppdage at noen mennesker blir nervøse. Dette er hvordan ChatGPT vannmerking fungerer og hvorfor det kan være en måte å beseire det.

ChatGPT er et utrolig verktøy som online utgivere, tilknyttede selskaper og SEO-er samtidig elsker og gruer seg til.

Noen markedsførere elsker det fordi de oppdager nye måter å bruke det til å generere innholdsbriefer, konturer og komplekse artikler.

Nettutgivere er redde for utsiktene til at AI-innhold oversvømmer søkeresultatene, og erstatter ekspertartikler skrevet av mennesker.

Følgelig forventes nyheter om en vannmerkefunksjon som låser opp gjenkjenning av ChatGPT-forfattet innhold også med angst og håp.

Kryptografisk vannmerke

Et vannmerke er et halvgjennomsiktig merke (en logo eller tekst) som er innebygd i et bilde. Vannmerket signaliserer hvem som er den opprinnelige forfatteren av verket.

Det er i stor grad sett på fotografier og i økende grad i videoer.

Vannmerketekst i ChatGPT innebærer kryptografi i form av å bygge inn et mønster av ord, bokstaver og tegnsetting i form av en hemmelig kode.

Scott Aaronson og ChatGPT Watermarking

En innflytelsesrik dataforsker ved navn Scott Aaronson ble ansatt av OpenAI i juni 2022 for å jobbe med AI Safety and Alignment.

AI Safety er et forskningsfelt som er opptatt av å studere måter AI kan skade mennesker og skape måter å forhindre den slags negative forstyrrelser.

Det vitenskapelige tidsskriftet Distill, med forfattere tilknyttet OpenAI, definerer AI Safety slik:

"Målet med langsiktig kunstig intelligens (AI)-sikkerhet er å sikre at avanserte AI-systemer er pålitelig på linje med menneskelige verdier - at de pålitelig gjør ting som folk vil at de skal gjøre."

AI Alignment er feltet for kunstig intelligens som er opptatt av å sørge for at AI er på linje med de tiltenkte målene.

En stor språkmodell (LLM) som ChatGPT kan brukes på en måte som kan gå i strid med målene til AI Alignment som definert av OpenAI, som er å skape AI som kommer menneskeheten til gode.

Derfor er grunnen til vannmerking å forhindre misbruk av AI på en måte som skader menneskeheten.

Aaronson forklarte årsaken til vannmerking av ChatGPT-utdata:

"Dette kan selvsagt være nyttig for å forhindre akademisk plagiering, men også for eksempel massegenerering av propaganda ..."

Hvordan fungerer ChatGPT-vannmerking?

ChatGPT vannmerking er et system som bygger inn et statistisk mønster, en kode, i valg av ord og til og med skilletegn.

Innhold skapt av kunstig intelligens genereres med et ganske forutsigbart mønster av ordvalg.

Ordene skrevet av mennesker og AI følger et statistisk mønster.

Å endre mønsteret til ordene som brukes i generert innhold er en måte å "vannmerke" teksten på for å gjøre det enkelt for et system å oppdage om det var et produkt av en AI-tekstgenerator.

Trikset som gjør vannmerking av AI-innhold uoppdagelig, er at distribusjonen av ord fortsatt har et tilfeldig utseende som ligner på vanlig AI-generert tekst.

Dette omtales som en pseudotilfeldig fordeling av ord.

Pseudorandomness er en statistisk tilfeldig rekke av ord eller tall som faktisk ikke er tilfeldige.

ChatGPT vannmerking er ikke i bruk for øyeblikket. Scott Aaronson hos OpenAI er imidlertid registrert og sier at det er planlagt.

Akkurat nå er ChatGPT i forhåndsvisninger, som lar OpenAI oppdage "feiljustering" gjennom bruk i den virkelige verden.

Antagelig kan vannmerking bli introdusert i en endelig versjon av ChatGPT eller tidligere enn det.

Scott Aaronson skrev om hvordan vannmerking fungerer:

«Mitt hovedprosjekt så langt har vært et verktøy for statistisk vannmerking av utdataene til en tekstmodell som GPT.
I utgangspunktet, når GPT genererer lang tekst, vil vi at det skal være et ellers umerkelig hemmelig signal i ordvalgene, som du kan bruke til å bevise senere at, ja, dette kom fra GPT.»

Aaronson forklarte videre hvordan ChatGPT vannmerking fungerer. Men først er det viktig å forstå konseptet med tokenisering.

Tokenisering er et trinn som skjer i naturlig språkbehandling der maskinen tar ordene i et dokument og bryter dem ned i semantiske enheter som ord og setninger.

Tokenisering endrer tekst til en strukturert form som kan brukes i maskinlæring.

Prosessen med tekstgenerering er maskinen som gjetter hvilket token som kommer neste basert på forrige token.

Dette gjøres med en matematisk funksjon som bestemmer sannsynligheten for hva neste token blir, det som kalles en sannsynlighetsfordeling.

Hvilket ord som blir neste er spådd, men det er tilfeldig.

Vannmerket i seg selv er det Aaron beskriver som pseudorandom, ved at det er en matematisk grunn til at et bestemt ord eller skilletegn er der, men det er fortsatt statistisk tilfeldig.

Her er den tekniske forklaringen av GPT vannmerking:

"For GPT er hver inndata og utgang en streng av tokens, som kan være ord, men også skilletegn, deler av ord eller mer - det er omtrent 100 000 tokens totalt.
I kjernen genererer GPT hele tiden en sannsynlighetsfordeling over neste token som skal genereres, betinget av strengen med tidligere tokens.
Etter at det nevrale nettet har generert distribusjonen, prøver OpenAI-serveren faktisk et token i henhold til den distribusjonen – eller en modifisert versjon av distribusjonen, avhengig av en parameter kalt "temperatur".
Så lenge temperaturen ikke er null, vil det imidlertid vanligvis være tilfeldighet i valget av neste token: du kan kjøre om og om igjen med den samme meldingen, og få en annen fullføring (dvs. en rekke utdata-tokens) hver gang .
Så for å vannmerke, i stedet for å velge neste token tilfeldig, vil ideen være å velge den pseudorandomly, ved å bruke en kryptografisk pseudorandom-funksjon, hvis nøkkel er kjent bare for OpenAI.»

Vannmerket ser helt naturlig ut for de som leser teksten fordi valget av ord etterligner tilfeldigheten til alle de andre ordene.

Dette er den tekniske forklaringen:

"For å illustrere, i det spesielle tilfellet at GPT hadde en haug med mulige tokens som den bedømte like sannsynlige, kunne du ganske enkelt velge hvilket token som maksimerte g. Valget ville se jevnt tilfeldig ut for noen som ikke kunne nøkkelen, men noen som visste nøkkelen kunne senere summere g over alle n-grammene og se at den var unormalt stor.»

Vannmerking er en personvern-først-løsning

Jeg har sett diskusjoner på sosiale medier der noen foreslo at OpenAI kunne holde oversikt over hver utgang den genererer og bruke den til deteksjon.

Scott Aaronson bekrefter at OpenAI kunne gjøre det, men at å gjøre det utgjør et personvernproblem. Det mulige unntaket er for rettshåndhevelsessituasjonen, som han ikke utdypet nærmere.

Slik oppdager du ChatGPT- eller GPT-vannmerking

Noe interessant som ser ut til å ikke være godt kjent ennå, er at Scott Aaronson bemerket at det er en måte å beseire vannmerket.

Han sa ikke at det er mulig å beseire vannmerket, han sa at det kan beseires.

"Nå kan alt dette beseires med nok innsats.
For eksempel, hvis du brukte en annen AI for å parafrasere GPTs utgang – vel ok, vi kommer ikke til å kunne oppdage det.»

Det virker som om vannmerket kan beseires, i hvert fall fra november da uttalelsene ovenfor ble gitt.

Det er ingen indikasjoner på at vannmerket er i bruk. Men når den kommer i bruk, kan det være ukjent om dette smutthullet ble lukket.

Sitering

Les Scott Aaronsons blogginnlegg her.