ChatGPT kan skrive kode. Nå sier forskere at den også er god til å fikse feil

OpenAI's ChatGPT-chatboten kan fikse programvarefeil veldig bra, men dens viktigste fordel i forhold til andre metoder og AI-modeller er dens unike evne til dialog med mennesker som tillater den å forbedre korrektheten til et svar.

Forskere fra Johannes Gutenberg University Mainz og University College London satte OpenAI's ChatGPT opp mot "standard automatiserte programfiksteknikker" og to dyp-læringstilnærminger til programreparasjon: CoCoNut, fra forskere ved University of Waterloo, Canada; og Codex, OpenAI's GPT-3-baserte modell som underbygger GitHub's Copilot parprogrammering automatisk kodeutfyllingstjeneste.

Også: Hvordan komme i gang med å bruke ChatGPT

"Vi finner at ChatGPT's evne til å fikse feil er konkurransedyktig sammenlignet med de vanlige deep learning-tilnærmingene CoCoNut og Codex, og merkbart bedre enn resultatene som er rapportert for standard metoder for programreparasjon," skriver forskerne i en ny arXiv-artikkel, først oppdaget av New Scientist.

De beste AI-chatbotene: ChatGPT og andre interessante alternativer å prøve

AI chatbots og skribenter kan hjelpe til med å lette arbeidsmengden din ved å skrive e-poster og essays og til og med gjøre matematikk. De bruker kunstig intelligens til å generere tekst eller svare på spørsmål basert på brukerens input. ChatGPT er et populært eksempel, men det finnes også andre bemerkelsesverdige chatbots.

Les nå

At ChatGPT kan brukes til å løse kodingsproblemer er ikke nytt, men forskerne fremhever at dens unike evne til dialog med mennesker gir den et potensielt overtak over andre tilnærminger og modeller.

Forskerne testet ChatGPT sin ytelse ved bruk av QuixBugs feilrettingsbenchmark. De automatiske programreparasjonssystemene virker å være i ulempe ettersom de ble utviklet før 2018.

ChatGPT er basert på transformer-arkitekturen, som Meta sin AI-sjef Yann LeCunn fremhevet denne uken ble utviklet av Google. Codex, CodeBERTfra Microsoft Research, og dens forgjenger BERT fra Google er alle basert på Googles transformer-metode.

OpenAI fremhever ChatGPT's dialogevne i eksempler for feilsøking av kode hvor den kan be om avklaringer og motta hints fra en person for å komme frem til et bedre svar. Den trente de store språkmodellene bak ChatGPT (GPT-3 og GPT 3.5) ved hjelp av forsterkende læring fra menneskelig tilbakemelding (RLHF).

Mens ChatGPTs evne til diskusjon kan hjelpe den med å komme frem til et mer korrekt svar, er kvaliteten på dens forslag fortsatt uklar, noterer forskerne. Derfor ønsket de å evaluere ChatGPTs prestasjon når det gjelder feilretting.

Forskerne testet ChatGPT mot QuixBugs sine 40 Python-problemer, og sjekket deretter manuelt om den foreslåtte løsningen var riktig eller ikke. De gjentok spørringen fire ganger, ettersom det er noe tilfeldighet i påliteligheten til ChatGPTs svar, som en professor ved Wharton fant ut etter å ha gitt chatboten en eksamen lik en MBA.

ChatGPT løste 19 av de 40 Python-feilene, noe som plasserer den på samme nivå som CoCoNut (19) og Codex (21). Men standard APR-metoder løste bare syv av problemene.

Forskerne fant ut at ChatGPT hadde en suksessrate på 77,5% med oppfølgende interaksjoner.

Implikasjonene for utviklere når det gjelder innsats og produktivitet er uklare. Stack Overflow har nylig forbudt ChatGPT-genererte svar fordi de var av lav kvalitet, men hørtes troverdige ut. Wharton-professoren fant ut at ChatGPT kan være en flott følgesvenn for MBA-studenter, da den kan fungere som en "smart konsulent" - en som produserer elegante, men ofte feilaktige svar - og fremmer kritisk tenkning.

"Dette viser at menneskelig innsats kan være til stor hjelp for et automatisert APR-system, der ChatGPT gir muligheten til å gjøre det," skriver forskerne.

"Tross sin gode ytelse, melder spørsmålet seg om den mentale kostnaden som kreves for å verifisere ChatGPT-svar oppveier fordelene som ChatGPT bringer."

ChatGPT kan skrive kode. Nå sier forskere at den er god til å fikse feil også

De beste AI-chatbotene: ChatGPT og andre interessante alternativer å prøve

Relaterte Artikler