Hvordan er Chat GPT trent?

Hvis du er kjent med ChatGPT, har du kanskje hørt at den er trent på et stort dataskorpus. Men hva betyr egentlig dette? I denne artikkelen vil vi fordype oss i finessene om hvordan ChatGPT blir trent?

ChatGPT er en forhåndsopplært språkmodell som er tilpasset gjennom en kombinasjon av overvåket og forsterkende læringsteknikker. Treningen av ChatGPT involverte å legge inn en stor mengde tekstdatabehandling i modellen og justere parametrene slik at den kan generere tekst som ligner teksten i treningskorpuset.

Den usuperviserte læringsmetoden ble brukt for denne prosessen, det vil si at modellen ikke fikk eksplicitte tilbakemeldinger på om den genererte teksten var korrekt eller ikke. I stedet tilpasser modellen sine parametere basert på sannsynligheten for at den genererte teksten er lik texten i treningskorpuset.

GPT-3, foreldremodellen til ChatGPT-3, er en av de største språkmodellene som noensinne er laget, med 175 milliarder parametere og en kontekst på 2048 token. Den er trent på hundrevis av milliarder ord fra Common Crawl, WebText2, Books1/2, Wikipedia på engelsk, og eksempler på kode i CSS, JSX, Python og andre programmeringsspråk.

Opplæringsmetoden som brukes for GPT-3 er generativ forhåndstrening, det vil si at den trenes opp til å forutsi neste token eller ord i inngangsetningen.

Beste alternativene for Chat GPT

Tilsynet læring

ChatGPT-modellen ble justert gjennom en prosess med veiledet læring av menneskelige trenere. Disse trenerne engasjerte seg i samtaler, og tok på seg både rollen som brukeren og AI-assistenten.

De ble gitt forslag fra modellen for å veilede dem i å komponere svarene sine, som deretter ble blandet med datasettet InstructGPT som var konvertert til dialogformat.

Forsterkende læring

Modellen ble ytterligere forbedret gjennom forsterkende læring ved bruk av Proximal Policy Optimization (PPO). Menneskelige trenere evaluerte responsene generert av modellen fra en tidligere samtale og brukte disse evalueringene til å utvikle belønningsmodeller. Modellen ble deretter finjustert basert på disse belønningsmodellene.

Prosessene med finjustering ble gjennomført flere ganger for å oppnå bedre ytelse. PPO-algoritmer er kostnadseffektive sammenlignet med andre algoritmer og har raskere ytelse, noe som gjør dem ideelle for denne prosessen.

OpenAI fortsetter å samle inn informasjon fra brukere som samhandler med ChatGPT, som deretter kan brukes til å forbedre og raffinere modellen ytterligere.

Brukerne har muligheten til å stemme på ChatGPTs svar ved å enten stemme opp eller ned, og de har også muligheten til å gi ekstra tilbakemelding. Denne informasjonen brukes til å forbedre ytelsen til modellen ytterligere og gjøre den bedre til å generere tekst som likner menneskelig skrevet tekst.

Data brukt til å trene modellen

ChatGPT-3 er en språkmodell som er finjustert fra GPT-3.5-serien, som ble trent ved bruk av Azure AI supercomputing infrastruktur. Den ble trent på en massiv mengde tekst som ble hentet fra internett, som inkluderer bøker, chat-fora, artikler, nettsider, akademiske papirer, kode og andre kilder.

Korpset av tekstdata som ble brukt for å trene ChatGPT-3 var over 45 Terabyte stort, noe som er ekstremt stort og bidrar til modellens evne til å generere tekster som er lignende det en journalist eller forfatter ville kunne produsere.

Hvordan blir Chat GPT trent?

Tilsynet læring

Forsterkende læring

Data brukt til å trene modellen

Tilknyttede Artikler