• Bewust
  • Posts
  • Technische Details ChatGPT Gelekt

Technische Details ChatGPT Gelekt

Bewust is een wekelijkse nieuwsbrief over AI en de impact van AI op ons leven. Met een combinatie van analyse, techniek en humor houdt Bewust je wekelijks als eerste op de hoogte van het laatste in AI.

Welkom bij weer een nieuwe Bewust. Deze opzet van vorige week blijft behouden. Het kost iets meer tijd om iets diepere analyse te geven naast de gebruikelijke headlines, maar houdt de nieuwsbrief tenslotte wel interessant. Deze week een wat clickbait-achtige titel die gezien de inhoud niet onterecht is. Veel lees- en werkplezier deze week!

🤖 Technische Details ChatGPT Gelekt

In het kort: na het lezen van dit artikel weet je meer tot voor kort bedrijfsvertrouwelijke details over hoe ChatGPT is getraind, volgens welk proces, hoeveel dat kostte en hoe de dataset eruit zag.

Dinsdag publiceerde Semianalysis een artikel over de infrastructuur, architectuur en kosten van ChatGPT. Dit is bedrijfsgevoelige informatie die OpenAI zelf als bedrijfsgeheim beschouwt, dus over de training en dagelijkse operatie van ChatGPT is niets over bekend behalve vermoedens en losse details uit officiële presentaties. Semianalysis is een een klein onderzoeksbureau dat tegen een abonnement van 1000 dollar per maand marktanalyses van de halfgeleiderindustrie publiceert.

Dat een klein bedrijf als Semianalysis een gedetailleerd overzicht met onder andere de ontwikkel- en bedrijfsvoeringskosten van ChatGPT weet te publiceren is dus opvallend. Omdat Semianalysis een goede reputatie heeft en de auteurs zeggen dat ze de informatie uit veel bronnen hebben, hieronder de belangrijkste details in begrijpelijke taal. Ter verantwoording van mijn bronnen vindt je het oorspronkelijke onderzoek hier, maar tegen betaling dus. Dit artikel is gebaseerd op aanvullend achtergrondonderzoek en een samenvatting die op LinkedIn verscheen en meteen weer offline werd gehaald, maar hier is gedumpt.

Basics

Eerst wat basics: wat is ChatGPT? ChatGPT is een zogenaamd large language model, simpel gezegd een taalmodel. Dat is een type kunstmatige intelligentie dat is getraind om menselijke taal te begrijpen en te genereren. Omdat het zelf iets kan genereren, in dit geval tekst, wordt het ook wel kunstmatige generatieve intelligentie genoemd. Om realistische, samenhangende tekst te produceren maakt ChatGPT gebruik van patronen in de grote hoeveelheden teksten waarop het is getraind. De huidige versie van ChatGPT is GPT-4.

Als je GPT-4 een vraag stelt, kijkt het naar de woorden in je vraag en probeert op basis van de training te bepalen wat een passend en zinvol antwoord zou zijn. Het model begrijpt je vraag dus niet en kan niet abstract of creatief nadenken over het antwoord. Zelfs bij vragen waarvoor het model geen beroep kan doen op simpele feiten, zoals diepgaand filosofische vragen, zal het antwoord gebaseerd zijn op patronen in antwoorden op dat soort vragen in de trainingsdata, bijvoorbeeld discussies op Reddit of Twitter. Als het model een woord in de training ziet, berekent het de vector voor dat woord. De vector is een wiskundige representatie van de betekenis van het woord en de relatie tot andere woorden. Het model begrijpt de vraag dus niet, maar zet elk afzonderlijke woord in je vraag ook om in een vector en produceert op basis daarvan een reeks nieuwe woorden als antwoord. Dat is uiteindelijk een antwoord te formuleren dat zinvol en samenhangend lijkt.

Trainingsproces

Het is bekend dat OpenAI voor GPT-4 gebruik maakt vaakt van de A100 GPU’s, feitelijk grafische kaarten voor datacenters. Even technisch:

De training-FLOPS voor GPT-4 is ongeveer 2.15e25, op ongeveer 25.000 A100’s in 90 tot 100 dagen met een MFU van ongeveer 32% tot 36%.

FLOPS staat voor floating point operations per second, een maat voor hoeveel berekeningen een computer kan uitvoeren per seconde. Het getal "2.15e25" betekent dat er gedurende de gehele trainingsperiode ongeveer 2.15 x 10^25 berekeningen (dat ga ik hier niet uittypen) zijn uitgevoerd. Dat kostte met 25 duizend A100’s ongeveer 90 tot 100 dagen; de MFU geeft aan dat ongeveer een derde van de totale beschikbare rekenkracht werd gebruikt.

Is dat niet laag? Ja, tijdens het trainingsproces zijn er veel errors geweest, waardoor de boel herstart moest worden vanaf het laatst bekende checkpoint (een backup in deep learning).

Trainingskosten

OpenAI-baas Sam Altman schatte dat de training van GPT-4 meer dan 100 miljoen dollar heeft gekost. Op basis van de bovenstaande data kunnen we daar nu een betere inschatting van maken. Een enkele A100 GPU kost in de cloud, als jij en ik er gebruik van willen maken, bij de goedkopere aanbieders ongeveer 1 dollar per uur. Het is logisch dat OpenAI met Microsoft als grootaandeelhouder tegen een zeer scherpe prijs op het cloudplatform van Microsoft heeft kunnen trainen. Maar nu we weten dat de training van GPT4 90 tot 100 dagen gekost heeft, is de rekensom van wat de training in ~100 dagen heeft gekost eenvoudig:

95 dagen x 24 uur x 25.000 A100 x $1 = $60 miljoen

Vandaag de dag is de H100, de opvolger van de A100, vele malen efficiënter. De training zou dan in vrijwel de helft van de tijd plaats kunnen vinden met een derde van de processoren. Chriet Titulaer zou het een wondere wereld hebben gevonden.

Chriet Titulaer

Parameters

Momenteel biedt OpenAI twee versies van ChatGPT als service aan: GPT-3 (om precies te zijn 3.5) en GPT-4. Voor toegang tot de nieuwste versie moet je betalen, versie 3.5 kun je gratis gebruiken. Uiteraard is de nieuwste versie in veel opzichten beter, maar is duidelijk waarom.

GPT-4 is 10 keer groter dan GPT-3, met 1,8 biljoen parameters verdeeld over 120 lagen.

GPT en andere AI-modellen hebben een neuraal netwerk, verbindingen van neuronen, vergelijkbaar met zoals die in onze hersenen voorkomen. In AI worden neuronen parameters genoemd. Met één laag neuronen of parameters kun je niets, met twee lagen iets heel simpels zoals rekenen, met drie en meer steeds complexere dingen zoals patroonherkenning. Hoe meer lagen, hoe beter dus - waarbij het aantal neuronen ook nog een rol speelt. Het menselijk brein heeft ongeveer 100 miljard neuronen, GPT-3 heeft ongeveer 175 miljard parameters. Je kunt dus heel simpel zeggen dat GPT-4 10 keer slimmer is dan zijn oudere broertje.

Zoals recent onthuld werd in de recente podcast van Lex Fridman met George Hotz, is GPT-4 een mixture of experts (MoE)-model met 16 experts met elk hun eigen training. Elke opdracht die je geeft, wordt door 2 experts behandeld, wat simpel gezegd een strategie is om de enorme complexiteit van de dataset en het genereren van output op te delen in kleinere brokjes.

Dataset

Er is veel te doen over de dataset waarmee OpenAI ChatGPT heeft getraind. Er gaan al tijden geruchten dat auteursrechtelijk beschermde boeken tot de dataset zouden behoren en vorige week stapte een bekende comediant naar de rechter vanwege schending van het auteursrecht omdat haar werk zou zijn gebruikt voor de training van AI’s.

Het voeden van data resulteert in een aantal tokens, dat je kunt zien als de woordenschat van een AI. Hoe groter het aantal tokens, hoe beter. Het artikel stelt dat de trainingsdata van GPT-4 in totaal 13 biljoen tokens omvatte. De twee binnen AI veelgebruikte kant-en-klare datasets, CommonCrawl en RefinedWeb, hebben samen ongeveer 10 biljoen tokens. Niemand weet waar de resterende data vandaan komt. Het vermoeden is zoals vorige week besproken scraping van Twitter, Reddit, YouTube, maar ook GitHub, LibGen en Sci-Hub. Die laatste twee zijn controversieel, omdat ze respectievelijk auteursrechtelijk beschermde boeken en wetenschappelijke artikelen zonder toestemming online zetten. De auteurs hebben daarnaast het idee dat OpenAI ook tekstherkenning op universitaire studieboeken heeft losgelaten en dat is waarom ChatGPT zo ‘slim’ is en mee kan praten over van filosofie tot computerwetenschappen.

Maar het is ‘slim’ tussen aanhalingstekens. Er bestaat een optimale verhouding tussen het aantal tokens en het aantal parameters. In de huidige stand van de techniek wordt dit de Chinchilla-waarde genoemd. Die stelt dat je 1,4 biljoen tokens nodig hebt voor een taalmodel met 70 miljard parameters. OpenAI zit dus ergens halverwege, wat vermoedelijk met name iets zegt over het algemene probleem binnen AI om voldoende trainingsdata van goede kwaliteit te verzamelen.

Tot slot

Hopelijk heb je het einde van dit stukje gehaald. Zo ja, dan kun je nu op technisch niveau meepraten over de werking van ChatGPT. Hoewel dit details zijn die OpenAI in de hypercompetitieve AI-markt logischerwijs als bedrijfsvertrouwelijk bestempelt, zal het niet al te lang duren voordat dit te verifiëren is. Als je je echt nog wat verder in wilt lezen op dit onderwerp, lees dan What Is ChatGPT Doing and Why Does it Work? van Stephan Wolfram, die de theoretische details vanuit zijn diep technische kennis begrijpelijk uit weet te leggen.

📰 In het kort snelle kennis, meer tijd voor actie

📰 In een GPU-markt waarin de vraag groter is dan het aanbod zijn er kapers op de kust van NVIDIA: AMD, Intel, cloudbedrijven en startups.

📰 De CIA is bezorgd over de hoge snelheid waarin AI zich ontwikkelt.

📰 Het aantal liedjes in de wereld is vorige week in één klap verdubbeld. Waardoor… jup.

📰 Een kijkje achter de schermen bij Anthropic, de grootste uitdager van OpenAI (hier zonder paywall).

📰 Niet geheel toevallig heeft datzelfde Anthropic afgelopen week Claude 2, de nieuwe versie van de belangrijkste uitdager van ChatGPT uitgebracht.

📰 Niet alleen maar hosanna: voor het labelen van AI-trainingsdata doen sommige bedrijven op de allerlaagste-loonlanden, een bedenkelijke praktijk.

📰 AI-detectiesoftware detecteert Engelse schrijfsels van wie het Engels niet de moedertaal is als gegenereerd door AI door de veelal eenvoudigere woordkeuze.

📰 ChatGPT lijkt de afgelopen weken lui en traag, volgens dit artikel omdat OpenAI bezig is met ontwikkelingen om de operationele kosten te verlagen.

📰 Figuranten in Hollywood staken vanwege de plannen van productiehuizen om ze visueel vast te leggen en die avatar te hergebruiken.

💡 Een open-source chatbot van Andreessen Horowitz die je in kunt zetten als vriend/vriendin, romantische partner of coach.

🖼️ AI-afbeelding van de week

Een 1080p-foto van wolken door Stable Diffusion XL

Bedankt voor het lezen. Ik waardeer het enorm om je feedback op en ideeën voor de nieuwsbrief te horen. Je kunt me bereiken via e-mail of via het feedbackformulier achter de poll hieronder.

Tot de volgende!