• Bewust
  • Posts
  • Hoe AI Het Internet Blijvend Verandert

Hoe AI Het Internet Blijvend Verandert

Bewust is een wekelijkse nieuwsbrief over AI en de impact van AI op ons leven. Met een combinatie van analyse, techniek en humor houdt Bewust je wekelijks als eerste op de hoogte van het laatste in AI.

Welkom bij weer een nieuwe Bewust. Deze week één hoofdonderwerp in plaats van drie, met diepere analyse om zo te voldoen aan jullie verzoek om diepgaande analyse. Laat weten wat je ervan vindt, om deze opzet te behouden of volgende week weer terug naar de oude. Veel lees- en werkplezier deze week!

🤖 Hoe AI het internet verandert

Dat er onrust is bij de grote internetplatformen zal je niet zijn ontgaan. De moderators van de zogenaamde honderdduizenden subreddits gingen enkele weken geleden in staking. Belangrijkste reden: onvrede over het feit dat Reddit nu geld vraagt voor API-toegang. De API was gratis en werd door AI-bedrijven gebruikt om alle discussies op Reddit binnen te halen, waardoor AI’s enorm veel konden leren over welk onderwerp dan ook, omdat Reddit enorm veel subreddits heeft over welk onderwerp dan ook.

De directie van Reddit zag in dat het enorme waarde weggaf, dus kost het nu geld om data van Reddit weg te sluizen. Gelijksoortige berichten kwamen deze week naar buiten over Twitter, waar je moest inloggen om tweets te bekijken en eenmaal ingelogd aantal zichtbare berichten beperkt was. Ook de moderators van Stack Exchange, waar softwareontwikkelaars elkaar helpen met code, gingen in staking. Alle drie platforms behoren tot de top van best bezochte internetsites. Wat is hier aan de hand? Waar je deze en andere platformen gratis kon bezoeken, verdwijnt de laatste tijd steeds meer achter een login- of zelfs betaalmuur. Waarom? Het korte antwoord: scraping.

Scraping
Op het eerste oog lijken de belangen commercieel: Reddit ambieert een beursnotering, maar is op dit moment nog niet winstgevend. Elon Musk is ontevreden over de winstgevendheid van Twitter. Hoewel bedrijfseconomie een rol speelt, maken deze bedrijven zich met name zorgen over scraping. Ietwat technisch: dit is het grootschalig verzamelen van gegevens op webpagina’s met oplossingen die duizenden pagina’s tegelijk bezoeken en zich voordoen als een normale gebruiker. Daarom is scraping voor website-eigenaren moeilijk tegen te gaan zonder de toegang voor reguliere gebruikers te beperken. Scraping is niet nieuw. Het is waarom de zoekresultaten van Google zo goed zijn. Ook voor wetenschappelijk onderzoek wordt het veel ingezet. Het gebeurt al tientallen jaren en was nooit een probleem: met onderzoek wordt doorgaans geen geld verdient en als Google je site scrapete (excuse my Dutch), resulteerde dit doorgaans in een betere positie in de zoekresultaten en dus meer bezoeken aan je website. Maar dat is nu anders.

Voor de training van ChatGPT heeft OpenAI alle beschikbare tekst op platformen als Wikipedia, Reddit, Wikipedia, Stack Exchange, duizenden nieuwssites en online bibliotheken heeft geïndexeerd. Voor de training van taalmodellen geldt simpel gezegd dat hoe meer tekst een taalmodel tijdens de training heeft gelezen, hoe beter de resultaten. Lees: betere antwoorden op je vragen. De datahonger van AI-ontwikkelaars is dus enorm.

Scraping voor AI
Deze week maakte Google bekend dat het z’n privacybeleid aanpast. Het bedrijf stelt dat het zich het recht voorbehoudt om alle openbaar toegankelijke informatie te gebruiken voor de training van hun AI’s. Dat betekent dat als je dingen op internet zet, Google het ophaalt om z’n AI beter te maken. Iedereen begrijpt dat iedereen dat wat je op internet zet potentieel kan zien. Daar komt nu een nieuwe dimensie bij: namelijk hoe het gebruikt kan worden. Als het sowieso wordt gebruikt voor de training van AI’s, is het de vraag wat de gevolgen zijn, bijvoorbeeld als we ChatGPT in de toekomst kunnen vragen naar personen. Dat is het privacyaspect, maar er is ook een commercieel aspect.

De betaalde versie van ChatGPT kon tot deze week een website voor je bezoeken. Of zelfs meerdere websites tegelijk, om in één keer een samenvatting van een bepaald onderwerp te krijgen. ChatGPT gebruikte hiervoor naast de vaste trainingsdata dus ook informatie die het live ophaalde, dit kun je zien als het real-time scrapen van informatie. De optie is momenteel niet beschikbaar omdat die met name werd gebruikt om betaalde artikelen te bekijken, maar de implicaties zijn breder.

Als je de betaalde versie van ChatGPT dagelijks gebruikt, ga je het gebruiken als je persoonlijke zoekrobot. Het gevolg is dat je voor eenvoudige zoekopdrachten de orginele site niet meer zult bezoeken, omdat ChatGPT het voor je uitschrijft, samenvat of opneemt in een essay, etcetera. De volgende stap is dat je niet eens meer stilstaat bij de bron of betrouwbaarheid van de informatie. Naarmate AI’s slimmer worden en toegang krijgen tot meer trainingdata, is het waarschijnlijk dat steeds minder mensen zoekmachines gebruiken en doorklikken naar websites in de resultaten. Ze stellen een AI een vraag en die geeft het antwoord. Geen URL’s meer onthouden, niet meer tientallen zoekresultaten lezen, maar in één keer een antwoord op je vraag. AI’s worden je assistent bij het doen van je werk tot het beantwoorden van levensvragen. Nog even los van het feit dat ChatGPT hallucineert en het niet altijd bij het juiste eind heeft.

De economie van het internet
De grote internetplatforms nemen dus maatregelen hiertegen, maar de impact is veel breder. Als internetgebruikers niet meer naar de bron van informatie gaan, ondermijnt dit het verdienmodel dat doorgaans is opgebouwd rondom bezoekersaantallen. Ook actieve gebruikers van deze platformen maken zich zorgen. Vrijwillige moderators op Reddit hebben veel tijd in het onderhouden van hun community gestoken. Maar nu steeds meer bedrijven geld vragen voor toegang tot hun platform, komen die actieve gebruikers in opstand en stellen ze dat zij degenen zijn die de waarde hebben gecreerd en daar dus iets iets voor terug willen zien.

En dan is er nóg een reden. Veel sites waar het mogelijk is om dingen te delen, zoals social media, maar ook reviewsites, zien een toename in teksten en plaatjes van slechte kwaliteit die overduidelijk geen waarde toevoegen. Gegenereerd door AI. Waar het vroeger tijd, kennis en aandacht kostte om teksten te schrijven, heeft ChatGPT deze barriere weggehaald. Etsy, een platform waarop creativelingen t-shirts en koffiemokken met hun designs kunnen verkopen, wordt overspoeld door rommel. In plaats van kleine kunstwerkjes zetten duizenden mensen nu AI-gegenereerde afbeeldingen op Etsy in de hoop wat te kunnen verdienen. Amazon heeft veel last van AI-geschreven reviews die de plaatsing van een product moeten verbeteren. Ook het aanbod e-books op Amazon, kosteloos te publiceren, bestaat vrijwel alleen maar uit AI-gegenereerde boeken. Futuristen bedachten hiervoor al twintig jaar geleden de Dead Internet Theory, waarin ze een internet voorzagen met vrijwel alleen maar inhoud gecreerd door bots. Een internet met gigantisch veel meer informatie dan nu, maar van lage (of: nog lagere) kwaliteit. Het wordt ook wel de enshittifcation van het internet genoemd. In dat scenario is het niet ondenkbaar dat toegang tot kwalitatief goede informatie geld gaat kosten.

Vooruitblik
OpenAI zette deze week Browse with Bing uit. Naar eigen zeggen om recht te doen aan content-eigenaren. In de nasleep op de eerdere berichtgeving heeft Google aangegeven een discussie op gang te willen brengen over hoe website-eigenaren de controle over hun informatie kunnen houden. Ook Twitter heeft de beperkingen deze week opgeheven.

Maar wat zich de afgelopen week afspeelde is het begin. De hoeveelheid data die AI-modellen nodig hebben, samen met de output van die AI’s veranderen het internet zoals we het kennen. Hoe precies weet niemand. Duidelijk is wel dat het Open Web van de afgelopen 30 jaar ongetwijfeld meer gesloten zal worden. Goede informatie zit achter een login of zelfs achter een betaalmuur. Als kwaliteitsfilter, scrapingfilter en om winstgevend te blijven. To be continued.

📰 In het kort snelle kennis, meer tijd voor actie

📰 Het aantal bezoeken aan ChatGPT loopt voor het eerst sinds de lancering afgelopen december terug. In dit artikel een analyse een iets diepere analyse van dit fenomeen.

📰 Volgens dit artikel is prompt injection is naast een aanvalsvector op AI ook een methode om AI onder controle te houden.

📰 OpenAI gaat 20% van z’n rekenkracht inzetten voor AI-alignment, de controle van AI om te voorkomen dat het niet meer doet wat wij willen.

📰 AI gaat het lerarenvak flink beïnvloeden of zelfs onnodig maken, stelt de vooraanstaande AI-wetenschapper Stuart Russell.

📰 De Amerikaanse landmacht gaat LLM’s inzetten voor basale militaire werkzaamheden.

📰 Hoe een groep miljardairs een anti-AI-beweging aanstuurt.

📺️ The Guardian heeft een leuk overzicht met de beste films over AI.

💡 Je kunt ChatGPT ook gebruiken voor (semi-)wetenschappelijk onderzoek.

💡 Chain-of-thought is een goede wijze om te prompten als je een LLM inzet voor het doen van berekeningen of het toepassen van logica.

💡 Lessen in succes volgens Sam Altman, de CEO van Open AI.

💡 Tips hoe om te gaan met AI-angst: AI-nxiety.

🖼️ AI-afbeelding van de week

De ontwikkeling van Midjourney in 1 jaar: de output van de prompt 'Street style photo of a woman shot on Kodak'.

Bedankt voor het lezen. Feedback op de nieuwe opzet en de nieuwsbrief in het algemeen is erg welkom. Je kunt me bereiken via de bekende wegen. Tot volgende week!