Blog Guido van Nispen: Wat leert GPT-NL de Nederlandse nieuwsvoorziening?

De discussie over soevereine AI in Nederland kent een opvallende paradox. Sinds de plotselinge beperking van de toegang tot enkele Amerikaanse AI-modellen klinkt de roep om Europese en Nederlandse alternatieven luider dan ooit. Tegelijkertijd verschuift de aandacht al snel naar de vraag of een model als GPT-NL technisch kan concurreren met de grote Amerikaanse spelers. Dat is een begrijpelijke discussie, maar mogelijk niet de meest interessante.

In twee recente artikelen op de Kluwer Copyright Blog onderzoekt Paul Keller een fundamentelere vraag. Niet of GPT-NL snel genoeg of slim genoeg is, maar of de gekozen uitgangspunten tegelijkertijd kunnen leiden tot een concurrerend AI-model én een duurzaam verdienmodel voor de makers van de informatie waarop dat model is gebouwd. Die twee ambities worden vaak als vanzelfsprekend met elkaar verbonden. Keller vraagt zich af of dat verband in de praktijk wel bestaat.

GPT-NL koos vanaf het begin voor een principiële benadering. Alleen data waarvoor expliciete toestemming is verkregen of die publiek beschikbaar is onder een open licentie wordt gebruikt voor training. Daarmee wil het project laten zien dat technologische innovatie en respect voor auteursrechten hand in hand kunnen gaan. Vanuit maatschappelijk perspectief is dat een sympathieke gedachte. De vraag is echter welke prijs daarvoor wordt betaald.

Keller wijst op benchmarkresultaten waaruit blijkt dat GPT-NL achterblijft bij modellen die eveneens binnen de Europese wet opereren, maar gebruikmaken van de ruimte die de Europese tekst- en dataminingregels bieden. Die modellen respecteren auteursrechten eveneens, maar werken volgens een opt-out-benadering in plaats van een systeem waarin vooraf voor vrijwel iedere bron toestemming moet worden verkregen. Het verschil lijkt daarmee niet zozeer te liggen tussen wel of geen respect voor auteursrechten, maar tussen twee verschillende interpretaties daarvan.

Daarmee ontstaat een ongemakkelijke spanning. Een model dat zichzelf vrijwillig een aanzienlijk kleiner kennisdomein oplegt, loopt het risico minder competitief te worden. Dat hoeft niet uitsluitend door de gekozen databronnen te komen; AI-modellen verschillen op veel meer punten. Keller is zorgvuldig genoeg om geen causaal verband te claimen. Toch is de richting van de vergelijking moeilijk te negeren. Het roept de vraag op of Europa zichzelf op achterstand zet door de regels strenger uit te leggen dan de wet zelf verlangt.

Het tweede artikel gaat nog een stap verder. Stel dat een model door deze keuze commercieel minder succesvol wordt. Komen de uitgevers, journalisten en andere makers die hun content beschikbaar hebben gesteld dan uiteindelijk wel beter uit? Ook daar plaatst Keller vraagtekens bij. Wanneer de vergoeding afhankelijk is van de commerciële prestaties van één model, kan een principiële constructie uiteindelijk verrassend weinig opleveren voor degenen die juist beschermd zouden moeten worden.

Zijn alternatief is een bredere vergoedingsstructuur waarbij de economische waarde die AI-systemen genereren over het gehele informatie-ecosysteem wordt verdeeld. Daar kan men het mee eens of oneens zijn. Interessanter is misschien dat hij de discussie verplaatst van toegang tot data naar de verdeling van waarde. Dat is een wezenlijk ander vertrekpunt.

Juist daar raakt deze discussie aan een bredere ontwikkeling die ook buiten de wereld van taalmodellen zichtbaar wordt. In de journalistiek wordt vaak gesproken over de productie van betrouwbare informatie. Dat blijft vanzelfsprekend essentieel. Maar in een wereld waarin AI steeds vaker de toegangspoort vormt tot kennis, verschuift een deel van de waarde naar een ander niveau. Niet alleen de productie van informatie telt, maar ook de manier waarop informatie wordt gevonden, gewogen, gecombineerd, samengevat en uiteindelijk gepresenteerd aan gebruikers.

Dat is geen technische verschuiving maar een structurele. De economische waarde van journalistiek ontstaat steeds minder uitsluitend op het moment van publicatie en steeds meer op het moment waarop informatie onderdeel wordt van een intelligent ecosysteem waarin AI-systemen verbanden leggen tussen duizenden bronnen.

Misschien is dat wel de belangrijkste les die uit de discussie rond GPT-NL naar voren komt. De vraag of Nederland/Europa een eigen taalmodel kan bouwen is relevant, maar waarschijnlijk niet doorslaggevend. Uiteindelijk zal het succes van Nederlandse AI minder afhangen van de vraag wie het model bezit dan van de vraag of Nederland erin slaagt een informatie-ecosysteem te ontwikkelen waarin kwaliteit, innovatie en economische duurzaamheid elkaar niet uitsluiten, maar juist versterken. Dat zal voor de media een belangrijke lakmoesproef worden, waarbij de eerste resultaten niet hoopgevend blijken te zijn.