GPT-NL bouwt een Nederlands taalmodel binnen de kaders van de wet: hoe ziet dit eruit?

Een nieuw Nederlands taalmodel is in aantocht, maar hoe maak je nou een goed en ethisch verantwoord model? We gingen in gesprek met Data Morgana gast Saskia Lensink van GPT-NL over het netjes verzamelen van de juiste data, het voorkomen van bias en het bouwen van een Nederlandse AI taalmodel binnen de kaders van de wet.

De Data Morgana aflevering met Saskia Lensink gemist?

Kijk ‘m terug op PeerTube

Dag Saskia, jij bent product owner bij GPT-NL. We kennen natuurlijk allemaal de Amerikaanse ChatGPT van OpenAI. Waarom wilden jullie een Nederlandse versie maken?

ChatGPT is nog niet zo heel goed in het Nederlands en daar maakten we ons zorgen over toen we twee jaar geleden het projectvoorstel indienden bij de overheid. Tegelijkertijd vonden we het heel zorgelijk dat die taalmodellen op hele grote hoeveelheden data waren getraind waarvan niet duidelijk was, en nog steeds is, waar ze vandaan komen en of ze überhaupt wel gebruikt mogen worden. Er wordt door ChatGPT ook geen rekening gehouden met privacy en ook copyright is op dit moment een probleem waar al heel veel rechtszaken rondom gaande zijn. Ten slotte vroegen we ons af of het wenselijk is om straks allemaal afhankelijk te zijn van Amerikaanse spullen — we hebben voor de rest geen enkel alternatief in de koelkast staan. Dat is vragen om problemen.

Hoe kregen jullie dit financieel van de grond?

Om dit van de grond te krijgen heb je óf investeringen uit het bedrijfsleven nodig óf steun vanuit de overheid. In dit geval vind ik het wel een taak van de overheid om daar ook flink op in te zetten. Men vindt het maken van alternatieven heel belangrijk, maar dan moet je ook mee-investeren. Uiteindelijk zal ook het bedrijfsleven dat moeten doen, dat zou heel mooi zijn.

Merkten jullie dat er ook vraag naar een dergelijk model was vanuit het bedrijfsleven of bepaalde beroepsgroepen?

We merkten het met name bij onderzoekers. Zij hebben er last van dat ze moeilijk onder de motorkap kunnen kijken van de modellen van Big Tech. Maar we merkten ook breder bij de gehele publieke sector de behoefte aan een ethisch gebouwd alternatief, evenals in de zorg, in de financiële sector en telecom. Ook daar hoor je veel zorgen over Amerikaanse spullen die toch niet helemaal in lijn liggen met onze eigen waarden en normen.

Waarvoor zouden dit soort organisaties jullie taalmodel in hun bedrijfsvoering gebruiken?

Omdat het een eerste versie is die we bouwen, zal het voor veel organisaties echt nog gericht zijn op een aantal wat simpelere taken. Denk aan het samenvatten van teksten of het versimpelen van teksten als je bijvoorbeeld communicatie naar burgers of naar patiënten toe makkelijker wilt maken. Ook gebruiken we het in een vraag-antwoord systeem. Voor heel veel organisaties zal het relevant worden om door hun eigen papierwinkel en documenten te zoeken naar relevante informatie. Een model als GPT-NL zou daarbij kunnen helpen.

Zullen organisaties moeten betalen voor dit model? Bijvoorbeeld in de vorm van een abonnement dat je afneemt?

Ja, het wordt een betaald model met twee licenties. De eerste licentie is voor academici en gericht op onderzoek. Dat zal beschikbaar zijn tegen een symbolisch bedrag om het zo toegankelijk mogelijk te maken voor onderzoekers en ook voor toezichthouders. Op die manier hoeft de AP straks niet 5 ton te gaan betalen om toezicht te kunnen houden. Daarnaast zal er voor het professionele gebruik een fee zijn, gebaseerd op hoe vaak je het model gebruikt. De hoeveelheid woorden die je er doorheen gooit, bepalen hoeveel je moet betalen. Zo hoeven we uiteindelijk, over een aantal jaar, niet meer afhankelijk te zijn van overheidsfinanciering.

Een deel van die opbrengsten kunnen we weer stoppen in de doorontwikkeling van het model. Een ander deel laten we terugvloeien naar alle mensen die hebben bijgedragen in de vorm van data sets.

Hoe werkt deze verzameling van data eigenlijk? Hoe komen jullie aan alle data?

Dat vragen we allemaal netjes op. Er zijn eigenlijk vier datastromen. De eerste stroom is programmeercode: hier is veel van vrijelijk beschikbaar op het internet met licenties die het ook toestaan om die teksten en die code te hergebruiken. Daarnaast synthetiseren we data. Dat betekent eigenlijk gewoon dat we data uit andere talen vertalen naar het Nederlands om onze Nederlandse database wat groter te maken. Vervolgens hebben we veel internetdata. Als je zomaar het internet leeg trekt, dan loop je een heel groot risico. Wij hebben gekeken naar publieke ruimte data. Dat zijn datasets waarvan te verifiëren is dat ze de juiste licentievormen heeft. Daar is heel veel extra informatie, metadata, aan toegevoegd. En dat heeft ons in staat gesteld om van die publieke ruimte data een eigen subset te maken; data waarvan we vrij zeker zijn dat je het inderdaad mag gebruiken voor modelontwikkeling, waarbij geen opt-out is geweest, en ook geen toxische content in voorkomt. Dan hebben we de vierde categorie en dat is de categorie die ons het meeste tijd kost: data die we krijgen van organisaties en grote sectoren die we waardevol vinden om een goed Nederlandstalig model te bouwen. Dat is eigendomsdata. Bij dit soort partijen kloppen we aan en gaan we de onderhandeling in om hun data te verkrijgen of om toestemming te krijgen om hun website te scrapen.

Dat klinkt als heel intensief werk.

Klopt, we hebben met meer dan 70 verschillende partijen gesproken. Dus dat is een pittig proces. En ook bij lang niet alle partijen lukt het. Dat heeft er ook mee te maken dat voor veel organisaties de data te gevoelig is om te delen. Of de data is er wel, alleen is het heel moeilijk om die data te ontsluiten. Het kost heel veel werkuren om die data kant en klaar uiteindelijk richting TNO of SURF te sturen. Dus ook daar is het lang niet overal mogelijk om alle data zomaar over te hevelen naar GPT-NL.

Aan wat voor aanbieders van data moet ik dan aan denken? Zijn dat publieke organisaties?

Ja, sowieso heel veel publieke sectorpartijen. Alles wat onder de ‘Wet openbaarheid van bestuur’ valt, mogen we gebruiken in het model. We hebben ook een paar leuke voorbeelden van bijvoorbeeld het Utrechtse Archief waar we veel data van hebben gekregen en met wie we ook een samenwerking hebben lopen. Er is namelijk heel veel data in archieven dat nog helemaal niet gedigitaliseerd is. Dat kost heel veel rekenkracht die wij toevallig bij SURF hadden staan. We hebben hier daarom de krachten gebundeld en een stukje van hun archief kunnen digitaliseren, om dat stukje vervolgens ook weer in GPT-NL te stoppen.

Als we dat als voorbeeld nemen, waarom is dan het Utrechts Archief interessant voor jullie model?

Ten eerste is het gewoon goed om je model heel veel verschillende soorten Nederlandse taaldata te laten zien, om te leren dat het ‘de tafel’ is en niet ‘het tafel’, zodat het ook iets meer context gaat snappen. Tegelijkertijd komen daar ook wel weer interessante discussies naar boven, want als je alleen maar op historische data gaat trainen, dan kun je je afvragen of je taalmodel nog wel relevant is en een beetje snapt hoe de moderne wereld in elkaar steekt. Misschien gaat hij heel ouderwets praten en komen er allemaal vooroordelen uit waar we nu inmiddels heel anders over denken. Dus dat is best wel een balans: je wil ook niet teveel archiefdata erin hebben. Daar moet je met zorg mee omgaan.

We hebben ook al auteurs gehad, waaronder Aaron Mirck. Hij was een van de allereerste die ons feliciteerde en ons zijn boek gaf om te gebruiken voor het trainen. Dat was geweldig. Daarna kwamen meer schrijvers naar ons toe om hun werk ter beschikking te stellen.

Naturalis is ook een partij die meedoet. Er zijn eigenlijk heel veel organisaties ontzettend enthousiast die ook willen meedenken, zo ook de Koninklijke Bibliotheek. Hier lopen we tegen het probleem aan dat de meeste data die de KB heeft onderdeel van een collectie is die ze moeten beheren en waarover ze geen eigendomsrechten hebben. Zij zijn heel erg bereid om met ons mee te denken hierover.

Hoe zorg je voor een een diverse input aan data zodat je bijvoorbeeld niet alleen historische teksten krijgt?

We proberen dit echt goed te doen, maar op dit moment is het zo lastig om veel data te krijgen dat we heel blij zijn met alles wat we binnenkrijgen. We houden bij wat voor type data dit is en kijken bijvoorbeeld naar het thema en de soort auteurs en hun achtergronden, zodat we een goede afspiegeling van de Nederlandse samenleving maken. Zo houden we dus goed bij vanuit welke groepen en hoeken de data vandaan komt, zodat we over- en onderrepresentaties kunnen vaststellen en in de toekomst kunnen bijsturen. We zijn ook met universiteiten in gesprek om te kijken hoe we dit beter kunnen doen.

Hoe beoordelen jullie de data die jullie binnenkrijgen zodat dit bijvoorbeeld geen haatdragende content bevat of vooroordelen?

We hebben een protocol hiervoor. Eerst gaan we met mogelijke data providers in gesprek over de soort data. Ze zullen ook een soort survey invullen zodat we al een beetje een eerste idee krijgen. Vervolgens doen we wat testjes en stellen we kritische vragen. Zit er bijvoorbeeld persoonlijke informatie in de data? Hieruit maken we een soort risico-inschatting. Data uit een elektronisch patiëntendossier komt bijvoorbeeld deze checks niet door, want daar zit veel te veel gevoelige medische informatie in. Het medisch handboek daarentegen kun je wel gebruiken; dat is algemene medische informatie waar geen persoonsgegevens in staan. Vervolgens filteren we nieuwe data nog een keer met allerlei semi-automatische tools die filteren op bijvoorbeeld privacygevoelige informatie, scheldwoorden, toxisch taalgebruik, bias. Het is heel ingewikkeld om dit goed te doen, dus we proberen daar wel wat eerste stappen in te zetten.

Geven jullie iets terug aan mensen die data aanleveren of beschikbaar stellen?

We hebben met een aantal data contributors afspraken gemaakt. Als je meedoet en je wilt je data ter beschikking stellen, dan willen we dat niet zomaar gratis van je afnemen. Die data is namelijk veel waard. We laten deze partijen daarom meedelen in de inkomsten van de professionele licentie.

Kunnen mensen dan ook zien wat de bronnen zijn van het taalmodel?

Ja, dat kan. Sommige datasets zijn gewoon publiek beschikbaar waar we je met een linkje naartoe verwijzen. Sommige datasets zijn privédata of is data van data-eigenaren, waarvan we de metadata opschrijven. We houden in datasheets bij op welke informatiebronnen het model gebouwd is, zoals de eigenaar van de data of waar de collectie te vinden is.

En is het taalmodel zelf ook open source?

Het model zelf is niet open source, maar wel de code waarop we het hebben gebouwd. We hebben heel veel software moeten ontwikkelen om het model te bouwen, zoals de filter software en train software. Die software komt open source beschikbaar. Een deel van de data is dus ook publiekelijk beschikbaar, maar het model zelf, omdat het een betaalde licentie heeft, niet.

Jullie willen een model maken binnen de kaders van de wet. Aan wat voor regelgeving moet ik dan denken?

Dat zijn de AVG, de Europese AI Act en alle copyrightwetten. Ook zijn we gebonden aan subsidie-afspraken. We hebben gelukkig goede adviseurs en juristen die ons helpen om in die kluwen een beetje wegwijs te worden.

Uiteindelijk is het bedoeld voor bedrijven en organisaties om hun processen te vergemakkelijken intern. Leren jullie hen dan ook hoe je het model moet gebruiken of kunt gebruiken?

TNO heeft dergelijke diensten wel, maar in principe is dat niet een dienst die bij GPT-NL zelf hoort. We maken een model, de motor, maar niet de auto of de route. Tegelijkertijd vinden we wel dat er een stukje verantwoordelijkheid ligt bij ons als ontwikkelaars. Tijdens het testen komende tijd gaan we daarom ook met mogelijke eindgebruikers aan tafel om hun te vragen hoe zij het model zouden gebruiken en waar ze tegenaan lopen tijdens het testen. Zo zorgen we dat het uiteindelijk voor mensen makkelijk wordt om te gebruiken.

Komende maanden zullen jullie het model gaan trainen. Hoe gaat dit in z’n werk?

Het model zal grote hoeveelheden tekst krijgen waarop willekeurige stukjes zwarte stickers geplaatst zijn. Vervolgens gaat het model woorden voorspellen voor die lege plekken. Dan staat er bijvoorbeeld ‘ik zet de vaas met bloemen op…’, waarna het model gaat raden wat het missende woord zal zijn. Als hij ‘straat’ gokt, dan zegt het model ‘nee dat klopt niet’. Bij ‘tafel’ zal hij horen dat het wel klopt.

Door heel veel teksten door te nemen en dit soort voorspellingen te maken, gaat hij leren wat het meest waarschijnlijke volgende woordje is. Vervolgens gaat hij ook leren om instructies op te volgen en om goede antwoorden te geven.

Waar staat jullie model opgeslagen?

Het model staat op SURF’s infrastructuur voor het trainen, maar daarna moet het ergens gehost worden. En dat is een uitdaging. We hebben niet automatisch een hostingpartij, dus dat laten we heel erg afhangen van de eindgebruiker. Als een eindgebruiker het op hun eigen infrastructuur gaat draaien, graag. Het kan ook zijn dat mensen gebruikmaken van een van de Big Tech platforms. We zijn daarom ook aan het kijken hoe het mogelijk is via die platforms gebruik te maken van GPT-NL. Maar het liefst zouden we natuurlijk willen dat het een verantwoorde hostingpartij is uit Europa of Nederland. Maar het is ook een beetje aan de eindgebruiker om te kiezen voor welke hosting oplossing zij willen kiezen. En als TNO mogen wij geen voorrang geven aan bepaalde partijen en dus ook niet Big Tech afraden.

Ten slotte zijn we natuurlijk benieuwd: wanneer kunnen mensen het gaan gebruiken?

We zijn deze maand begonnen met trainen. Dan gaat hij de hele zomer lang rommelen. Vanaf september gaan we het model uitgebreid testen met de initiatief-nemende partijen TNO, SURF en NFI. We gaan het ook testen met een aantal externe partijen, met name publieke sectorpartijen. We doen dan stresstesten, maar met name testen we op bias of toxische content. We denken dat het model dan uiteindelijk wat breder beschikbaar zal komen begin 2026, maar hopelijk al eerder!