Verantwoorde inzet van AI is meer dan regelgeving

Five Data Privacy Principles from Mozilla (Put on a museum wall) 2014" by vintagedept is licensed under CC BY 2.0

Coalitiepartners Beeld en Geluid en de KB zijn samen met de auteurs van dit stuk de initiatiefnemers van het Cultural AI Onderzoekslab.

De Europese richtlijn voor verantwoord gebruik van Kunstmatige Intelligentie is een belangrijke eerste stap. Maar vergeet niet culturele waarden en diversiteit van het begin af aan mee te nemen in het ontwerpen en bouwen van AI systemen.

Vorige week presenteerde de Europese Commissie de langverwachte richtlijn voor de inzet van Kunstmatige Intelligentie (AI). Waar de Verenigde Staten zich kenmerkt door de inzet van AI door de Big Tech bedrijven en in Azië de overheid het monopolie op AI lijkt te hebben, wil Europa zich profileren als de verantwoorde gebruiker en ontwikkelaar van Kunstmatige Intelligentie. En dat is goed. Alleen legt de commissie wel erg de nadruk op controlemechanismen en AI systemen die vrij zijn van vooroordelen, ook wel ‘bias’. En dat is makkelijker gezegd dan gedaan. Voor AI die daadwerkelijk rekening houdt met menselijke waarden is het van belang dat AI-wetenschappers ook samenwerken met experts op het gebied van geschiedenis, taal en cultuur.

Algoritmes

AI onderzoekers proberen sinds de jaren vijftig complexe taken die voorheen menselijke intelligentie vereisten aan te pakken door middel van algoritmes. Recent zijn op het gebied van bijvoorbeeld gezichtsherkenning, automatische spraakherkenning en zelfrijdende auto’s grote sprongen gemaakt. Waar AI lang een obscuur onderzoeksveld was, komt het nu onze huiskamers binnen. Veel moderne AI-systemen leren zelfstandig complexe problemen op te lossen op basis van grote hoeveelheden voorbeelden. In die data ontdekt de AI patronen die een probleem koppelen aan een oplossing, zoals spraak naar tekst in automatische spraakherkenning zoals we dat kennen in Siri of Google Home. Maar dit is niet zonder risico. Er zijn drie plekken waar het mis kan gaan: 1) bias in de data die je gebruikt om een systeem te trainen, 2) onbewuste vooroordelen van de makers van de systemen, en 3) technologische bias: veel algoritmes baseren hun beslissingen op hoe vaak iets voorkomt met als gevolg dat de meest voorkomende waarden boven komen drijven. Je moet dus goed nadenken over welk trainingsmateriaal je gebruikt. Als Siri of Google Home wordt getraind op sprekers van een taalvariant, dan worden sprekers van andere varianten (dialecten bijvoorbeeld) minder goed of niet herkend.

Cultureel bewuste AI

De Commissie stelt nu richtlijnen op waaraan trainingsdata voor AI moet voldoen. Die data moet ‘relevant, representatief, foutloos en specifiek gemaakt zijn voor het doel van het systeem’, waarbij ‘mogelijke vooroordelen’ in ogenschouw moeten worden genomen. Dat is makkelijker gezegd dan gedaan. Hoe komen overheden en grote en kleine technologiebedrijven aan echt onbevooroordeelde trainingsdata, die vaak heel groot moeten zijn om goed te kunnen werken? En hoe kunnen we bestaande bias in trainingsdata beschrijven en blootleggen? Om deze vragen goed te kunnen beantwoorden is een samenwerking nodig tussen geestes- en computerwetenschappers om nieuwe AI-technologie te trainen op data die representatief is voor de cultuur waarin zij wordt toegepast.

In Nederland zijn we daartoe in een gelukkige positie. De afgelopen twintig jaar hebben we onwaarschijnlijk veel erfgoedcollecties gedigitaliseerd. Denk aan historische kranten, eeuwenoude boeken, biografische gegevens en kunstobjecten, maar ook radio- en tv programma’s. Ze bevatten petabytes aan informatie over historische gebeurtenissen en veranderingen, maar ook verschillende perspectieven op die ontwikkelingen. Op Delpher.nl kun je bijvoorbeeld nalezen hoe nieuws gebracht werd in de Volkskrant maar ook hoe diezelfde gebeurtenis gerapporteerd werd in De Surinamer. Op data.rijksmuseum.nl kan je vrij de data ophalen van de circa 8.000 werken die momenteel in het museum staan te wachten op fysieke bezoekers. Maar je kan er ook de data als trainingsset opvragen van de overige 99,2% werken in depot die mogelijk heel andere verhalen kunnen vertellen over de Nederlandse kunst en geschiedenis. En op openbeelden.nl zijn honderden historische audiovisuele objecten uit de collectie van het Nederlands Instituut voor Beeld en Geluid te downloaden en hergebruiken onder een open licentie. Het Netwerk Digitaal Erfgoed brengt deze en tientallen andere collecties met elkaar in verbinding. Zo ontstaat een trainingsset die divers en meerstemmig is. We kunnen die gebruiken om te onderzoeken hoe AI ontwikkeld kan worden waarbij niet alleen de meest voorkomende waarden boven komen drijven.

Maar ook dan moeten we nog steeds in ogenschouw nemen dat er keuzes zijn gemaakt bij het beschikbaar maken van deze digitale collecties. Wie heeft bepaald dat deze collectie gedigitaliseerd wordt en waarom? Maar ook: wat ontbreekt er en hoe kunnen we dat oplossen? Daarnaast zullen we onze collecties extra moeten beschrijven om AI iets te leren van de culturele waarden in de collecties. En we zullen nieuwe meetinstrumenten moeten ontwikkelen om vast te stellen of culturele waarden zoals diversiteit en meerstemmigheid inderdaad in onze getrainde AI-modellen zijn aan te treffen. Deze vragen kunnen nadrukkelijk niet uitsluitend behandeld worden door AI experts, maar moeten in dialoog met culturele experts worden aangepakt. Hiermee ontstaat AI die verbonden is met échte menselijke waarden.

De auteurs zijn initiatiefnemers van het Cultural AI Onderzoekslab. Beeld en Geluid en de KB zijn coalitiepartners van PublicSpaces.

Martijn Kleppe, Hoofd Onderzoek KB, Nationale Bibliotheek
Victor de Boer, User Centric Data Science, Vrije Universiteit Amsterdam
Antal van den Bosch, Directeur KNAW Meertens Instituut
Marieke van Erp, Onderzoeksgroepleider DHLab KNAW Humanities Cluster
Laura Hollink, Human Centered Data Analytics, Centrum Wiskunde & Informatica.
Johan Oomen, Hoofd Onderzoek, Nederlands Instituut voor Beeld en Geluid
Jacco van Ossenbruggen, User Centric Data Science, Vrije Universiteit Amsterdam
Stephan Raaijmakers, TNO & LUCL, Universiteit Leiden
Saskia Scheltjens, Hoofd Research Services, Rijksmuseum

Het onderwerp van discriminatie in datavoorkeuren in AI kwam ook aan bod tijdens de PublicSpaces conferentie in de talkshow met o.a. Sennay Ghebreab – kijk dat fragment hier.

Lees ook het artikel van Waag over ‘AI in Culture & Society’ – ‘Cultuur is (versimpeld) een bepaald patroon van bias(sen). Een AI model een stukje gestolde cultuur.’https://waag.org/en/article/ai-culture-society

Gerelateerd