Wikipedia vierde afgelopen 15 januari haar twintigste verjaardag. Een prachtig jubileum en een goed moment om stil te staan bij het minder bekende, maar wellicht op dit moment nog relevantere zusje: Wikidata. We gingen met digitale-dingen-maker Hay Kranen in gesprek over wat Wikidata nou is en hoe het een belangrijke publieke tegenhanger is van de commerciële big tech datacollecties.
Allereerst, wat is Wikidata?
In een notendop is het, net zoals Wikipedia, een verzameling van kennis over alles. Maar waar bij Wikipedia de vorm van die kennis bestaat uit tekstuele artikelen (in meer dan 250 talen) met afbeeldingen, is de vorm van Wikidata die van een database. Meer dan 90 miljoen items, met ieder hun eigen Q-nummer, bevatten gestructureerde data over de wereld om ons heen. Alle Nederlandse straten en Rijksmonumenten hebben al een item, bijvoorbeeld het Museumplein in Amsterdam en molen De Ster in Geesteren. Een half miljoen schilderijen en de belangrijkste biografische details van negen miljoen min of meer bekende mensen zijn eveneens beschikbaar.
Wat heb je aan al die data?
Deze andere vorm van ‘kennis vastleggen’ zorgt ervoor dat de kennis die we nu nog in de traditionele tekstuele vorm via Wikipedia verkrijgen ook ontsloten kan worden op andere manieren. Waar ‘normale’ teksten, zoals in een artikelvorm, te complex zijn voor computers om iets van te creëren, is kennis in de vorm van feitelijke ‘spreadsheetdata’ veel bruikbaarder. Denk bijvoorbeeld aan virtual assistants, zoals Alexa van Amazon en Siri van Apple, die je vragen kunnen stellen in normale spreektaal. Hoe hoog is de Domtoren? Hoeveel vrouwelijke burgemeesters zijn er in Nederland? In welke musea kan ik schilderijen zien van Piet Mondriaan? Voor dat soort systemen en vragen is de data van Wikidata perfect om te gebruiken.
Het nut van Wikipedia is voor mij duidelijk. Ik wil ergens iets over weten, dus zoek ik het daar op. Wat kan de ‘gewone’ mens, zoals ik, met de meer feitelijke data van Wikidata?
Jij als persoon kan daar eigenlijk niet zo heel veel mee. Het gaat bij Wikidata voornamelijk om de stappen ná het opzoeken van data, namelijk het gebruik van die data voor applicaties. Bijvoorbeeld virtual assistants en kennissystemen als Google’s knowledge graph: het infoboxje dat rechts in Google verschijnt met wat basisgegevens als je iets opzoekt. Dat wordt gemaakt door middel van dit soort data. Het is eigenlijk het smeermiddel van de informatiemaatschappij. Het is dus superrelevant, maar als persoon heb je er niet zoveel aan. Het is een achter-de-schermen-ding.
Kunnen we hiermee grote techbedrijven met hun verzamelde data dan op de één of andere manier buiten spel zetten?
Nou, het is belangrijk om te beseffen dat Wikidata en Wikipedia onder de Wikimedia-vlag vallen en dat Wikipedia bij de grootste websites van het internet hoort. Als je kijkt naar die top is Wikipedia een van de weinige websites die níét als doel heeft om geld te verdienen met verzamelde data. Daarom is het belangrijk dat een project als Wikidata onder de aandacht blijft en dat er iets blijft bestaan als een publiek domein op het internet waarvan het doel niet is om geld te verdienen, maar om openbare kennis en informatie te verbeteren.
Het buitenspel zetten van techbedrijven wordt wel lastig, want dan moeten ze opboksen tegen de miljarden dollars van deze grote techbedrijven. Dat zullen ze niet winnen. Het is daarentegen wel weer waardevol dat heel veel mensen gebruikmaken van de diensten van Wikimedia. Daarnaast vind ik het belangrijk dat dit onderwerp uit de academische wereld gehaald wordt en Wikidata een concreet en praktisch alternatief biedt.
Wat doe jij met Wikidata?
Ik voeg vooral heel veel dingen toe als hobby. Ik zit in een internationaal netwerk van mensen dat zich bezighoudt met het ontsluiten van data op platforms als Wikidata over cultureel erfgoed, de zogenaamde GLAM’s (galeries, bibliotheken, archieven en musea). Binnen dat netwerk heb je weer mensen die zich vooral in Nederland daarmee bezighouden. Met die mensen werk ik samen om bijvoorbeeld alle schilderijen in Nederland een item te geven in Wikidata. Inmiddels zitten we al op een half miljoen. Momenteel ben ik bezig met het aanmaken van Wikidata-items voor alle kerken in Nederland.
Waar haal je die informatie dan weer vandaan?
Meestal halen we de informatie bij andere plekken vandaan. In dit geval komt de data van kerken bijvoorbeeld voor het grootste deel van de website Reliwiki, een soort Wikipedia maar dan specifiek voor kerken. Ik heb die data daarvan omgezet naar een formaat dat bruikbaar is voor Wikidata. Soms bestaan de kerken dan al, omdat alle rijksmonumenten inmiddels een item hebben, maar vaak kan ik wel extra informatie toevoegen, zoals de architect.
Hoe weet je of alle kerken erop staan?
Bij het maken van items komen nog wel eens moeilijkheden kijken. Je kunt in principe alles op Wikidata zetten, maar niet alles is even geschikt. Breed gedefinieerde concepten zijn moeilijk om te zetten op Wikidata. Denk bijvoorbeeld aan het concept ‘filosofie’. Het is heel moeilijk om daar feiten over te geven, omdat het erg diffuus is wat het precies inhoudt. Mensen en gebouwen zijn veel makkelijker in feiten te definiëren, bijvoorbeeld informatie als een geboortedatum, aantal kinderen, lengte en woonplaats. Maar ook bij kerken kom ik moeilijkheden tegen. Stel, een kerk is ooit gebouwd, werd in de oorlog gebombardeerd, kreeg vervolgens een toren erbij en werd daarna verbouwd tot appartementencomplex. Wat is het dan voor gebouw? Het is lastig om dat in één item te vatten.
Wat is er nog meer mogelijk met de data in Wikidata, nu of in de toekomst?
Ten eerste kun je de data op Wikidata hergebruiken, denk bijvoorbeeld aan een kaartje met alle kerken in Nederland. Ten tweede kan het datamodel van Wikidata worden hergebruikt door andere partijen. Instellingen kunnen de software van Wikidata, Wikibase, gebruiken om hun eigen data in te ontsluiten. Dat gebeurt nu al, bijvoorbeeld bij het Botanisch Museum in Berlijn en kunstinstituut Rhizome in New York. Rhizome is gericht op internetkunst en wilde dit vastleggen in de vorm van data waarbij ruimte was voor flexibiliteit bij het omschrijven van een kunstobject. De opbouw van Wikidata bleek daar perfect voor.
Uiteraard kan de data van Wikidata ook worden gebruikt op Wikipedia. Als je in Wikidata een bepaald gelinkt item hebt waarvan je één gegeven aanpast, kan dit in één keer geïntegreerd worden in alle Wikipedia-pagina’s hierover. Als iemand overleden is hoef je de overlijdensdatum dus niet op iedere Wikipediapagina met die naam aan te passen.
Ten slotte, waarom ben je zo enthousiast over Wikidata?
Ik ben al 15 jaar Wikipediaan, maar inmiddels is op Wikipedia al heel veel geschreven. Wikidata is nog vrij leeg, en veel dingen die niet op Wikipedia passen, kunnen hier wel terecht. Ik heb bijvoorbeeld afgelopen zomer alle afleveringen van het tv-programma Zomergasten in Wikidata gezet. Die ga je niet stuk voor stuk in geschreven vorm in Wikipedia zetten, want dat zou ontzettend veel tijd kosten en is misschien niet zo relevant voor een encyclopedie.
Daarnaast kan ik met de informatie in Wikidata makkelijk interessante metingen doen. Zo heb ik de meest gemiddelde zomergast door middel van de data in Wikidata weten te berekenen. Niet geheel verrassend was de uitkomst daarvan een witte 51-jarige man uit Amsterdam die schrijft of in de wetenschap zit.
Wil je weten hoe je kunstwerken toevoegt op Wikidata en Wikimedia Commons (de mediabank van de Wikimedia-projecten)? Hay doet het in dit filmpje voor:
Over Hay Kranen
Hay Kranen maakt digitale dingen in het grijze gebied tussen kunst, techniek, data en verhalen. Hij werkte bij de Volkskrant, de VPRO en als Wikipedian in Residence voor de Koninklijke Bibliotheek en het Nationaal Archief. Verder is hij hoofdredacteur van De Circulaire, een tweewekelijkse nieuwsbrief met de beste linkjes van het internet en drie met zorg uitgekozen kattengifjes.