Digital Independence Day: Aan de slag met taalmodellen

Je kan tegenwoordig geen krant of nieuwsbrief meer lezen zonder overspoeld te worden met artikelen over AI en hoe groots en belangrijk deze ontwikkelingen zijn. Grote investeringen, geopolitieke belangen, de impact op de leefwereld en op onze aardbol: Het lijkt soms wel alsof tegenwoordig alles alleen nog om AI draait. Daarom richten wij ons visier deze zondag – in het kader van de Digital Independence Day – op de wereld van AI en taalmodellen op de werkvloer.

Want ook in het dagelijks werk dringt AI zich steeds vaker aan ons op. Werkt jouw organisatie met Microsoft 365, dan kun je in bijna alle producten nu ook “lekker makkelijk” gebruikmaken van CoPilot – de AI assistent van Microsoft. En als je het zelf nog niet geprobeerd hebt dan zijn er vast collega’s die gretig gebruik maken van ChatGPT of Claude. Voor het maken van een samenvatting of vertaling bijvoorbeeld of misschien een opzetje voor een presentatie? En is die dure illustrator nog wel nodig als we ook een plaatje kunnen “genereren”? (noot van de redactie: voor deze serie worden de illustraties gemaakt door een écht mens!)

Er heerst momenteel een ware veldslag tussen de grote Amerikaanse technologiebedrijven zoals OpenAI, Anthropic, Microsoft, xAI en Meta. En ook in China wordt er groots geïnvesteerd door bedrijven als Alibaba en Baidu. Het zijn de bedrijven die vooraan lopen in de ontwikkeling van grote taalmodellen en beschikken over de enorme rekenkracht die nodig is om deze modellen te ontwikkelen en te exploiteren (de z.g.n. frontier labs). Maar het zijn ook deze bedrijven die ernaar zullen streven hun investeringen terug te verdienen. Door mensen en organisaties het idee te geven dat je niet zonder kunt, maken ze mensen afhankelijk van hun producten en diensten en zo probeert Big-tech zich in alle sectoren te nestelen en waarde te extraheren.

Een ware veldslag? Dat kan je wel letterlijk nemen ja! De modellen van de grote techbedrijven worden niet alleen gebruikt voor onschuldige doeleinden, maar letterlijk ingezet in de oorlogen die momenteel gevoerd worden.

Decorrespondent.nl

Tijd dus voor een verkenning van alternatieven: Hoe kun je AI gebruiken zónder big tech?

En ja, AI is een containerbegrip en eigenlijk valt daar heel veel onder. Van machine learning tot beeldherkenning en semantische zoekmachines tot beeldscheppers. Om die reden beperken we ons in het onderstaande overzicht op diensten die je voor de gemiddelde kantoortaak kunt gebruiken.

Vanish

De Nederlandse zoekpagina Startpage.com heeft, net als haar Amerikaanse conculega DuckDuckGo, een privacyvriendelijke AI tool beschikbaar gemaakt: Vanish.

https://vanish.startpage.com/nl

Met Vanish kan je anoniem gebruikmaken van een aantal AI modellen van de grote spelers. Chats worden niet opgeslagen op servers, maar blijven in de app bewaard. En als het goed is worden de gebruikersdata niet meegestuurd naar de achterliggende servers.

Dus ja, het is een Nederlands product en ja, het is beter voor je privacy, maar hiermee blijf je natuurlijk wel afhankelijk van het aanbod van de grote techbedrijven. En dat is nou net wat we niet willen natuurlijk …

Vibe

Wil je eens chatten met een AI die niet van Amerikaanse of Chinese komaf is, dan is de dienst Vibe (voorheen Le Chat) van het Franse bedrijf Mistral een serieus Europees alternatief.

https://chat.mistral.ai

Mistral heeft eigen taalmodellen ontwikkeld en ze richten zich met hun bedrijf voornamelijk op de zakelijke markt. Je kunt gratis instappen, maar als je er meer gebruik van wilt maken kan je ook een betaald abonnement nemen voor jezelf, je team of je afdeling.

Chatten met Vibe is relatief veilig. Mistral heeft een opt-in systeem waarbij je expliciet toestemming moet geven voor het gebruik van jouw chat-geschiedenis voor trainingsdoeleinden. Daarnaast slaan ze ook geen data op voor advertentiedoeleinden of dataverzameling door derden. Als echt Europees bedrijf voldoen ze aan de GDPR en kun je als gebruiker jouw data makkelijk laten verwijderen.

Vibe is zeer veelzijdig. Naast chatten kan je de dienst ook koppelen aan verschillende tools zoals je mail, chat of eigen databases en hebben ze ook een programmeerhulp waarmee je samen met de chatbot software kunt ontwikkelen.

Lumo

Het Zwitserse bedrijf Proton kennen we voornamelijk voor hun privacyvriendelijke e-mailservices en VPN-diensten. Maar sinds kort heeft Proton ook een eigen chatdienst: Lumo. Lumo profileert zich als een privacyvriendelijke AI-chatservice.

https://lumo.proton.me

Lumo is een betaalde dienst. Je kunt het wel gratis proberen, maar met beperkte mogelijkheden.

In tegenstelling tot Mistral heeft Proton geen eigen modellen ontwikkeld. De dienst Lumo maakt gebruik van z.g.n. open weights-modellen. Dat zijn modellen die door AI-research labs online ter beschikking worden gesteld en door gebruikers vaak nog een beetje bijgesteld kunnen worden. Zo maken ze gebruik van een open model van het hierboven genoemde Mistral, maar ook van het Qwen model dat ontwikkeld is door het Chinese Alibaba.

Doordat Proton deze modellen op eigen servers kan draaien kunnen ze garanderen dat de data van de mensen die het gebruiken niet naar externe partijen uitlekt. En chathistory wordt versleuteld opgeslagen bij Lumo zodat zelfs medewerkers van dat bedrijf geen inzicht kunnen krijgen in jouw gesprekken met de bot.

Lumo kan zelfstandig zoeken op het internet, een beetje programmeren (al is daar geen specifieke omgeving voor) maar is vooral goed in het verwerken van teksten. Zo kun je er gemakkelijk samenvattingen van lange teksten door laten maken, je eigen teksten herstructureren of corrigeren of je kunt ermee brainstormen. Lumo kun je gebruiken als uitgebreide schrijf- of zoekhulp.

Open, open en nog meer open

De eerste waarde uit het PublicSpaces manifest is: “Open” en misschien is het daarom goed om even stil te staan bij het begrip open in de context van taalmodellen en AI.

Bij taalmodellen zijn er eigenlijk drie verschillende soorten open: Open weigths, Open Source en Open kaart.

Allereerst zijn er z.g.n. open weights modellen. Dit zijn modellen die door AI-labs worden ontwikkeld en die vaak gratis gedownload kunnen worden op websites als huggingface.co. Deze modellen bevatten het eindresultaat van alle training die ze hebben doorlopen. Ontwikkelaars kunnen zo’n model vaak nog een beetje na-trainen om het beter te maken in een specifieke taak, maar de basis van het neurale netwerk is al gelegd.

Open weights modellen zijn weliswaar vaak gratis en zelf te hosten, je moet ze niet verwarren met open source modellen. Bij echte open-source modellen is niet alleen het resultaat van de training openbaar, maar is ook de manier waarop en de software waarmee de training heeft plaatsgevonden publiek beschikbaar. In Europa zijn er verschillende samenwerkingsprojecten die gebruikmaken van een open-source werkwijze. Bijvoorbeeld het consortium OpenEUROLLM en het Zwiserse APERTVS projecy. EuroLLM en MiniLingua zijn Europese taalmodellen die de taalbarrière in Europa willen verlagen.

Daarnaast speelt openheid ook een belangrijke rol bij de ontwikkeling van modellen als je kijkt naar waar de data vandaan komt waar de modellen mee getraind worden. Niet ieder AI-lab speelt daarover open kaart en is transparant over waar de gebruikte trainingsdata vandaan komt. Zo zeggen ze vaak dat hun trainingsdata afkomstig is van het “open web”, maar nemen ze geen verantwoordelijkheid over het feit dat er op het open web ook een heleboel illegale, schadelijke of auteursrechtelijk beschermde informatie te vinden is die klakkeloos in de modellen wordt opgenomen. Zo wordt Mistral (dat zich als redelijk open profilieert) ervan beschuldigd een grote collectie illegale ebooks te hebben gebruikt voor het trainen van hun open weights modellen.

De autonome opties

Wil je helemaal onafhankelijk blijven en niet het risico lopen dat een aanbieder van een taalmodel met je meeleest, de dienst op een gegeven moment opheft of de prijzen plotseling gaat verhogen, dan kan je open weights modellen ook zelf hosten.

Ollama

Heb je een sterke computer of een recente Apple laptop met een M-series processor, dan kan je gebruikmaken van OLLama om je daarbij te helpen. Ollama is een open source tool waarmee je vrij eenvoudig een groot aantal open weights modellen kunt downloaden en waarmee je met een eenvoudige chat-interface tegen deze modellen kunt praten.

https://ollama.com

Modellen komen in allemaal verschillende soorten en maten. Afhankelijk van hoe sterk je computer is en hoeveel geheugen de grafische kaart (GPU) kan benutten, kun je verschillende modellen proberen. Omdat de modellen vrij groot kunnen zijn en redelijk wat rekenkracht vereisen om bevraagd te kunnen worden moet je van Ollama op je desk- op laptop niet al te hoge verwachtingen hebben. Het draait dan wel lokaal en je bent helemaal onafhankelijk van de cloud, het is vaak lang wachten of de resultaten zijn matig.

Voor een eenvoudige samenvatting of classificatietaak is het misschien te gebruiken, maar gebruikt zo’n lokaal model zeker niet als vraagbaak. De lokale modellen kunnen via Ollama niet zomaar externe bronnen raadplegen en daardoor is het halucinatiegehalte heel erg hoog.

Murmure

Speciaal voor het vertalen van spraak naar tekst kun je op je eigen computer ook gebruikmaken van het open weights model Murmure, dat werkt op een model van Nvidia. Je kunt dit gratis downloaden en offline op je eigen computer gebruiken. Bijvoorbeeld als je eens een transcript wilt maken van een interview of meeting of als je gewoon even wilt praten tegen je computer in plaats van typen op je toetsenbord.

https://www.murmure.app/

Maar let op: lees het altijd even na en vertrouw er niet klakkeloos op.

Er zijn ook Europese modellen van Mistral waarmee spraak naar tekst kan worden vertaald – deze kan je wel downloaden, maar er is nog geen handig tooltje beschikbaar om ze direct mee te gebruiken.

GPT-NL

Ook in Nederland is er een initiatief om een eigen lokaal taalmodel te ontwikkelen: https://gpt-nl.nl/.

Het GPT-NL model wordt voornamelijk getraind op Nederlandse data en is bedoeld als eigen “verantwoord” model. Met verantwoord wordt hier bedoeld dat er niet alleen gekeken wordt naar wat het model kán, maar ook hoe het tot stand is gekomen en hoe je ervoor kunt zorgen dat alle belanghebbenden kunnen meeprofiteren van een dergelijk initiatief. Zo zullen de opbrengsten terugvloeien naar de rechthebbenden van de data die voor het trainen is gebruikt en wordt er verantwoording afgelegd over de methoden die zijn gebruikt.

Om ervoor te zorgen dat de opbrengsten terecht kunnen komen bij de rechthebbenden is besloten om het model niet als open weights gratis beschikbaar te maken. Je kunt het daarom niet downloaden met Ollama en vandaag al mee aan de slag gaan. Wel is GPT-NL erg transparant (de open kaart) over de data die is gebruikt (welke voor een groot deel ook toegankelijk zijn voor andere ontwikkelaars) en hoe het systeem werkt door de software onder open source licenties vrij te geven. Ook zijn ze transparant over het energieverbruik van het trainen van het model.

Wil je met GPT-NL aan de slag? Je kunt je momenteel nog opgeven als launching customer als je met jouw organisatie een pilot of project wilt starten.

Tot slot

Aan het gebruik van AI in werkprocessen zitten veel haken en ogen. Daarvan zijn we ons bij PublicSpaces zeer bewust. De wereldwijde impact van de AI-industrie (energieverbruik, datacenters, data- en kapitaal-extractie om maar wat te noemen) is groot en ook de sociale gevolgen (werkgelegenheid, leerprestaties) zijn nog maar moeilijk te overzien. Ook de afhankelijkheid van slechts een paar grote bedrijven is zorgelijk. Geen wonder dus dat steeds meer organisaties en bedrijven op zoek gaan naar alternatieven.

Op dit moment is er nog geen alternatief dat geheel voldoet aan het PublicSpaces manifest. Een goed alternatief voor het gebruik van de big tech taalmodellen blijft daarom ook…. geen AI gebruiken! Stel je vraag aan een collega, maak zelf die samenvatting.

Hoe kunnen we AI nu wél geheel ontwerpen en beheren vanuit het publieke belang? Dit onderzoeken we de komende tijd vanuit PublicSpaces met ons programma rondom ‘Public AI’. Houd de website en de nieuwsbrief in de gaten voor updates.

Twijfel je na het lezen nog steeds of je wel of geen chatbot moet gebruiken? Vraag het een mens! <– Luistertip!

Hierover doorpraten?

Praat mee op Mastodon

Of heb je vragen hierover?

Laat het ons weten!

Ben je enthousiast geworden om met je organisatie nog meer stappen te zetten richting digitale autonomie?

Sluit aan bij PublicSpaces!

Digital Independence Day: Aan de slag met taalmodellen