Jarno Duursma kloonde zichzelf met behulp van AI

Kunstmatig geproduceerde content heeft misschien een negatieve bijsmaak, maar dat hoeft niet zo te zijn. Sterker nog, het kan ons leven een stukje makkelijker maken doordat we niet meer alles zelf hoeven te doen. Als je een virtuele kloon van jezelf maakt, kun je die aan het werk zetten. We spraken technologie-expert Jarno Duursma, die hier ervaring mee heeft.

Voor bedrijven, mediamakers en YouTubers bieden synthetische media nieuwe mogelijkheden. Er zijn inmiddels talloze bedrijven die met gespecialiseerde software allerlei nieuwe diensten aanbieden die enkele jaren terug nog niet bestonden. Zo kun je een tekst invoeren die vervolgens wordt voorgelezen door een virtueel persoon. Het uiterlijk en de stem kun je zelf kiezen en je bepaalt dus ook volledig wat hij of zij zegt. 

Iets dergelijks kan ook op basis van je eigen stem, als je eerst een trainingsprogramma doorloopt en je het algoritme voedt met je eigen stem en de manier waarop je woorden uitspreekt. Je kunt dan dus jezelf teksten laten oplezen, zonder dat je dit in werkelijkheid hoeft te doen – iets wat je veel tijd kan besparen. Tot slot kun je zelfs je uiterlijk digitaliseren. In combinatie met je eigen stem creëer je dan dus een virtuele kloon van jezelf, oftewel een avatar, die in video’s aangeleverde teksten uitspreekt.

Levensechte avatar

Iemand die dat heeft laten doen is technologie-expert Jarno Duursma. Hij volgt de ontwikkelingen op het vlak van kunstmatige intelligentie al vele jaren, schreef er boeken over en is een bekende spreker op evenementen. Sinds de coronacrisis spreekt hij regelmatig tijdens online sessies. 

Kan hij zichzelf al laten vervangen door zijn eigen virtuele kloon? Jarno: “Nee, dat lukt nog niet volledig. Voor een opening kan het leuk zijn of een voor een praatje van maximaal een minuut of acht, maar daarna gaat het vervelen. Een avatar komt best natuurlijk over, maar is wel wat saai om lang naar te kijken. Zeker online publiek moet je actiever boeien door veel intonatie te gebruiken en af en toe een vraag te stellen. Een goede spreker is een podiumkunstenaar. Natuurlijk moet de inhoud goed zijn, maar je moet ook de subtiliteit kunnen beheersen van storytelling, timing en intonatie. Dat kan een avatar op dit moment nog niet.”

Waarvoor zou het nu dan wel handig zijn? “Bijvoorbeeld voor korte instructiefilms”, antwoord Jarno. “Een avatar kan prima een boodschap overbrengen, bijvoorbeeld voor nieuw personeel of als handleiding. Een video komt toch beter over dan zelf een tekst te lezen. Ook zou een directeur of manager van een bedrijf, die niet zo goed is in het oplezen van tekst, zichzelf kunnen digitaliseren en de tekst geautomatiseerd kunnen voorlezen." 

"Verder zou je op deze manier van een blog automatisch een podcast kunnen maken en daar weer een video van. Ik denk dat dit de komende jaren ook op radio en tv steeds vaker ingezet zal worden. Niet voor het achtuurjournaal, maar in eerste instantie bijvoorbeeld voor nachtuitzendingen.”

Hulp van Generative Adversarial Network

Jarno Duursma begon met een abonnement bij het bedrijf Synthesia. Daar kun je kiezen uit verschillende avatars, mannen en vrouwen, en een veertigtal templates met thema’s en achtergronden. De mond van de avatar wordt dan gesynchroniseerd met de tekst, maar ook de ogen en wenkbrauwen bewegen en zorgen voor expressie. Jezelf als avatar gebruiken kan ook. Daarvoor verbouwde Jarno zijn kantoor met een groot greenscreen en huurde hij iemand in voor de video en de belichting. 

Als bronmateriaal moest hij een klein half uur lang via een autocue een script voorlezen en daarbij niet teveel bewegen. Synthesia verwerkte de beelden via een GAN (Generative Adversarial Network). Dat duurde een paar weken, waarna hij zijn eigen beeltenis, met de stem van iemand anders, teksten kon laten voorlezen. In het Engels, maar ook in het Nederlands waarvoor drie verschillende stemvariaties voor beschikbaar zijn. Het is mogelijk een geschreven tekst te laten voorlezen, maar je kunt ook je eigen stemopname maken en een mp3-bestand daarvan als basis gebruiken.

Een volgende stap was het klonen van zijn stem. Na een zoektocht langs verschillende bedrijven kwam Jarno bij Descript uit. Daarvoor moest hij gedurende 45 minuten een standaard script voorlezen en dat vervolgens opsturen. Dat kon vooralsnog alleen in het Engels. Alleen een tekst typen is nu voldoende om met je zijn beeldgelijkenis en stem een video te maken. 

Wat vindt hij van het resultaat? “Nu is de avatar nog te statisch en zijn gezichtsexpressie en inhoud van het verhaal nog niet goed gesynchroniseerd. Toch ben ik zeer tevreden. Ik ben het experiment gestart om te kijken hoe ik mijzelf kon digitaliseren. Met name in het coronatijdperk, waarbij evenementen niet meer doorgingen en alles online gedaan werd. Als je iemand niet vertelt dat het niet echt is, zien en horen ze dat meestal niet."

"Het is technisch nog niet perfect, maar de ontwikkelingen gaan verder, dus het resultaat zal steeds beter worden. Uiteindelijk zal het steeds normaler worden dat dit soort kloons, en zelfs niet-bestaande mensen, in de praktijk worden ingezet."

Tekst: Jeroen Horlings

Geschreven door: Redactie PCM op

Category: Nieuws, Algemeen

Tags: ai, deepfake