Produkční studia i fanoušci se obracejí ke generativním nástrojům umělé inteligence, aby donutili hlasové herce a dabéry říkat věci, které nikdy neřekli – a v sázce je jejich práce.

Při projíždění TikToku narazila dabérka Allegra Clark na video s Beidou, kapitánkou lodi z videohry Genshin Impact, kterou namluvila. Beidou se v něm účastnila sexuálně sugestivní scény a říkala věci, které Clark nikdy nenahrála, přestože drsný hlas zněl přesně jako její.

Tvůrce videa totiž vzal její hlas a naklonoval ho pomocí nástroje generativní umělé inteligence nazvaného ElevenLabs. A tím ji donutil říkat, co chtěl on.

Clark, která namluvila více než sto postaviček ve videohrách a v desítkách reklam, uvedla, že video chápala jako vtip, ale obávala se, že kdyby ho viděl její klient, mohl by si myslet, že se na něm podílela, což by bylo jasným porušením její smlouvy.

„Nejenže nás to může dostat do velkých potíží, pokud si lidé budou myslet, že jsme tyto věci řekli, ale upřímně řečeno je také velmi zneklidňující slyšet se mluvit, když to ve skutečnosti nejste vy,“ napsala herečka v e-mailu pro ElevenLabs, který má Forbes k dispozici.

Požádala startup, aby nahraný zvukový klip stáhl a zabránil budoucímu klonování jejího hlasu, ale společnost uvedla, že nebyla schopna zjistit, zda byl klip pořízen její technologií.

Kromě toho uvedla, že by podnikla okamžité kroky pouze v případě, že by klip byl „nenávistným nebo hanlivým projevem“, a prohlásila, že není zodpovědná za porušení autorských práv. Dál se tím už společnost nezabývala ani nepodnikla žádné kroky.

„Je na nic, že nemáme nic jako osobní vlastnictví svých hlasů. Jediné, co můžeme dělat, je tak trochu vztyčit prst,“ řekla Clark časopisu Forbes.

Spoluzakladatel a generální ředitel společnosti ElevenLabs Mati Staniszewski v odpovědi na otázky týkající se této zkušenosti časopisu Forbes sdělil, že uživatelé musejí mít „výslovný souhlas“ osoby, jejíž hlas klonují, pokud by vytvořený obsah měl být „škodlivý nebo pomlouvačný“.

Měsíce po této události nicméně společnost spustila nástroj „voice captcha“, který vyžaduje, aby lidé nahráli náhodně vygenerované slovo hlasem, jenž se musí shodovat s tím, který se snaží naklonovat.

Společnost, jejíž hodnota se pohybuje kolem 100 milionů dolarů a za níž stojí Andreessen Horowitz a spoluzakladatel Google DeepMind Mustafa Suleyman, je v současnosti jednou z nejžhavějších společností zabývajících se hlasovou umělou inteligencí.

Její technologie vyžaduje pouze 30 sekund až 10 minut nahrávek, aby vytvořila téměř identickou repliku něčího hlasu. Spolu se stránkami, jako jsou FakeYou a Voice AI, které nabízejí bezplatnou knihovnu digitálních hlasů, je tak na společnost aktuálně upřena pozornost dabérů z celého světa. Obávají se totiž, že zcela změní jejich profesní životy.

Rozhovory Forbesu s deseti dabéry odhalily, že se již tak nejisté odvětví nachází na pokraji rozsáhlých změn, protože s těmito nástroji pro převod textu na řeč začínají experimentovat i zaměstnavatelé.

Jedna z dabérek, se kterou Forbes hovořil, uvedla, že jí zaměstnavatel den poté, co oznámil partnerství s ElevenLabs, oznámil, že ji nenajme k dokončení vyprávění série audioknih, což ji vede k obavám, že bude nahrazena umělou inteligencí.

Jiná řekla, že jí zaměstnavatel sdělil, že chce využít umělou inteligenci ElevenLabs k urychlení opakovaných nahrávek, což je standardní součást nahrávání audia, za kterou jsou běžně dabéři placeni.

Když svému zaměstnavateli řekla, že nesouhlasí s tím, aby byl její hlas nahrán na jakoukoli stránku s umělou inteligencí, zaměstnavatel souhlasil, dle jejích slov ale již nebyla povolána k žádnému opakovanému nahrávání.

Komunita dabérů poprvé zaznamenala příliv hlasů generovaných umělou inteligencí poté, co společnost Apple Books v lednu 2023 spustila digitální vyprávění audioknih se sadou sopránových a barytonových hlasů, uvedl Tim Friedlander, prezident NAVA.

Herci podle něj začali objevovat tisíce zvukových souborů se známými hlasy, které na různé stránky nahrávali převážně fanoušci. Známý herec Stephen Fry nedávno uvedl, že jeho hlas byl seškrábán z jeho vyprávění knih o Harrym Potterovi a naklonován pomocí umělé inteligence. Během přednášky na festivalu CogX Fry uvedl, že ho tato zkušenost „šokovala“.

Stovky dabérů veřejně požádaly o vymazání svých hlasů z generátorů hlasů umělé inteligence Uberduck a FakeYou.ai, které uvedly, že hlasy ze svých stránek stáhnou, pokud se majitel hlasu ozve.

Zatímco FakeYou.ai stále poskytuje tisíce populárních hlasů, jako jsou hlasy Johna Ceny a Kanyeho Westa, které může použít kdokoli, Uberduck v červenci odstranil ze své platformy všechny hlasy poskytnuté ze strany uživatelů. Na opakovanou žádost o komentář Společnosti Uberduck a FakeYou.ai nereagovaly.

Jedním z herců, kteří veřejně požádali o odstranění svého hlasu z hlasových generátorů, je Jim Cummings, který namluvil postavy jako Medvídek Pú nebo Taz z Looney Tunes. Pro časopis Forbes uvedl, že by dal souhlas s klonováním svého hlasu jen v případě, že by za to on a jeho rodina dostávali honorář. „Jinak dejte od mého hlasu ruce pryč,“ řekl.

Právní dilema

Stejně jako stávkující filmoví herci, kteří bijí na poplach před příchodem umělé inteligence a před tím, jak by mohla ovlivnit jejich práci, jsou i dabéři v první linii technologických změn.

Ale na rozdíl od jiných tvůrčích oborů, kde se autoři a umělci sdružují v hromadných žalobách, kterými se brání proti tomu, aby jejich autorská díla byla využívána k trénování modelů umělé inteligence, jsou dabéři obzvlášť zranitelní.

Přestože jsou hlasy ze své podstaty rozlišitelné, nejsou chráněny jako duševní vlastnictví. „Pro samotný hlas neexistuje žádná právní ochrana jako pro obličej nebo otisk prstu,“ říká Jennifer Roberts, která namluvila několik postav ve videohrách. „Máme svázané ruce.“

Nahrávka hlasu však může být chráněna autorským právem a podle Jeanne Hamburg, advokátky kanceláře Norris McLaughen, může být použití hlasu pro komerční účely chráněno „právem na publicitu“, které brání zneužití podobizen slavných osobností.

To je však pouze teorie. Obzvlášť pokud jde o zaměstnavatele. Většina smluv podepsaných dabéry totiž nebrání tomu, aby se nahrávky jejich hlasů používaly k trénování systémů umělé inteligence.

Již více než deset let je ve smlouvách uvedeno, že producenti „vlastní nahrávku na dobu neurčitou, v celém známém vesmíru, v jakékoli technologii, která v současné době existuje nebo bude vyvinuta“, uvedla Cissy Jones, hlasová herečka, která je součástí zakládajícího týmu americké Národní asociace hlasových herců (NAVA), nově založené neziskové organizace, která dabéry zastupuje.

Tyto smlouvy byly z velké části sepsány a podepsány před nástupem systémů umělé inteligence. „Hlasoví herci neposkytli informovaný souhlas s budoucím použitím zvukového záznamu a nedostali za to spravedlivou odměnu,“ řekl Scott Mortman, právník společnosti NAVA. „A tak je třeba v souvislosti s umělou inteligencí výrazně posílit ochranu.“

Proto NAVA a americké herecké odbory SAG-AFTRA usilují o to, aby ze smluv bylo vyškrtnuto znění, které zaměstnavatelům umožňuje použít hlas herce k vytvoření „digitálního dubléra“ nebo „syntetizovat“ jeho hlas pomocí strojového učení.

Organizace také vypracovaly nový vzorový text, který by se měl přidat do smluv a který by chránil hlasové herce před ztrátou práv na jejich hlas.

Mnoho způsobů zneužití

Stejně jako Clark se i řada dalších dabérů setkala s tím, že fanoušci manipulovali s jejich hlasy pomocí nástrojů generativní umělé inteligence a vytvářeli pornografický, rasistický či násilný obsah.

I navzdory tomu, že většina fanoušků používá hlasy umělé inteligence k vytváření neškodných memů nebo jiných druhů fanouškovského obsahu, se hlasoví herci ozývají na sociálních sítích a zakazují lidem, aby jejich hlasy využívali.

Také Cissy Jones, členka NAVA, jejíž hlas zazněl v pořadech společnosti Disney a v dokumentárních filmech Netflixu, našla na TikToku videa, v nichž fanoušci pomocí Uberducku vytvořili klony jejího hlasu, které říkaly nevhodné věci.

„Nejenže můj hlas říká něco, co bych nikdy neřekla, ale ty věci jsou už venku,“ řekla Jones Forbesu. „Pokud potenciální kupci uslyší naše hlasy říkat takové věci, jak to ovlivní mou budoucí práci?“ dodala. Uvedla ale, že poté, co se ozvala, společnost Uberduck její hlas z platformy odstranila.

Hlasy generované umělou inteligencí se také staly novým prostředkem šikany. Abbey Veffer, jejíž hlas se objevil ve hrách jako Genshin Impact a The Elder Scrolls Online, uvedla, že se v únoru stala obětí doxingu ze strany někoho, kdo vytvořil klon jejího hlasu.

Dotyčný si vytvořil účet na Twitteru, jako uživatelské jméno použil její adresu, pomocí umělé inteligence vytvořil klon jejího hlasu a poté ho přiměl říkat rasistické a násilné věci.

Anonymní uživatel poslal nahrávku přímo Veffer a připnul ji na twitterový účet. Prohlásil, že použil technologii společnosti ElevenLabs. Veffer pro Forbes uvedla, že tato zkušenost byla „intenzivní“ a „velmi znepokojující“.

Když se však Veffer se svými obavami obrátila na ElevenLabs, společnost uvedla, že klon nebyl vytvořen pomocí jejího softwaru, a ve zprávě, kterou má Forbes k dispozici, uvedla, že celá záležitost byla součástí „organizované pomlouvačné kampaně“ proti startupu.

Tři dny poté, co se Veffer obrátila přímo na Twitter, byl účet pozastaven a video staženo, ale adresa jejího bydliště zůstala dle jejích slov na webu ještě tři měsíce.

Poté, co společnost ElevenLabs v lednu uvedla na trh beta verzi svého nástroje pro převod textu na řeč, oznámila, že se potýká se zneužíváním své technologie.

O den později server Vice zjistil, že anonymní přispěvatelé na webu 4Chan používali tehdy bezplatný klonovací nástroj společnosti ElevenLabs k vytváření rasistických, transfobních a násilných poznámek s hlasy celebrit, jako jsou Joe Rogan či Emma Watson.

Schopnost umělé inteligence věrně napodobovat lidské hlasy také vytvořila příležitosti pro podvodníky. Americká Federální obchodní komise letos vydala varování, že zločinci používají hlasové klony vytvořené umělou inteligencí k vydávání se za blízké svých obětí s cílem přesvědčit je, aby jim poslali peníze.

Jeden novinář dokázal pomocí nástroje společnosti ElevenLabs vytvořit verzi svého hlasu generovanou umělou inteligencí, která se úspěšně přihlásila k jeho vlastnímu bankovnímu účtu.

Společnost ElevenLabs se k žádnému z těchto konkrétních případů nevyjádřila, ale generální ředitel Staniszewski v e-mailu uvedl, že „pokud někdo používá náš nástroj k neoprávněnému klonování hlasů, které je v rozporu s podmínkami spravedlivého používání, účet společnost zakáže a zabrání zakládání nových účtů se stejnými údaji“.

Vedle nástroje „voice captcha“, který má zajistit, že lidé mají svolení od majitele hlasu, společnost uvádí, že vyvinula také klasifikátor řeči, který dokáže s více než 90procentní přesností zjistit, zda byl zvukový klip obsahující umělou inteligenci vytvořen pomocí jejích nástrojů.

Souhlas a kontrola

V reakci na zneužívání přidávají weby pro generování hlasu restriktivní opatření, jejichž úkolem je kontrola jejich vlastní technologie. Společnost Speechify, která s jejich plným souhlasem licencuje hlasy slavných vypravěčů, jako jsou Snoop Dog či Gwyneth Paltrow, neumožňuje lidem nahrávat obsah pro vytvoření hlasů bez aktivní účasti osoby, jejíž hlas chtějí použít.

Podobně jako ElevenLabs předkládá unikátní text, který musí uživatel nebo někdo, kdo je s ním fyzicky přítomen, přečíst nahlas svým vlastním hlasem.

„Myslím si, že je krátkozraké dělat zkratky, a mým cílem je, aby majitelé obsahu vzali zodpovědnost do svých rukou,“ řekl Cliff Weitzman, který v roce 2012 založil Speechify s účelem převést pomocí strojového učení své učebnice na audioknihy.

Také ve společnosti Resemble AI, která se chlubí zákazníky, jako je Netflix nebo World Bank Group, si lidé mohou vytvořit vlastní hlas generovaný umělou inteligencí až po nahrání souhlasného prohlášení hlasem, který chtějí generovat.

Zakladatel a generální ředitel společnosti Resemble AI Zohaib Ahmed uvedl, že zavedení bezpečných způsobů užívání technologie bylo nedílnou součástí jeho startupu, protože se domnívá, že odpovědnost za prevenci zneužití by měla ležet spíše na dodavatelích, kteří nástroje vytvářejí než na koncových uživatelích.

Tyto druhy ověřování však neřeší vyšší etické otázky týkající se souhlasu. Herci například nemají skutečnou kontrolu nad tím, jak budou jejich hlasy použity posmrtně.

Dabéry rozzuřilo, když herní studio Hi-Rez Studios přidalo klauzuli, která mu měla umožnit klonovat hlas pomocí umělé inteligence po smrti majitele hlasu, byť byla tato klauzule po rozruchu odstraněna.

„Pokud herec zemře, je lepší ho nahradit jiným člověkem, než vytvořit jeho hlas uměle, protože to není on a nevrátí ho to zpět,“ myslí si Clark.

Velkou otázkou, která se nad tím vším vznáší, je, zda mají dabéři vůbec nějakou budoucnost. Vzhledem k tomu, že se zaměstnavatelé i fanoušci obracejí k syntetickým hlasům, se mnozí z nich obávají, zda si najdou další práci či zda si udrží ty stávající.

„Kontrola nad tím, jak se náš hlas používá, kde se používá a kolik za to dostáváme zaplaceno, je pro nás velmi důležitá,“ říká Friedlander ze společnosti NAVA.