Mesterséges intelligencia

2021.10.18. 18:00

Bármilyen nyelvre szinkronizálhatják a filmeket – a színész hangjával

Nem kevesebbet ígérnek a gépi tanulás és a mesterséges intelligencia legújabb fejlesztései, mint hogy az idegennyelvű tartalmak rövidesen saját nyelvünkön szólalhatnak meg, alkalmasint a színész igazi, eredeti hangján.

Actor Tom Hanks attends the unveiling Ceremony of the fully restored 1939 Iconic building facade at the Academy Museum of Motion Pictures' future home one Wilshire and Fairfax, in Los Angeles, California, on December 4, 2018. (Photo by VALERIE MACON / AFP)

Forrás: AFP

Fotó: Valerie Macon

Több startup dolgozik azon, hogy a tökéletes szinkronizálást megvalósítsa, s a színészek ajakmozgása kifogástalan összhangban legyen a videóval. A cél az, hogy például Tom Hanks a saját hangján szólaljon meg olyan nyelveken, amiken nem is beszél.

A fejlesztések szerint

bármilyen videótartalmat elérhetünk majd a saját nyelvünkön – automatikus szinkronizálással.

A jelenlegi hagyományos szinkronizálás leginkább úgy működik, hogy a helyi nyelvű kiadás elkészítéséhez fizetni kell a forgatókönyv lefordításáért, s felkérnek egy csapatnyi szinkronszínészt a karakterek eljátszására. Aztán ki kell bérelni a szükséges technikát, számos hangfelvételt készíteni a színészekkel, rögzíteni azokat, majd beilleszteni az eredeti videóba: az egész folyamat akár hónapokig is eltarthat.

Ehhez képest

az automatikus szinkronizálás gyorsabb, olcsóbb és hitelesebb lehet.

Az eredeti színésszel felvesznek öt perc véletlenszerű szöveget a saját nyelvén. Ezután a mesterséges intelligencia és a számítógépek átveszik a szót: a neurális hálózat megtanulja a színész hangját, egy program megemészti ezt a hangi információt, és a forgatókönyv digitális fordításához alkalmazza, majd a mesterséges intelligencia tökéletesen időzített sorokat alkot a színész hangjával az idegen nyelven, és beilleszti a cselekmény megszólalásaiba. Azért ez is hetekig tarthat.

„Megvan a technológia, amellyel nagy űrt tudunk betölteni” – mondta Oz Krakowski, a deepdub.ai, egy dallasi és tel-avivi székhelyű startup cég marketingvezetője a The Washington Postnak.

A Netflixen látható, 2019-es angol nyelvű Every Time I Die című thrillert spanyol és portugál nyelven, teljes egészében mesterséges intelligencia által szinkronizált változatban készítették el.

Az automatikus szinkronizálással dolgozó cégek többféle megközelítést alkalmaznak.

A Deepdub a hangra összpontosít, digitálisan átülteti az eredeti színész hangját egy gépi fordítás alapján, de a videót változatlanul hagyja. Egy másik cég, a londoni székhelyű Papercup még tovább megy, és úgynevezett szintetikus hangokat használ.

A Flawless egészen más utat választott a tökéletes szinkron megvalósításához. A cég továbbra is élő – drága és munkaigényes – szinkronszínészekre támaszkodik, de a videó utómunkálatai során a megjelenő ajkakat és arcokat úgy szerkesztik, hogy úgy tűnjön, mintha valóban az adott nyelvet beszélnék.

Olyan technológiai óriások is dolgoznak a megoldáson, mint az Amazon, a videókra összpontosító Synthesia és a hangközpontú Respeecher.

Bár valamennyi szolgáltatás alkalmaz valamilyen manipulációt, a legtöbbjük azt állítja, hogy nem alkalmaz mély hamisításos, deep fake technológiákat, mivel óvakodnak a politikai manipulációval kapcsolatos vádaktól. Nagy vitát váltott ki a CNN nemrégiben készült, a néhai Anthony Bourdainről szóló dokumentumfilmje, amely mesterséges intelligenciával készült hangot használt.

Persze ki honnan nézi: ami az egyiknek deepfake, az a másiknak digitális javítás.

A kockázati tőkebefektető cégek pedig már ráharaptak a dologra és kezdik pénzzel kitömni az automatikus szinkronizáláson dolgozó vállalkozásokat.

Borítóképünk Tom Hanks

Hírlevél feliratkozás
Ne maradjon le a kisalfold.hu legfontosabb híreiről! Adja meg a nevét és az e-mail-címét, és mi naponta elküldjük Önnek a legfontosabb híreinket!