Tehisintellekti genereeritud inimnäod, -hääled ja liigutused petavad nüüd enamiku inimesi igapäevastes olukordades, nagu videokõnedes ja sotsiaalmeedia klippides, üsna hõlpsalt ära, kirjutab USA Buffalo ülikooli arvutiteadlane ja süvavõltsingute (
deepfake) uurija Siwei Lyu veebiväljaandes
The Conversation. Tema hinnangul arenevad süvavõltsingud tuleval aastal edasi aina peenemaks ja tabamatumaks.
Tavavaataja jaoks ja isegi mõne institutsiooni silmis on nn sünteetiline meedia muutunud ehtsatest salvestistest eristamatuks. Küberturbeettevõtte DeepStrike hinnangul kasvas internetis leiduvate süvavõltsingute arv umbes 500 000-lt 2023. aastal ligi 8 miljonini 2025. aastal. See tähendab ligi 900protsendilist aastast kasvu.
Hüppelise kasvu põhjustasid kolm tehnilist muutust. Esiteks õppisid videote genereerimise mudelid säilitama ajalist järjepidevust. Videod ei vilgu enam ja tehisaru genereeritud nägude silmade ja lõuajoonte ümbrus ei muutu või deformeeru. Uued mudelid eraldavad identiteediinfo liikumisandmetest, nii et sama liikumist saab veenvalt rakendada erinevatele nägudele või siis võib ühe inimese nägu sooritada mitmeid tegevusi.
Teiseks ületas hääle sünteesimine ja kloonimine selle, mida Lyu nimetab eristamatuse läveks. Vaid mõni sekund helimaterjali võimaldab nüüd luua veenva klooni. Genereeritud häälel on loomulik intonatsioon, rütm, pausid ja selles on isegi hingamishäälitsused. Mõned suured jaemüüjad on teatanud, et saavad päevas üle 1000 tehisintellekti loodud petukõne. Tajutavad vihjed, mis varem sünteetilised hääled reetsid, on nüüd kadunud.
Artikkel jätkub pärast reklaami
Kolmandaks jõudsid AI-tööriistad peavoolu. OpenAI Sora 2 ja Google’i Veo 3 uuendused koos uute iduettevõtete lainega tähendavad, et igaüks võib kirjeldada ideed ChatGPT-le või Geminile, kirjutada stsenaariumi ja genereerida viimistletud audiovisuaalset sisu vaid minutitega. Tehisintellekt suudab kogu töövoo automatiseerida. Suutlikkus luua sidusaid, narratiivipõhiseid süvavõltsinguid väga suures mahus on muutunud võimalikuks kõigile.
Reaalajas süntees on järgmine samm
Suund 2026. aastaks on selge: süvavõltsingud liiguvad reaalajas toimuva sünteesi poole. Fookus nihkub staatiliselt visuaalselt realismilt käitumuslikule sidususele – mudelitele, mis genereerivad sisu otseülekandes, mitte eelrenderdatud klippidena.
Identiteedi modelleerimine koondub ühtseks süsteemiks, mis koondab endasse nii selle, milline tehisaruga loodud inimene välja näeb kui ka selle, kuidas ta liigub, kõlab ja räägib erinevates kontekstides. Tulemuseks ei ole enam lihtsalt tehisaruga loodud persoon, kes meenutab isikut X, vaid selline, kes käitubki mingi ajaperioodi jooksul nagu isik X.
Lyu eeldab, et videokõnede tehisaru-poolseid osalejaid sünteesitakse edaspidi aina enam reaalajas. Neid vestlusi hakkavad päris inimestega läbi viima interaktiivsed tehisintellekti juhitud näitlejad, kelle näod, hääled ja maneerid kohanduvad hetkega sisenditele. Tehisaru loodud sünteetilised inimesed (või libainimesed) suudavad hoobilt päris inimese jutule ja käitumisele reageerida. Staatilised videod asenduvad reaktiivsete avataridega.
Taristu, mitte instinkt
See tähendab, et inimlik otsustusvõime ei saa enam olla peamine kaitseliin, kuna vahe sünteetilise ja ehtsa meedia vahel muudkui kahaneb. Sisuline kaitse nihkub taristu tasandile, kasutusele tuleb võtta aina enam turvalisi tuvastusmehhanisme ja erinevaid forensilisi tööriistu, mis suudavad juba enne kasutajani jõudmist libainimesed voost välja filtreerida.
See teema pakub huvi? Hakka neid märksõnu jälgima ja saad alati teavituse, kui sel teemal ilmub midagi uut!