A VASA-1 mesterségesintelligencia-modell, ami élő deepfake-videót készít

A Microsoft által bemutatott VASA-1 nevű mesterségesintelligencia-modell képes egyetlen fénykép és hangsáv alapján szinkronizált animált videót létrehozni, amely egy beszélő vagy éneklő személyt ábrázol.

A VASA-1 modell használatával létrehozhatók olyan avatárok, amelyek hasonlítanak azokhoz, amelyeket nemrég a közmédiában láthattunk, és mindehhez csupán egy kép és a személy hangja szükséges. Ez a technológia lehetővé teszi, hogy bárki, aki rendelkezik a szükséges eszközökkel, olyan videót készítsen, amely úgy tűnik, mintha az adott személy beszélne vagy énekelne a képen.

A mesterségesintelligencia-modell gépi tanulási technikákat alkalmaz egy statikus kép és egy beszédhangklip elemzésére, majd ezek alapján generál egy valósághű videót, amely pontos arckifejezéseket, fejmozgásokat és a hanggal szinkronizált ajkakat tartalmaz. Fontos megjegyezni, hogy a VASA-1 nem klónozza vagy szimulálja a hangokat, hanem egy már meglévő hangfelvételt használ fel.

A Microsoft szerint ez az új modell jelentős előrelépést jelent a korábbi beszédanimációs technikákhoz képest, mivel sokkal valósághűbb és hatékonyabb eredményeket képes produkálni. A modell fejlesztése során a VoxCeleb2 Dataseten képezték ki, ami több mint 1 millió beszédrészletet tartalmaz, és például olyan videót is felhasználtak a tréninghez, ahol a Mona Lisa rappel Anne Hathaway „Paparazzi” című dalára, amit Conan O'Brien műsorában adott elő.

A VASA-1 egy kísérleti projekt, amelyet a Microsoft Kínában működő kutatólaboratóriuma, a Microsoft Research Asia fejlesztett. A technológia potenciális veszélyeire való tekintettel a kutatók úgy döntöttek, hogy semmilyen kódrészletet nem tesznek közzé a fejlesztésről addig, amíg meg nem győződnek arról, hogy azt csak felelősségteljesen, etikusan lehet használni.

A technológiának a potenciális veszélye mellett rengeteg előnye is van. Ilyen lehet például, ha egy sérült ember használja, az eszközön keresztül ugyanis könnyebben kommunikálhat a világgal. De terápiás célokat is szolgálhat, sőt, akár társaságot is nyújthat a magányos emberek számára – vagy azoknak, akik nehezen tudják feldolgozni, hogy egy szerettüket elvesztették.

A VASA-1-ről készült egy tudományos publikáció is, amit jelenleg az arXiv preprint szerveren lehet elolvasni.