A Google mesterséges intelligenciája akár filmet is készíthet

A Google DeepMind csapata egy olyan mesterséges intelligencia fejlesztésén dolgozik, amely képes lehet zenét vagy szinkront készíteni mozgóképekhez, amit a TechCrunch is megemlített.

A Google MI-re szakosodott részlege, a DeepMind, egy V2A néven ismert programot mutatott be a YouTube-on, amely képes a képkockák elemzésére és szöveges utasítások készítésére, amelyeket aztán hanghatásokká alakít át. A TechCrunch szerint a bemutató eredménye meggyőző volt, ami a pixelek elemzésének képességének köszönhető.

A tervek szerint a V2A-t össze lehet majd kapcsolni a Google saját videógeneráló MI-szoftverével, a Veo-val, de akár az OpenAI által fejlesztett Sorával is. A rendszert különböző videók, hangok és mesterséges intelligencia által generált tartalmak segítségével képezték ki, így tanulva meg, hogy mely hangokat társítsa mely vizuális elemekhez, amint azt a hvg is kiemelte.

A DeepMind szerint a fejlesztésük abban különbözik a többi hasonló kezdeményezéstől, hogy a felhasználók dönthetnek arról, hogy szöveges parancsokat adnak-e a hangok létrehozásához. A szakértők jelenleg azon dolgoznak, hogy a generált párbeszéd szinkronban legyen a beszélő ajkának mozgásával, és hogy a létrehozott hang jó minőségű legyen, valamint ne torzuljon.

Azonban a mesterséges intelligencia fejlődése nem áll meg a hanggenerálásnál. Az OpenAI által fejlesztett Sora például szöveges utasításokból képes videókat létrehozni, és a technológia már olyan fejlett, hogy a generált tartalmak egyre nehezebben különböztethetők meg az igaziaktól. A videókban megjelenő apróbb hibák, mint például a túlságosan szinkronban haladó buszok vagy a furcsán változó perspektíva, egyre kevésbé szembetűnőek, ami azt jelenti, hogy a felhasználóknak egyre nehezebb felismerniük, hogy valójában mesterséges intelligencia által generált tartalmat látnak.

A Google keresőjében megjelenő mesterséges intelligencia által generált válaszok is felvetik a kérdést, hogy mennyire megbízhatóak ezek az információk. A 404 Media által említett példák, mint az indexfolyadék vagy a ragasztóval megszilárdított pizza, humorosnak tűnhetnek, de komoly károkat okozhatnak a sajtó és az emberek médiába vetett bizalmára nézve.

A mesterséges intelligencia által generált képek és videók terjedése új kihívások elé állítja a hiteles forrásokat és a tartalomgyártókat. A vízjelek és hitelesítő rendszerek, mint például a Google Synth ID-je, segíthetnek a generált tartalmak azonosításában, de ezek a módszerek sem tökéletesek. Az átlagfelhasználóknak továbbra is ébernek kell lenniük, és a józan eszüket kell használniuk az MI által generált tartalmak felismeréséhez.

A technológia fejlődésével a mesterséges intelligencia egyre több területen képes helyettesíteni az emberi munkát, ami aggodalmakat is kelt a kreatív szakmákban dolgozók körében. A felelősség egyre inkább átkerülhet azokra, akik kézműves módon gyártanak tartalmakat, és dokumentálják munkafolyamataikat, hogy bizonyítani tudják az alkotások eredetiségét.

A mesterséges intelligencia fejlődése így nemcsak új lehetőségeket, hanem új kihívásokat is hoz a társadalom számára, és fontos, hogy a felhasználók tudatosak legyenek a technológia korlátairól és a generált tartalmak felismerésének módszereiről.