Microsoft’un AI aracı, fotoğrafları konuşan ve şarkı söyleyen insanların gerçekçi videolarına dönüştürebilir

Microsoft Research Asia’nın sahip olduğu açıklanmış VASA-1 adı verilen, bir kişinin hareketsiz görüntüsünü veya bir çizimini ve mevcut bir ses dosyasını alarak onlardan gerçek zamanlı olarak gerçekçi bir konuşan yüz oluşturabilen yeni bir deneysel yapay zeka aracı. Mevcut bir hareketsiz görüntü için yüz ifadeleri ve baş hareketleri ve bir konuşmaya veya şarkıya uyacak uygun dudak […]

Haber Nisan 21, 2024 210 Okuma Listesine Ekle

Microsoft’un AI aracı, fotoğrafları konuşan ve şarkı söyleyen insanların gerçekçi videolarına dönüştürebilir

Microsoft Research Asia’nın sahip olduğu açıklanmış VASA-1 adı verilen, bir kişinin hareketsiz görüntüsünü veya bir çizimini ve mevcut bir ses dosyasını alarak onlardan gerçek zamanlı olarak gerçekçi bir konuşan yüz oluşturabilen yeni bir deneysel yapay zeka aracı. Mevcut bir hareketsiz görüntü için yüz ifadeleri ve baş hareketleri ve bir konuşmaya veya şarkıya uyacak uygun dudak hareketlerini oluşturma yeteneğine sahiptir. Araştırmacılar proje sayfasına tonlarca örnek yüklediler ve sonuçlar, insanları bunların gerçek olduğuna inandıracak kadar iyi görünüyor.

Örneklerdeki dudak ve kafa hareketleri, daha yakından incelendiğinde hâlâ biraz robotik ve uyumsuz görünse de, teknolojinin gerçek insanların derin sahte videolarını kolay ve hızlı bir şekilde oluşturmak için kötüye kullanılabileceği hala açık. Araştırmacıların kendisi de bu potansiyelin farkındadır ve teknolojilerinin “sorumlu bir şekilde ve uygun şekilde kullanılacağından” emin olana kadar “çevrimiçi bir demo, API, ürün, ek uygulama ayrıntıları veya ilgili teklifleri” yayınlamamaya karar vermiştir. düzenlemeler.” Ancak kötü aktörlerin bunları derin sahte porno veya yanlış bilgilendirme kampanyaları oluşturmak gibi kötü amaçlarla kullanmasını önlemek için belirli önlemleri uygulamayı planlayıp planlamadıklarını söylemediler.

Araştırmacılar, kötüye kullanım potansiyeline rağmen teknolojilerinin tonlarca faydası olduğuna inanıyor. Bunun, eğitimde eşitliği artırmak ve ayrıca iletişim sorunu yaşayanlar için erişilebilirliği artırmak için kullanılabileceğini, belki de onlara kendileri için iletişim kurabilecek bir avatara erişim sağlayarak kullanılabileceğini söylediler. VASA-1’in, ihtiyaç duyanlar için arkadaşlık ve terapötik destek de sağlayabileceğini söyleyerek, VASA-1’in insanların konuşabileceği AI karakterlerine erişim sunan programlarda kullanılabileceğini ima ettiler.

Göre kağıt Duyuruyla birlikte yayınlanan VASA-1, YouTube videolarından çıkarılan “6.112 ünlüye ait 1 milyonun üzerinde ifadeyi” içeren VoxCeleb2 Veri Seti üzerinde eğitildi. Araç gerçek yüzler üzerinde eğitilmiş olsa da, araştırmacıların Lil Wayne’in Anne Hathaway’in viral yorumunu içeren bir ses dosyasıyla eğlenceli bir şekilde birleştirdiği Mona Lisa gibi sanatsal fotoğraflar üzerinde de çalışıyor. Paparazziler. O kadar keyifli ki, böyle bir teknolojinin neler yapabileceğinden şüphe duysanız bile izlemeye değer.