Alibaba’nın AI video oluşturucusu, Sora hanımına şarkı söyleterek Sora’ya daldı

Alibaba, yeni AI video oluşturucusunu OpenAI’nin Sora’sıyla karşılaştırmanızı istiyor. Aksi halde neden bunu Sora’nın en ünlü eserini bir Dua Lipa şarkısı yapmak için kullanasınız ki? Salı günü, Çin’in e-ticaret devlerinden Alibaba’nın bünyesinde yer alan “Akıllı Hesaplama Enstitüsü” adlı bir kuruluş, bir rapor yayınladı. kağıt Yüzlerin hareketsiz görüntülerini etkileyici oyunculara ve karizmatik şarkıcılara dönüştürme konusunda şaşırtıcı […]

Alibaba’nın AI video oluşturucusu, Sora hanımına şarkı söyleterek Sora’ya daldı

Alibaba, yeni AI video oluşturucusunu OpenAI’nin Sora’sıyla karşılaştırmanızı istiyor. Aksi halde neden bunu Sora’nın en ünlü eserini bir Dua Lipa şarkısı yapmak için kullanasınız ki?

Salı günü, Çin’in e-ticaret devlerinden Alibaba’nın bünyesinde yer alan “Akıllı Hesaplama Enstitüsü” adlı bir kuruluş, bir rapor yayınladı. kağıt Yüzlerin hareketsiz görüntülerini etkileyici oyunculara ve karizmatik şarkıcılara dönüştürme konusunda şaşırtıcı derecede iyi olan, geliştirdiği ilgi çekici yeni bir yapay zeka video oluşturucu hakkında. Sistemin adı EMO’dur ve sözde “Duygusal Canlı Portre” kelimesinden türetilen eğlenceli bir arka isimdir (ama bu durumda neden “EPO” olarak adlandırılmıyor?).

EMO, Sora gibi bir sistemin video dünyaları oluşturduğu ve video dünyaları oluşturduğu bir geleceğe bir bakış. çekici dilsiz insanlar sadece birbirlerine bakıyorlarBu yapay zeka yaratımlarındaki “aktörler” bir şeyler söylüyor, hatta şarkı söylüyor.

Alibaba, yeni video oluşturma çerçevesini göstermek için GitHub’a demo videoları koydu. Bunlar arasında, yağmur fırtınasının hemen ardından AI tarafından üretilen Tokyo’da dolaşmasıyla ünlü Sora hanımının Dua Lipa’nın “Don’t Start Now” şarkısını söylediği ve onunla oldukça eğlenceli hale geldiği bir video da yer alıyor.

Demolar aynı zamanda EMO’nun, bir örnek vermek gerekirse, Audrey Hepburn’ün viral bir klibindeki sesi nasıl konuşturabileceğini de ortaya koyuyor. RiverdaleLili Reinhart ağlamayı ne kadar sevdiğini anlatıyor. Bu klipte Hepburn’ün kafası asker benzeri dik bir pozisyonda duruyor, ancak sadece ağzı değil tüm yüzü sesteki kelimeleri gerçekten yansıtıyor gibi görünüyor.

AYRICA BAKINIZ:

Sora ne üzerine eğitildi? Yaratıcılar yanıtlar ister.

Hepburn’ün bu tekinsiz versiyonunun aksine, Reinhart orijinal klipte kafasını çok fazla hareket ettiriyor ve aynı zamanda oldukça farklı duygular ifade ediyor, bu nedenle EMO, 2010’ların ortasında viral hale gelen ve 2017’de deepfake’lerin yükselişi.

Geçtiğimiz birkaç yılda, sesten yüz animasyonu oluşturmak için tasarlanan uygulamalar ortaya çıktı, ancak o kadar da ilham verici olmadılar. Örneğin, NVIDIA Omniverse yazılım paketi, bir uygulamanın tanıtımını yapıyor. sesten yüze animasyon çerçevesi “Audio2Face” adı verilen bu teknoloji, EMO gibi fotogerçekçi videolar oluşturmak yerine çıktıları için 3D animasyona dayanıyor.

Audio2Face yalnızca iki yaşında olmasına rağmen, EMO demosu onu antika gibi gösteriyor. Konuşurken duyguları taklit etme yeteneğini gösterdiği iddia edilen videoda, tasvir edilen 3 boyutlu yüz daha çok yüz ifadesi maskesi takmış bir kuklaya benziyor, EMO’nun karakterleri ise her ses klibinde karşılaşılan karmaşık duyguların tonlarını ifade ediyor gibi görünüyor. .

Bu noktada, Sora’da olduğu gibi, bu AI çerçevesini yaratıcıları tarafından sağlanan bir demoya dayanarak değerlendirdiğimizi ve aslında test edebileceğimiz kullanışlı bir sürüme sahip olmadığımızı belirtmekte fayda var. Bu nedenle, bu yazılımın, önemli bir deneme yanılma ya da göreve özgü ince ayar olmadan, sese dayalı bu kadar ikna edici insan yüzü performanslarını kapıdan dışarı çıkarabileceğini hayal etmek zor.

Demolardaki karakterler çoğunlukla aşırı duyguları gerektiren konuşmalar yapmıyorlar (örneğin, öfkeyle buruşmuş yüzler veya gözyaşları içinde eriyen yüzler) bu nedenle, EMO’nun yalnızca ses rehberliğiyle ağır duyguları nasıl ele alacağını zaman gösterecek. . Dahası, Çin’de üretilmiş olmasına rağmen, İngilizce ve Korece’nin seslerini alabilen ve yüzleri – mükemmel olmasa da – aslına uygun bir şekilde uygun fonemleri oluşturabilen tam bir çok dilli olarak tasvir ediliyor. Yani başka bir deyişle, daha az bilinen bir dili konuşan çok kızgın bir kişinin sesini EMO’ya koyarsanız ne kadar iyi performans gösterdiğini görmek güzel olurdu.

Ayrıca, yalnızca dudakların hareket ettiği anlardan ziyade duraklamalara duygu katan ifadeler arasındaki küçük süslemeler (büzülmüş dudaklar veya aşağı doğru bir bakış) da büyüleyici. Bunlar gerçek bir insan yüzünün nasıl duygu ifade ettiğine dair örneklerdir ve EMO’nun bu kadar sınırlı bir demoda bile bunları bu kadar doğru bir şekilde gerçekleştirdiğini görmek heyecan verici.

Makaleye göre EMO’nun modeli, bu kadar gerçekçi bir şekilde ifade etmek için gerekli referans noktalarını vermek üzere geniş bir ses ve video veri kümesine (bir kez daha: nereden?) dayanıyor. Ve yayılmaya dayalı yaklaşımı, görünüşe göre işin bir kısmını 3 boyutlu modellerin üstlendiği bir ara adımı içermiyor. A referans-dikkat mekanizması ve ayrı işitsel dikkat mekanizması yüz animasyonları seste karşılaşılanlarla eşleşen ve sağlanan temel görüntünün yüz özelliklerine sadık kalan animasyonlu karakterler sağlamak için EMO modeliyle eşleştirilir.

Etkileyici bir demo koleksiyonudur ve onları izledikten sonra bundan sonra ne olacağını hayal etmemek imkansızdır. Ancak oyuncu olarak para kazanıyorsanız, çok fazla hayal kurmamaya çalışın çünkü işler oldukça çabuk rahatsız edici hale geliyor.

Konular
Yapay zeka

Teknory