Spoiler Uyarısı: Yapay Zeka Sahnelerin Nasıl Oynanacağını Tahmin Edebilir

{h1}

Yeni bir yapay zeka sistemi, yeni bir araştırmaya göre, insanların bir sahnenin nasıl evrim geçireceğini görsel olarak hayal edebileceklerine benzeyen, daha sonra neler olduğunu simüle eden kısa videolar oluşturabilirler.

Yeni bir yapay zeka sistemi, yeni bir araştırmaya göre, insanların bir sahnenin nasıl evrim geçireceğini görsel olarak hayal edebileceklerine benzeyen, daha sonra neler olduğunu simüle eden kısa videolar oluşturabilirler.

İnsanlar, dünyanın nasıl işlediğini sezgisel olarak anlıyor, bu da makinelerin aksine insanların sahnenin nasıl oynayacağını öngörmesini kolaylaştırıyor. Ancak, araştırmacılar, hareketsiz görüntüdeki nesnelerin farklı şekillerde hareket edebildiğini ve etkileşimde bulunabildiğini, makinelerin bu başarıyı başarması için çok zorlaştıracağını söyledi. Ancak yeni, sözde derin bir öğrenme sistemi, insanlara gerçek çekimle karşılaştırıldığında zamanın yüzde 20'sini kandırmayı başardı.

Massachusetts Institute of Technology'de (MIT) araştırmacılar, gerçek videoları makineden üretilenlerden ayırmaya çalışırken, diğeri de ilk sistemi kandıracak kadar gerçekçi videolar oluşturmaya çalışırken birbirleriyle iki sinir ağını birbirine bağladı. [Süper-Akıllı Makineler: 7 Robotik Vadeli İşlemler]

Bu tür bir kurulum, “üretken rekabet ağı” (GAN) olarak bilinir ve sistemler arasındaki rekabet giderek gerçekçi videolarla sonuçlanır. Araştırmacılar, Amazon'un Mekanik Türk kitle iletişim platformunda çalışanlara hangi videoların gerçek olduğunu seçtiklerini sorduğunda, kullanıcılar makinanın oluşturduğu videoları gerçek zamanların yüzde 20'sini seçti.

Erken aşamalar

Yine de, film yönetmenleri muhtemelen işlerini devralacak makineler hakkında çok fazla endişelenmek zorunda değil - videolar sadece 1 ila 1.5 saniye uzunluğunda ve 64 x 64 piksel çözünürlükte yapıldı. Ancak araştırmacılar, bu yaklaşımın robotların ve kendi kendini süren araçların dinamik ortamlarda gezinmesine ve insanlarla etkileşime girmesine ya da Facebook'un videoların etiketlerini etiketler ile otomatik olarak etiketlemesine izin verebileceğini söyledi.

“Algoritmamız, geleceğin nasıl görüneceğini düşündüğünün makul bir gerçekçi videosunu oluşturabilir, ki bu da şu anda neler olduğunu anladığını gösterir” diyen Carl Vondrick, Ph.D. Araştırmaya katılan MIT'nin Bilgisayar Bilimi ve Yapay Zeka Laboratuvarı öğrencisi. "Çalışmamız, bilgisayar bilimcilerin makinelerini çok daha gelişmiş durumsal anlayışla aşılayabileceklerini öne süren cesaret verici bir gelişmedir."

Araştırmacılar, sistemin denetimsiz öğrenmeyi de mümkün olduğunu söyledi. Bu, sistemin eğitildiği yaklaşık bir yıllık video çekimlerine denk olan iki milyon videonun, bir insan tarafından etiketlenmesinin gerekmediği anlamına geliyor. Bu, geliştirme süresini önemli ölçüde azaltıyor ve yeni verilere uyarlanabiliyor.

Araştırmacılar, İspanya'nın Barselona kentinde 5-10 Aralık tarihleri ​​arasında gerçekleşen Nöral Bilgi İşlem Sistemleri (NIPS) konferansında sunulacak olan bir çalışmada, plajları, tren istasyonlarını kullanarak sistemi nasıl eğittiklerini açıkladı. hastaneler ve golf sahaları.

Vondrick WordsSideKick.com'a yaptığı açıklamada, "İlk prototiplerde keşfettiğimiz bir meydan okuma, modelin arka planın çözüleceğini ve deforme olacağını tahmin etmesiydi." Bunun üstesinden gelmek için, sistemi, sistemi statik bir arka plan için ayrı modeller öğrenip, videoyu üretmek için birleştirmeden önce ön plana hareket ettirecek şekilde düzenlediler.

AI film yapımcıları

MIT ekibi, sıfırdan video oluşturmak için yapay zeka kullanmaya çalışan ilk kişi değil. Ancak, daha önceki yaklaşımlar kareye kadar video hazırlamaya meyilliydi, araştırmacılar hataların her aşamada birikmesine izin verdiğini söyledi. Bunun yerine, yeni yöntem tüm sahneyi aynı anda işler - normalde bir seferde 32 kare.

GAN'ı icat eden kar amacı gütmeyen kuruluş OpenAI'de bir araştırma uzmanı olan Ian Goodfellow, bu alanda daha önce çalışmakta olan sistemlerin hem keskin görüntüler hem de bu yaklaşımın yaptığı gibi hareket edemediğini söyledi. Ancak, Google'ın DeepMind AI araştırma birimi tarafından geçen ay Video Pixel Networks (VPN) adı verilen yeni bir yaklaşımın hem keskin görüntüler hem de hareketler üretebileceğini ekledi. [Şimdiye kadar 6 Garip Robotlar]

WordsSideKick.com'a “GAN'larla kıyaslandığında, VPN'nin eğitilmesi daha kolay, ancak bir video oluşturmak için daha uzun sürüyor” dedi. "VPN, bir seferde video bir piksel oluşturmalıdır, GAN'lar aynı anda birçok piksel oluşturabilir."

Vondrick ayrıca, yaklaşımlarının web'den alıntılanan videolar gibi daha zorlu veriler üzerinde çalıştığına dikkat çekerken VPN, sıçrayan rakamları veya robot silahlarını gösteren videoların özel olarak tasarlanmış karşılaştırmalı eğitim setlerinde gösterildi.

Ancak sonuçlar mükemmel olmaktan uzaktır. Çoğu zaman, ön plandaki nesneler gerekenden daha büyük görünürler ve araştırmacılar, görüntülerde bulanık görüntü lekeleri olarak görünebilirler. Nesneler bir sahneden de kaybolabilir ve diğerleri hiçbir yerden görünebilir, eklediler.

Vondrick, "Bilgisayar modeli dünya hakkında hiçbir şey bilmeden başlıyor. İnsanların neye benzediğini, nesnelerin nasıl hareket ettiğini ve neler olabileceğini öğrenmek zorunda." Dedi. "Model henüz bu şeyleri tam olarak öğrenemedi. Nesneler gibi üst düzey kavramları anlama yeteneğini genişletmek, nesiller boyunca dramatik bir şekilde gelişecektir."

İleriye doğru hareket eden bir diğer büyük zorluk ise, daha uzun videolar oluşturmak olacaktır. Çünkü Vondrick'e göre bu, sistemin sahne içindeki nesneler ile daha uzun bir süre daha fazla ilişki kurmasını gerektirecektir.

“Bunu aşmak için, sistemin kendi başına öğrenmesi zor olan sahnenin unsurlarını anlamasına yardımcı olmak için insan girdisi eklemek iyi olabilir” dedi.

Canlı Bilim ile ilgili orijinal makale.


Video Takviyesi: .




TR.WordsSideKick.com
Her Hakkı Saklıdır!
Herhangi Bir Malzemenin Çoğaltılabilir Sadece Siteye Aktif Linki Prostanovkoy TR.WordsSideKick.com

© 2005–2019 TR.WordsSideKick.com