Anında video, AI teknolojisindeki bir sonraki sıçramayı temsil edebilir

FreeDoom · 5 Nis 2023

Runway AI adlı New York girişiminde yazılım mimarı olan Ian Sansavera, bir videoda görmek istediği şeyin kısa bir açıklamasını yazdı. “Ormanda sakin bir nehir” diye yazdı.

İki dakikadan kısa bir süre sonra, deneysel bir web hizmeti, ormandaki sakin bir nehrin kısa bir videosunu oluşturdu. Nehrin akan suyu, ağaçların ve eğrelti otlarının arasından geçerken güneşte parıldadı, bir köşeyi döndü ve kayaların üzerinden yavaşça geçti.

Bu hafta hizmetini küçük bir test kullanıcı grubuna açmayı planlayan Runway, yakında insanların bilgisayar ekranındaki bir girişteki bir kutuya birden fazla kelime girerek videolar oluşturmasına olanak tanıyacak yapay zeka teknolojisini geliştiren birkaç şirketten biri.

Microsoft ve Google gibi devlerin yanı sıra çok daha küçük girişimlerin dahil olduğu, bazılarının teknolojideki bir sonraki büyük şey olacağına inandıkları yeni tür yapay zeka sistemleri geliştirmek için web tarayıcıları kadar önemli olabileceğine inandıkları bir endüstri yarışında bir sonraki aşamayı temsil ediyorlar. Iphone.

Yeni video oluşturma sistemleri, film yapımcılarının ve diğer dijital sanatçıların çalışmalarını hızlandırırken, çevrimiçi olarak tespit edilmesi zor yanlış bilgi oluşturmanın yeni ve hızlı bir yolu haline gelebilir ve çevrimiçi ortamda neyin gerçek olduğunu söylemeyi daha da zorlaştırabilir.

Sistemler, anında metin, görüntü ve ses oluşturabilen üretken yapay zeka olarak bilinen şeyin örnekleridir. Başka bir örnek de, geçen yılın sonlarında yetenekleriyle teknoloji endüstrisini hayrete düşüren San Francisco merkezli OpenAI şirketinin çevrimiçi sohbet robotu ChatGPT.

Google ve Facebook’un ana şirketi Meta, geçen yıl ilk video oluşturma sistemlerini tanıttı, ancak sistemlerin sonunda yeni keşfedilen hız ve verimlilikle dezenformasyon yaymak için kullanılabileceğinden korktukları için bunları herkese açık olarak paylaşmadılar.

Ancak Runway CEO’su Cristóbal Valenzuela, risklerine rağmen teknolojinin bir araştırma laboratuvarında tutulamayacak kadar önemli olduğuna inandığını söyledi. “Bu, son yüz yılda inşa ettiğimiz en etkileyici teknolojilerden biri” dedi. “Gerçekten kullanan insanlara sahip olmalısınız.”

Filmleri ve videoları düzenleme ve manipüle etme yeteneği elbette yeni bir şey değil. Film yapımcıları bunu bir asrı aşkın süredir yapıyor. Son yıllarda, araştırmacılar ve dijital sanatçılar, genellikle derin sahte videolar olarak adlandırılan videolar oluşturmak ve düzenlemek için çeşitli AI teknolojilerini ve yazılım programlarını kullandılar.

Ancak, Runway’in geliştirdiği gibi sistemler, zamanla tek düğmeli düzenleme yeteneklerinin yerini alabilir.

Yeni nesil sohbet robotları

5 haritadan 1

Cesur yeni bir dünya. Yapay zekadan güç alan yeni nesil sohbet robotları, teknolojinin internet ekonomisini alt üst edip edemeyeceğini, günümüzün güç merkezlerini geçmişe dönüştürüp endüstrinin yeni devlerini yaratıp yaratmayacağını görmek için bir kapışmaya yol açtı. İşte bilmeniz gereken botlar:

ChatGPT. Araştırma laboratuvarı OpenAI tarafından geliştirilen yapay zeka dil modeli ChatGPT, karmaşık soruları yanıtlama, şiir yazma, kod oluşturma, tatil planlama ve dilleri çevirme becerisiyle Kasım ayından bu yana manşetlerde yer alıyor. Mart ortasında kullanıma sunulan en son sürüm olan GPT-4, görüntülere bile yanıt verebilir (ve Tek Tip Çubuk Sınavını geçebilir).

Am. ChatGPT’nin ilk çıkışından iki ay sonra OpenAI’nin lider yatırımcısı ve ortağı Microsoft, internet arama motoru Bing’e neredeyse her konuda açık metin konuşmaları yapabilen benzer bir sohbet robotu ekledi. Ancak, piyasaya sürüldükten sonra çok fazla dikkat çeken şey, botun zaman zaman yanlış, yanıltıcı ve garip tepkileri oldu.

ernie Arama devi Baidu, Çin’in ilk büyük rakibini Mart ayında ChatGPT’ye sundu. Gelişmiş Temsil Yoluyla Bilgi Entegrasyonunun kısaltması olan Ernie’nin ilk çıkışı, botun vaat edilen “canlı” bir gösteriminin kaydedildiğinin ortaya çıkmasının ardından bir fiyaskoyla sonuçlandı.

Runway’in teknolojisi, herhangi bir kısa açıklamadan videolar oluşturur. Başlamak için, kısa bir not girdiğiniz gibi bir açıklama girin.

Bu, “büyük şehirde yağmurlu bir gün” veya “parkta cep telefonu olan bir köpek” gibi sahnede biraz aksiyon olduğunda – ama çok fazla aksiyon olmadığında – en iyi sonucu verir. Enter tuşuna basın ve sistem bir veya iki dakika içinde bir video oluşturacaktır.

Teknoloji, halının üzerinde uyuyan bir kedi gibi yaygın görüntüleri yeniden üretebilir. Ya da doğum günü partisindeki inek gibi garip bir şekilde eğlenceli videolar oluşturmak için farklı kavramları birleştirebilir.

Videolar sadece dört saniye uzunluğunda ve yakından bakarsanız video dalgalı ve bulanık. Bazen görüntüler garip, bozuk ve rahatsız edici olabilir. Sistem, köpek ve kedi gibi hayvanları top ve cep telefonu gibi cansız nesnelerle birleştirme yoluna sahiptir. Ancak doğru yönlendirme ile teknolojinin nereye gittiğini gösteren videolar üretir.

Massachusetts Institute of Technology’de AI profesörü olan Phillip Isola, “Bu noktada yüksek tanımlı video görürsem, muhtemelen ona güveneceğim” dedi. “Ama bu oldukça hızlı bir şekilde değişecek.”

Diğer üretken AI teknolojileri gibi, Runway’in sistemi de dijital verileri analiz ederek öğrenir – bu durumda fotoğraflar, videolar ve bu görüntülerin ne içerdiğini açıklayan alt yazılar. Araştırmacılar, bu tür bir teknolojiyi sürekli artan miktarda veri üzerinde eğiterek, becerilerini hızla geliştirebileceklerinden ve genişletebileceklerinden emindir. Uzmanlar, yakında profesyonel görünümlü, müzikli ve diyaloglu mini filmler yapacaklarına inanıyorlar.

Sistemin şu anda ne yarattığını tanımlamak zordur. Bu bir fotoğraf değil. Bu bir çizgi film değil. Gerçekçi bir video oluşturmak için bir araya getirilen birçok pikselden oluşan bir koleksiyondur. Şirket, teknolojisini profesyonel sanatçıların işini hızlandıracağına inandığı diğer araçlarla birlikte sunmayı planlıyor.

Geçen ay, sosyal medya hizmetleri, Papa Francis’in beyaz bir Balenciaga kirpi mantosu giymiş – 86 yaşındaki bir papa için şaşırtıcı derecede modaya uygun bir kıyafet – fotoğraflarıyla doluydu. Ama resimler gerçek değildi. 31 yaşındaki bir Chicago inşaat işçisi, Midjourney adlı popüler bir yapay zeka aracını kullanarak viral sansasyonu yarattı.

doktor Isola, önce UC Berkeley’de ve OpenAI’de araştırmacı olarak ve ardından MIT’de profesör olarak bu tür bir teknolojiyi inşa etmek ve test etmek için yıllarını harcadı. Yine de, Papa Francis’in keskin, yüksek çözünürlüklü ama tamamen sahte görüntülerine aldandı.

“İnsanların derin sahtekarlıklar yayınladığı ve çok tuhaf oldukları veya çok gerçekçi olmadıkları için beni kandırmak istemedikleri bir zaman vardı” dedi. “Artık internette gördüğümüz görüntülerin hiçbirini göründüğü gibi alamıyoruz.”

Midjourney, kısa bir komut isteminden gerçekçi hareketsiz görüntüler üretebilen birçok hizmetten biridir. Diğerleri arasında, bir yıl önce piyasaya sürüldüğünde bu fotojeneratör dalgasını başlatan bir OpenAI teknolojisi olan Stable Diffusion ve DALL-E yer alıyor.

Midjourney, muazzam miktarda veriyi analiz ederek becerilerini öğrenen bir sinir ağına dayanır. Temsil edilen görüntüleri açıklayan metin başlıklarının yanı sıra milyonlarca dijital görüntüyü tararken kalıpları arar.

Birisi sistem için bir görüntüyü tanımladığında, görüntünün içerebileceği özelliklerin bir listesi yapılır. Bir özellik, bir köpeğin kulağının ucundaki eğri olabilir. Bir diğeri cep telefonunun kenarı olabilir. Ardından difüzyon modeli adı verilen ikinci bir sinir ağı görüntüyü oluşturur ve özellikler için gerekli pikselleri üretir. Sonunda pikselleri tutarlı bir görüntüye dönüştürür.

Yaklaşık 40 kişiyi istihdam eden ve 95,5 milyon dolar toplayan Runway gibi şirketler, hareketli görüntüler oluşturmak için bu tekniği kullanıyor. Teknolojileri, binlerce videoyu analiz ederek birçok durağan görüntüyü benzer şekilde tutarlı bir şekilde bir araya getirmeyi öğrenebilir.

Valenzuela, “Video, hareket yanılsaması yaratmak için birleştirilen bir dizi kareden -hareketsiz görüntülerden- ibarettir” dedi. “İşin püf noktası, her bir çerçeve arasındaki ilişkiyi ve tutarlılığı anlayan bir model yetiştirmektir.”

DALL-E ve Midjourney gibi araçların ilk sürümleri gibi, teknoloji de bazen kavramları ve görüntüleri tuhaf şekillerde birleştirir. Basketbol oynayan bir oyuncak ayı hakkında soru sorarsanız, bir eli basketbol olan mutasyona uğramış bir tür doldurulmuş hayvan olabilir. Parkta cep telefonu olan bir köpek isterseniz, garip bir insan vücuduna sahip, cep telefonu kullanan bir köpek yavrusu alabilirsiniz.

Ancak uzmanlar, sistemlerini daha fazla veriyle eğitirlerse hataları düzeltebileceklerine inanıyorlar. Teknolojinin sonunda bir video oluşturmayı bir cümle yazmak kadar kolay hale getireceğine inanıyorlar.

“Daha önce, böyle bir şeyi uzaktan yapmak için bir kameraya ihtiyacınız vardı. Sahne donanımına sahip olmak zorundaydın. Bir yere sahip olmaları gerekiyordu. İzin alman gerekiyordu. Üretken video teknolojisinin erken enkarnasyonları üzerinde deneyler yapan Pensilvanya merkezli bir yazar ve yayıncı olan Susan Bonser, “Paranızın olması gerekiyordu” dedi. “Artık bunların hiçbirine sahip olmak zorunda değilsin. Oturup hayal edebilirsiniz.”

Anında video, AI teknolojisindeki bir sonraki sıçramayı temsil edebilir

FreeDoom

New member