Mountain View, Techfin.id – Google kembali menggebrak dunia teknologi dengan memperkenalkan Veo 3, model AI terbaru yang mampu menghasilkan video berdurasi panjang dari perintah teks, lengkap dengan audio dialog, efek suara, dan ambient sound yang otomatis disusun oleh sistem.
Langkah ini memperkuat posisi Google dalam perlombaan teknologi video AI generatif, sebuah ranah yang makin ramai sejak kemunculan Sora dari OpenAI dan Model 3D dari Meta.
Google Veo 3: Lompatan Besar dalam Video AI
Veo 3 hadir sebagai generasi terbaru dari keluarga model video AI Google yang sebelumnya dikenal melalui Imagen Video dan Lumiere.
Berbeda dari pendahulunya, Veo 3 tidak hanya menyajikan peningkatan kualitas gambar, tetapi juga mengintegrasikan suara secara otomatis sesuai dengan konteks video yang dihasilkan.
Fitur unggulan ini membuat Veo 3 mampu menciptakan pengalaman visual yang lebih hidup dan sinematik, menjadikannya sebagai salah satu teknologi paling menjanjikan di bidang produksi video berbasis kecerdasan buatan.
Dukungan untuk Sinematik dan Kamera Virtual
Dalam presentasi di ajang Google I/O 2024, raksasa teknologi ini menampilkan beragam kemampuan sinematik dari Veo 3.
Pengguna dapat menentukan gaya video, seperti time-lapse, aerial shots, slow motion, hingga arahan kamera seperti zoom in dan pan hanya melalui perintah teks.
Model ini memanfaatkan pemahaman mendalam terhadap bahasa alami serta teknik difusi video untuk menciptakan hasil visual yang tajam dan konsisten.
Ini merupakan perpaduan antara kekuatan AI multimodal dan estetika sinematik, yang sebelumnya sulit dicapai oleh teknologi generatif.
Audio Realistis: Suara yang Menyatu dengan Gambar
Salah satu terobosan utama Veo 3 adalah kemampuannya dalam menghasilkan suara latar secara otomatis, termasuk dialog antar karakter.
Ini menjadikan proses pembuatan video lebih ringkas, karena pengguna tak perlu lagi menambahkan suara secara manual melalui proses pasca-produksi.
Before you ask: yes, everything is AI here. The video and sound both coming from a single text prompt using #Veo3 by @GoogleDeepMind .Whoever is cooking the model, let him cook! Congrats @Totemko and the team for the Google I/O live stream and the new Veo site! pic.twitter.com/sxZuvFU49s
— László Gaál (@laszlogaal_) May 21, 2025
Menurut Google, Veo 3 secara kontekstual memahami isi video dan menyesuaikan suara yang cocok—baik itu langkah kaki di jalanan, deburan ombak, atau percakapan antar tokoh dalam adegan.
Semua bisa dihasilkan tanpa perlu input audio tambahan.
Kolaborasi Kreator dengan Google DeepMind
Saat ini, Google membuka akses Veo 3 secara terbatas untuk komunitas kreator melalui program VideoFX.
Sejumlah pembuat film, animator, hingga pegiat konten visual telah diajak mencoba kemampuan model ini dalam proses kreatif mereka.
Salah satunya adalah sutradara pemenang Oscar, Donald Glover. Dalam kolaborasinya, Glover mengungkapkan bahwa teknologi ini membuka pendekatan baru dalam berkarya.
“Ini bukan sekadar alat baru, tapi cara berpikir baru dalam membuat cerita visual,” ungkapnya dalam sesi video bersama tim DeepMind.
Selain Glover, animator dan seniman visual dari berbagai latar belakang juga disebut ikut serta dalam eksperimen terbatas ini.
Arah Masa Depan: Integrasi Gemini dan Ruang Etis AI
Google mengonfirmasi bahwa Veo 3 akan diintegrasikan dengan Gemini, model AI multimodal milik perusahaan yang juga menjadi otak dari beragam fitur pintar di ekosistem Google Workspace.
Namun, perusahaan juga menegaskan bahwa teknologi ini dibangun dengan memprioritaskan etika dan keamanan, termasuk pelatihan model dengan data yang dilisensikan dan terbuka, serta penerapan watermark digital SynthID dari DeepMind untuk menandai konten AI.
“Kami memahami bahwa kekuatan besar harus disertai tanggung jawab besar,” ujar tim Google AI dalam pernyataannya.
Veo 3 vs Sora: Siapa yang Lebih Unggul?
Kemunculan Veo 3 tak pelak langsung dibandingkan dengan Sora, model video AI milik OpenAI yang lebih dulu menghebohkan publik.
Namun, Veo 3 unggul dalam satu hal yang belum dimiliki Sora: audio realistis yang otomatis dihasilkan bersama video.
Sementara Sora mengesankan dari sisi visual dan kemampuan memahami fisika, Veo 3 tampil sebagai model yang lebih utuh secara sensorik, menggabungkan gambar dan suara dalam satu proses generatif.
Hal ini membuat Veo 3 menjadi opsi yang lebih menjanjikan bagi industri kreatif yang mengandalkan narasi audiovisual secara bersamaan.
Google dan Peta Kompetisi AI Generatif
Dengan peluncuran Veo 3, Google menambah panjang daftar inovasi mereka di bidang AI generatif, menyusul Gemini untuk teks dan gambar, serta MusicLM untuk pembuatan musik.
Dalam lanskap persaingan yang melibatkan OpenAI, Meta, hingga Anthropic, Google kini menunjukkan bahwa mereka tak sekadar ikut-ikutan, tetapi memimpin dalam beberapa aspek.
Google juga menekankan bahwa mereka akan terus membuka akses bertahap sambil memantau dampak dan potensi penyalahgunaan teknologi ini, mengingat kekhawatiran global tentang deepfake dan disinformasi yang bisa dimanfaatkan melalui video AI.
Masa Depan Produksi Video Sudah Dimulai
Dengan semua fitur canggih yang ditawarkan, Veo 3 menjadi salah satu produk teknologi paling revolusioner dari Google dalam beberapa tahun terakhir.
Ia bukan hanya alat bantu, tapi bisa menjadi teman kolaboratif bagi para pembuat konten di era digital.
Kamu bisa membaca artikel lainnya seputar teknologi AI di kategori teknologi atau mengikuti update perkembangan terbaru dari Google lewat tag Google.
Untuk informasi teknis lebih lanjut tentang Veo 3, kamu juga bisa mengakses langsung dokumentasi dari Google DeepMind.
Komentari lewat Facebook