Meta Rilis SAM Audio, AI Multimodal untuk Pemisahan Audio
- Rita Puspita Sari
- •
- 23 jam yang lalu
Ilustrasi AI Audio
Perkembangan kecerdasan buatan terus menghadirkan inovasi yang mengubah cara manusia berinteraksi dengan teknologi. Setelah sebelumnya Meta menghadirkan Segment Anything Model (SAM) yang merevolusi dunia visi komputer—memungkinkan siapa saja melakukan segmentasi objek apa pun di gambar dan video—kini terobosan serupa hadir di ranah audio. Inovasi tersebut bernama SAM Audio, sebuah model multimodal terpadu pertama yang dirancang khusus untuk memisahkan suara secara fleksibel, intuitif, dan presisi tinggi.
SAM Audio membawa pendekatan baru dalam pemrosesan audio. Jika sebelumnya pemisahan suara sering kali memerlukan perangkat lunak khusus, keahlian teknis, atau pengaturan rumit, SAM Audio memungkinkan pengguna memisahkan suara hanya dengan perintah alami. Pengguna dapat menggunakan teks, petunjuk visual, atau bahkan penandaan rentang waktu untuk menentukan suara mana yang ingin diambil atau dihilangkan dari sebuah rekaman audio yang kompleks. Pendekatan ini meniru cara manusia memahami suara dalam kehidupan sehari-hari, sehingga teknologi menjadi lebih mudah diakses dan praktis.
PE-AV: “Telinga” di Balik Kecerdasan SAM Audio
Di balik kecanggihan SAM Audio, terdapat komponen inti bernama Perception Encoder Audiovisual (PE-AV). Komponen ini berperan sebagai mesin utama yang mendorong kinerja tinggi SAM Audio. PE-AV dikembangkan dari model open source Perception Encoder yang sebelumnya telah diperkenalkan Meta, lalu diperluas kemampuannya agar mampu memahami dan mengodekan suara.
Agar lebih mudah dipahami, PE-AV dapat dianalogikan sebagai “telinga”, sementara SAM Audio berfungsi sebagai “otak”. PE-AV bertugas menangkap dan memahami sinyal audio serta visual, lalu SAM Audio memproses informasi tersebut untuk melakukan segmentasi suara secara akurat. Kombinasi ini memungkinkan berbagai skenario penggunaan yang sebelumnya sulit dibayangkan.
Sebagai contoh, dalam sebuah video penampilan band musik, pengguna cukup mengklik gitar yang terlihat di layar, maka SAM Audio dapat secara otomatis memisahkan suara gitar dari instrumen lain. Begitu pula dengan penggunaan perintah teks, seperti “hilangkan suara kendaraan”, untuk membersihkan kebisingan lalu lintas dari video yang direkam di luar ruangan. Bahkan, dengan fitur span prompt, pengguna dapat menandai rentang waktu tertentu untuk memperbaiki masalah audio secara menyeluruh, misalnya menghilangkan suara gonggongan anjing yang muncul berulang kali sepanjang rekaman podcast.
Membuka Peluang Baru untuk Kreativitas Digital
Meta melihat SAM Audio sebagai fondasi penting dalam pengembangan generasi baru alat media kreatif. Potensi penggunaannya sangat luas, mulai dari pembersihan audio, penghilangan noise latar belakang, hingga peningkatan kualitas konten audio dan video secara keseluruhan. Kreator konten, jurnalis, podcaster, musisi, hingga pengembang aplikasi dapat memanfaatkan teknologi ini untuk bekerja lebih efisien dan kreatif.
Sebagai bentuk komitmen terhadap keterbukaan dan kolaborasi, Meta membagikan SAM Audio dan PE-AV kepada komunitas riset. Tak hanya itu, dua makalah ilmiah juga dirilis untuk menjelaskan aspek teknis dari masing-masing model. Meta juga memperkenalkan SAM Audio-Bench, tolok ukur pemisahan audio pertama yang dirancang berdasarkan kondisi dunia nyata, serta SAM Audio Judge, model penilai otomatis yang mampu mengevaluasi kualitas pemisahan audio secara objektif.
Seluruh inovasi ini kemudian disatukan dalam sebuah platform bernama Segment Anything Playground. Melalui platform ini, siapa pun dapat mencoba langsung kemampuan SAM Audio menggunakan aset audio dan video yang tersedia, atau dengan mengunggah konten milik sendiri. Pendekatan ini mendorong eksplorasi dan eksperimen, sekaligus membuka ruang bagi lahirnya ide-ide kreatif baru.
Model Prompt Multimodal yang Lebih Alami
Salah satu keunggulan utama SAM Audio adalah kemampuannya mendukung prompt multimodal. Selama ini, segmentasi dan pengeditan audio sering kali bersifat terpisah-pisah, dengan alat yang hanya fokus pada satu jenis tugas. SAM Audio hadir sebagai solusi terpadu yang selaras dengan cara manusia berpikir tentang suara.
Model ini mendukung tiga metode utama segmentasi audio yang dapat digunakan secara terpisah maupun dikombinasikan:
- Prompt teks, di mana pengguna cukup mengetik kata atau frasa seperti “suara nyanyian” atau “anjing menggonggong” untuk mengekstrak suara tersebut.
- Prompt visual, dengan cara mengklik objek atau orang yang terlihat menghasilkan suara di dalam video.
- Prompt rentang waktu (span prompt), metode inovatif yang memungkinkan pengguna menandai bagian waktu tertentu tempat suara target muncul.
Pendekatan ini memberikan kontrol yang sangat presisi sekaligus intuitif, sehingga SAM Audio dapat diandalkan di berbagai situasi dunia nyata.
Arsitektur Canggih untuk Hasil Maksimal
Secara teknis, SAM Audio dibangun di atas kerangka flow-matching diffusion transformer, sebuah arsitektur pemodelan generatif yang canggih. Sistem ini menerima campuran audio beserta satu atau beberapa prompt, lalu mengodekannya ke dalam representasi bersama untuk menghasilkan audio target dan audio sisa.
Untuk mendukung pelatihan model berskala besar, dikembangkan pula mesin data komprehensif yang mampu menghasilkan data pelatihan berkualitas tinggi. Mesin ini memadukan teknik pencampuran audio canggih, pembuatan prompt multimodal otomatis, serta alur pseudo-labeling yang kuat. Hasilnya adalah dataset beragam yang mencakup campuran nyata dan sintetis dari percakapan, musik, serta berbagai suara umum.
Strategi sintesis data yang matang ini membuat SAM Audio tangguh dan konsisten, bahkan ketika dihadapkan pada lingkungan dan kondisi audio yang kompleks.
Evolusi dari Meta Perception Encoder ke PE-AV
Perception Encoder Audiovisual dibangun di atas Meta Perception Encoder, sebuah model open source yang dirilis Meta pada April lalu. Awalnya, model ini difokuskan pada pengembangan kemampuan visi komputer tingkat lanjut, seperti pemahaman objek, adegan, dan konteks visual dalam gambar maupun video. Namun, seiring berkembangnya kebutuhan untuk memproses data multimodal, kerangka kerja ini diperluas agar mampu memahami audio secara mendalam.
Pendekatan ini serupa dengan adaptasi yang sebelumnya dilakukan pada SAM 3 untuk tugas deteksi objek. Bedanya, pada PE-AV, perluasan tidak hanya mencakup visual, tetapi juga suara. Dengan demikian, PE-AV mampu mengodekan sinyal audio dan mengaitkannya dengan konteks visual secara terpadu. Inilah yang memungkinkan sistem memisahkan campuran audio kompleks dan tetap andal di berbagai kondisi dunia nyata, terutama ketika informasi visual memainkan peran penting.
Menyatukan Apa yang Terlihat dan Terdengar
Salah satu keunggulan utama PE-AV adalah kemampuannya menyelaraskan informasi visual dan audio pada tingkat yang sangat detail. Sistem ini mengekstrak fitur video pada level frame, lalu menyelaraskannya dengan representasi audio yang sesuai. Setiap potongan informasi diberi penanda waktu yang presisi, sehingga sistem mengetahui dengan tepat kapan sebuah suara muncul dan apa yang terjadi secara visual pada saat itu.
Desain ini sangat krusial dalam pemisahan audio berbasis konteks visual. Misalnya, dalam sebuah video konferensi, PE-AV dapat membantu SAM Audio memisahkan suara pembicara yang terlihat di layar dari kebisingan latar belakang. Dalam konser musik, sistem dapat membedakan suara instrumen tertentu berdasarkan objek yang terlihat, seperti gitar, drum, atau piano.
Lebih dari itu, PE-AV juga mampu menyimpulkan kejadian yang tidak terlihat langsung di layar. Dengan memahami konteks adegan, sistem dapat mengenali bahwa suara tertentu berasal dari sumber di luar layar, misalnya suara kendaraan yang melintas atau pintu yang tertutup, meskipun objeknya tidak tampak dalam video.
Pentingnya Penyelarasan Temporal
Dalam pemrosesan multimodal, waktu adalah faktor kunci. PE-AV menghasilkan fitur yang kuat dan kaya makna dengan menyelaraskan frame video dan audio secara presisi dalam dimensi waktu. Penyelarasan temporal ini memungkinkan sistem mencocokkan apa yang terlihat dengan apa yang terdengar secara akurat.
Tanpa penyelarasan ini, model hanya akan memiliki pemahaman visual yang kasar dan tidak cukup detail untuk melakukan segmentasi audio yang fleksibel. Dengan kata lain, PE-AV memberikan “kesadaran waktu” pada sistem, sehingga pemisahan audio tidak hanya akurat secara teknis, tetapi juga sesuai dengan persepsi manusia. Hasilnya adalah segmentasi audio yang terasa alami, tidak terpotong secara aneh, dan tetap menjaga konteks aslinya.
Fondasi Teknis yang Kuat dan Terbuka
Dari sisi teknis, PE-AV mengintegrasikan berbagai komponen open source dan kemajuan riset mutakhir. Selain Meta Perception Encoder sebagai inti, sistem ini memanfaatkan PyTorchVideo untuk pemrosesan video yang efisien, memungkinkan ekstraksi fitur visual dalam skala besar. Untuk pencarian semantik berskala besar, digunakan FAISS, yang memungkinkan pengelolaan dan pencocokan representasi data dalam jumlah sangat besar dengan cepat.
PE-AV juga mengandalkan pendekatan contrastive learning, sebuah metode pembelajaran mesin yang efektif untuk menyelaraskan representasi dari berbagai modalitas. Dengan pendekatan ini, model belajar memahami hubungan antara audio, visual, dan teks secara bersamaan.
Pelatihan PE-AV dilakukan menggunakan lebih dari 100 juta video, sebuah skala yang sangat besar dan jarang ditemui. Data pelatihan ini berasal dari dataset terbuka serta pipeline captioning sintetis, sehingga mencakup beragam jenis konten, bahasa, dan konteks. Pendekatan ini memastikan model memiliki cakupan luas dan kemampuan generalisasi yang kuat saat dihadapkan pada skenario baru di dunia nyata.
SAM Audio Judge: Menilai Audio Seperti Manusia
Selain PE-AV, Meta juga memperkenalkan SAM Audio Judge, sebuah terobosan dalam evaluasi kualitas pemisahan audio. Selama ini, penilaian hasil pemisahan audio sering bergantung pada perbandingan dengan trek referensi. Masalahnya, pendekatan tersebut tidak selalu mencerminkan bagaimana manusia benar-benar mendengar dan menilai kualitas suara.
SAM Audio Judge hadir sebagai solusi dengan pendekatan tanpa referensi. Model ini menilai audio hasil pemisahan berdasarkan kriteria perseptual, sehingga lebih mendekati pengalaman mendengarkan manusia. Hal ini sangat penting dalam banyak skenario dunia nyata, di mana trek referensi sering kali tidak tersedia.
Pengembangan SAM Audio Judge dimulai dengan mendefinisikan sembilan dimensi perseptual, seperti ketepatan (precision), kelengkapan (recall), kesetiaan terhadap sumber suara, dan kualitas keseluruhan. Penilaian manusia kemudian dikumpulkan menggunakan panduan anotasi yang rinci dan skala lima poin. Data ini menjadi dasar pelatihan model, sehingga hasil evaluasinya lebih selaras dengan persepsi manusia.
SAM Audio-Bench: Standar Baru Evaluasi Pemisahan Audio
Untuk melengkapi ekosistem evaluasi, diperkenalkan pula SAM Audio-Bench, sebuah benchmark pemisahan audio yang komprehensif. Benchmark ini mencakup seluruh domain audio utama, mulai dari percakapan, musik, hingga efek suara umum, serta mendukung berbagai jenis prompt, seperti teks, visual, dan rentang waktu.
Berbeda dengan dataset lama yang banyak menggunakan audio sintetis atau cakupan suara terbatas, SAM Audio-Bench dibangun dari audio dan video berkualitas tinggi dari berbagai sumber dunia nyata. Setiap sampel berdurasi 10 detik dilengkapi prompt multimodal yang kaya, termasuk masker visual buatan manusia, penanda waktu, dan deskripsi teks yang jelas.
SAM Audio-Bench juga memelopori evaluasi tanpa referensi dengan menggabungkan uji dengar manusia dan SAM Audio Judge. Pendekatan ini menghasilkan evaluasi yang andal, bahkan ketika stem audio asli tidak tersedia, dan lebih mencerminkan kondisi penggunaan di luar laboratorium.
Hasil dan Dampak Nyata
Hasil evaluasi menunjukkan bahwa SAM Audio merupakan lompatan besar dalam teknologi pemisahan audio. Model ini tidak hanya melampaui pendekatan universal sebelumnya, tetapi juga mampu menyamai performa model khusus domain terbaik di berbagai kategori audio, seperti percakapan, musik, dan suara umum.
Kemampuan prompt multimodal—yang mendukung teks, visual, dan input berbasis klik—memberikan fleksibilitas tinggi bagi pengguna. Model ini juga terbukti efisien, dengan kecepatan pemrosesan lebih cepat dari waktu nyata (RTF ≈ 0,7), bahkan pada skala model yang sangat besar.
Meski demikian, SAM Audio masih memiliki keterbatasan. Audio belum dapat digunakan sebagai prompt, dan pemisahan audio sepenuhnya tanpa prompt masih berada di luar cakupannya. Selain itu, memisahkan sumber suara yang sangat mirip, seperti satu penyanyi dari paduan suara atau satu instrumen dari orkestra, masih menjadi tantangan teknis.
Menatap Masa Depan AI Audio
Dengan membawa audio ke dalam keluarga Segment Anything, Meta membuka babak baru dalam pengembangan AI multimodal. Pendekatan terpadu ini memungkinkan pemahaman lingkungan akustik yang kompleks dan respons terhadap perintah alami dari berbagai modalitas.
Melalui kemitraan dengan Starkey, produsen alat bantu dengar terbesar di Amerika Serikat, serta 2gether-International, akselerator startup bagi pendiri penyandang disabilitas, Meta juga mengeksplorasi bagaimana teknologi ini dapat meningkatkan aksesibilitas.
Demokratisasi alat audio berbasis AI ini menjadi langkah penting menuju masa depan teknologi yang lebih inklusif, kreatif, dan mudah diakses. Dengan fondasi kuat seperti PE-AV, masa depan AI yang benar-benar memahami suara bukan lagi sekadar wacana, melainkan kenyataan yang mulai terbentuk hari ini.
