AI Mulai Tiru Ekspresi Manusia, Bisa Ciptakan Suara Batuk-Tertawa dengan Model Dia-1 6B

4/28/20253 min baca

Jakarta, 28 April 2025 – Dunia teknologi kembali dikejutkan oleh terobosan terbaru dari Nari Labs, sebuah laboratorium riset asal Korea Selatan. Mereka baru saja meluncurkan model kecerdasan buatan (AI) bernama Dia-1 6B, yang mampu menghasilkan suara dengan ekspresi emosional layaknya manusia—mulai dari tertawa, batuk, hingga berteriak ketakutan—hanya berdasarkan perintah teks. Dengan ukuran hanya 1,6 miliar parameter, model ini tidak hanya ringkas tetapi juga efisien, dapat dijalankan secara real-time menggunakan satu GPU berdaya rendah. Yang lebih menarik, Dia-1 6B bersifat open-source, membukakan pintu bagi pengembang dan peneliti global untuk memanfaatkannya.

Terobosan dalam Teknologi Text-to-Speech

Menurut Toby Kim, pendiri Nari Labs, peluncuran Dia-1 6B awalnya bertujuan untuk menyaingi layanan text-to-speech (TTS) ternama seperti ElevenLabs dan NotebookLM. “Kami hanya ingin menciptakan TTS sekeren ElevenLabs dan NotebookLM. Namun, secara mengejutkan kita berhasil,” tulis Kim dalam cuitannya di platform X pada 22 April 2025. Keberhasilan ini menjadi sorotan karena model ini mampu menangkap nuansa emosional yang kompleks, sesuatu yang selama ini sulit dicapai oleh AI.

Kaveh Vahdat, CEO RiseAngle, menjelaskan bahwa tantangan utama dalam menciptakan suara emosional pada AI adalah keterbatasan data pelatihan. “Ekspresi emosional itu bukan cuma soal nada atau keras-lembutnya suara, tetapi juga konteks, ritme bicara, ketegangan, dan keraguan. Hal tersebut adalah sesuatu yang sering kali tak bisa dipahami mesin karena tidak diberi label yang cukup jelas,” ungkap Vahdat dalam sebuah wawancara dengan TechCrunch. Dia-1 6B berhasil mengatasi hambatan ini dengan pendekatan pelatihan yang inovatif, meskipun detail teknisnya belum sepenuhnya diungkap oleh Nari Labs.

Fitur Unggulan: Ekspresi Emosi dan Voice Cloning

Dia-1 6B tidak hanya mampu menghasilkan suara dengan ekspresi emosional seperti tertawa atau batuk, tetapi juga memiliki kemampuan voice cloning yang luar biasa. Dengan sampel audio berdurasi hanya 5 detik, model ini dapat mereplikasi suara seseorang dengan tingkat kemiripan yang sangat tinggi. Fitur ini menawarkan potensi besar dalam berbagai bidang:

Konten Kreatif: Pembuat podcast atau audiobook kini bisa menghasilkan narasi emosional tanpa aktor suara profesional.
Asisten Virtual: Pengembangan AI yang lebih manusiawi untuk aplikasi seperti chatbot atau asisten pribadi.
Industri Hiburan: Penggandaan suara karakter dalam film, game, atau animasi dengan ekspresi yang autentik.

Menurut laporan dari The Verge, kemampuan ini telah diuji oleh beberapa pengembang independen yang memuji kecepatan dan akurasi replikasi suara model ini. Salah satu penguji bahkan menyebutnya sebagai “lompatan besar dalam personalisasi audio.”

Efisiensi dan Aksesibilitas

Salah satu keunggulan utama Dia-1 6B adalah efisiensinya. Model ini dapat beroperasi pada GPU dengan spesifikasi rendah, seperti NVIDIA A4000 dengan VRAM 10GB, menghasilkan sekitar 40 token per detik. Karena bersifat open-source di bawah lisensi Apache 2.0, kode sumbernya tersedia di GitHub dan Hugging Face. Nari Labs juga menyediakan komunitas Discord untuk mendukung kolaborasi pengguna.

Tim kecil di balik proyek ini—terdiri dari dua insinyur, satu penuh waktu dan satu paruh waktu—berencana untuk terus meningkatkan model. Rencana masa depan termasuk dukungan untuk CPU dan versi terkuantisasi yang lebih hemat sumber daya, sehingga dapat diakses oleh lebih banyak orang, termasuk mereka yang tidak memiliki akses ke GPU canggih.

Implikasi Etis dan Tantangan

Meski menawarkan inovasi luar biasa, kemampuan voice cloning Dia-1 6B juga memunculkan kekhawatiran etis. Dengan hanya 5 detik audio, suara seseorang bisa ditiru secara akurat, meningkatkan risiko penyalahgunaan seperti penipuan, deepfake audio, atau pembuatan konten palsu. Nari Labs menyadari hal ini dan telah menerbitkan pedoman penggunaan yang melarang penggunaan model untuk tujuan ilegal atau tanpa persetujuan subjek.

“Teknologi ini harus digunakan dengan tanggung jawab. Kami ingin memastikan bahwa inovasi kami membawa dampak positif,” kata seorang juru bicara Nari Labs dalam konferensi pers di Seoul, seperti dikutip Reuters. Organisasi seperti Electronic Frontier Foundation (EFF) juga menyerukan regulasi yang lebih ketat untuk mencegah penyalahgunaan teknologi semacam ini.

Selain itu, model ini saat ini masih terbatas pada bahasa Inggris. Namun, Nari Labs berjanji akan menambahkan dukungan multibahasa dalam pembaruan mendatang untuk menjangkau audiens yang lebih luas.

Dampak pada Industri dan Masa Depan AI

Peluncuran Dia-1 6B diprediksi akan mengubah lanskap industri TTS dan AI secara keseluruhan. Analis teknologi dari Forbes menyebutnya sebagai “game-changer” karena aksesibilitasnya yang tinggi dan potensi aplikasi yang luas. Dengan sifat open-source-nya, model ini dapat memicu gelombang inovasi baru, mulai dari alat bantu aksesibilitas bagi penyandang disabilitas bicara hingga pengalaman interaktif dalam virtual reality.

Sebagai langkah maju dalam AI yang meniru ekspresi manusia, Dia-1 6B tidak hanya menunjukkan kemajuan teknis tetapi juga memicu diskusi mendalam tentang etika dan tanggung jawab dalam pengembangan teknologi. Dengan kolaborasi global yang didorong oleh komunitas open-source, masa depan TTS tampak semakin cerah—dan emosional.

Image Source: Decrypt