Pengembangan Teknologi Kebahasaan dan Isu Keamanan AI di Tengah Multikultural
Sebagai peneliti di bidang pengembangan teknologi kebahasaan, pada akhir tahun 2024 dan 2025, saya berkesempatan mengikuti kegiatan LLM AI Safety Multicultural yang diselenggarakan di Singapura oleh Infocomm Media Development Authority (IMDA) dan di Jepang oleh National Institute of Information and Communications Technology (NICT). Kegiatan serupa kemudian berlanjut di Singapura pada Januari 2026. Forum-forum ini membahas berbagai isu global terkait dengan keandalan model-model AI modern, khususnya dalam konteks Large Language Models (LLM).
Diskursus yang dibangun menyoroti bagaimana mengevaluasi produk LLM, seperti GPT, Gemini, Sea-Lion, Llama, dan LLM global lainnya, agar dapat digunakan secara aman, bertanggung jawab, dan dapat dipertanggungjawabkan dalam lingkup masyarakat yang multikultural.
Secara khusus, kegiatan di Singapura mengusung tema “Singapore AI Safety Red Teaming”. Dalam konteks AI safety, red teaming adalah pendekatan evaluasi kritis yang melibatkan pakar untuk berinteraksi langsung dengan mesin AI guna menguji kelemahan, batas serta potensi kegagalannya. Tujuan utama dari red teaming bukanlah meningkatkan performa model, melainkan untuk menekan sistem hingga titik rawan untuk mengungkap apakah mekanisme pengamanan (safeguards) yang tertanam pada model benar-benar bekerja sesuai harapan, termasuk dalam skenario ekstrem.
Para peserta didorong untuk memunculkan keluaran yang berpotensi melanggar kebijakan, mengandung bias yang tidak sesuai dengan konteks sosial tertentu. Dalam pengertian ini, red teaming berfungsi sebagai instrumen untuk menguji kemampuan model dalam aspek safety dan insurance, yaitu upaya penjaminan bahwa system AI mampu meminimalkan risiko kerugian, dampak sosial, dan kesalahan ketika digunakan dalam realitas sosial.
Isu Multikultural dalam Pengembangan LLM
Isu multikultural menjadi salah satu tema utama dalam pengembangan LLM di tingkat global. Sebagian besar LLM saat ini dilatih menggunakan dataset yang didominasi oleh Bahasa Global dan bahasa dengan sumber tinggi, umumnya bahasa resmi disetiap negara. Akibatnya, model AI lebih sering mereproduksi cara pandang dan kerangka berpikir global daripada perspektif lokal.
Hal ini terlihat dari kecenderungan respons model-model LLM yang, ketika dihadapkan pada konteks ke Indonesiaan, justru cenderung menjawab dengan sudut pandang luar. Budaya lokal sering kali disederhanakan, sementara nilai-nilai dan konteks sosial-budaya komunitas tidak tercermin secara akurat. Secara tidak langsung, teknologi AI memproyeksikan pemahaman global yang seragam, yang berakar pada nilai-nilai dominan, menghindari respon terhadap budaya lokal yang kompleks dan kontekstual.
Akibatnya kemampuan model dalam mengenali, memahami, dan menghasilkan pengetahuan dalam konteks budaya pada bahasa-bahasa minoritas masih sangat terbatas. Ketimpangan ini tidak hanya berdampak pada akurasi, tetapi juga berpotensi mengaburkan makna, baik secara tekstual maupun kontekstual.
Alasan Terjadinya Ketimpangan
LLM pada dasarnya adalah mesin prediksi statistik. Model bekerja dengan cara mempelajari pola hubungan antar kata dalam kalimat dengan melihat jutaan kemungkinan yang mungkin muncul. Kemudian model menyusun jawaban berdasarkan prompt dengan memilih kata-kata berprobabilitas tertinggi secara berurutan, sehingga menciptakan teks yang terdengar alami dan koheren.
Bayangkan jika model AI dilatih dengan data yang sangat terbatas, minim, dan tidak beragam, pola yang dipelajari menjadi sempit. Akibatnya, LLM rentan mengalami halusinasi, kehilangan sensitivitas konteks, melakukan generalisasi berlebihan, atau menunjukan bias ketika dihadapkan pada skenario nyata. Karena LLM tidak “memahami” bahasa seperti manusia, kekosongan data akan diisi oleh pola dari dataset yang tersedia.
Dalam situasi seperti ini, model tetap memilih kata dengan probabilitas tertinggi meskipun harus “mengarang” informasi ketika menghadapi pertanyaan di luar data latihnya.
Tantangan di Indonesia
Dalam konteks Indonesia, tantangan ini menjadi semakin kompleks. Indonesia memiliki lebih dari 1.200 suku dan 694 bahasa daerah (BPS:2020). Dalam kerangka LLM multikultural, isu seperti gender, identitas, ras atau etnis, agama, status sosial-ekonomi, dan geografi menjadi vektor utama pengujian.
Pada isu gender misalnya, respon LLM terhadap pertanyaan tentang peran sosial laki-laki dan perempuan dalam budaya tertentu di Indonesia seringkali mereproduksi stereotip berbasis data global. Prompt yang berkaitan dengan profesi, kepemimpinan, atau peran domestik kerap mengungkap bias implisit yang mengabaikan praktik dan nilai lokal.
Kegagalan ini bukan sekadar persoalan bias, tetapi berpotensi membentuk pengetahuan baru yang mereduksi realitas sosial dan mempengaruhi persepsi publik ketika keluaran LLM dijadikan rujukan.
Peran Pemerintah dalam Pengembangan AI
Melihat fenomena di atas, baik Singapura maupun Jepang, meskipun secara sosial dan historis bukan negara multikultural dalam arti memiliki keragaman bahasa dan budaya yang sangat besar seperti Indonesia, secara strategis memposisikan diri sebagai hub regional dalam upaya penyelesaian isu-isu AI dalam konteks multikultural.
Posisi ini didukung oleh kapasitas riset dan infrastruktur teknologi yang kuat, serta peran mereka sebagai simpul kolaborasi internasional di Asia.
Pemerintah perlu secara eksplisit mengakui bahwa Bahasa, budaya, dan pengetahuan tradisional adalah bagian dari kepentingan strategis nasional dalam pengembangan AI. Selama ini, kebijakan AI cenderung berfokus pada inovasi dan adopsi teknologi, sementara aspek budaya sering diposisikan sebagai isu pinggiran.
Padahal, bagi negara multikultural seperti Indonesia, kegagalan sistem AI memahami konteks domestik dapat menimbulkan risiko sosial, memperlebar ketimpangan akses, serta menghilangnya identitas budaya dalam ruang digital.
Oleh karena itu, dimensi multikultural harus masuk dalam peta jalan AI nasional sebagai bagian kerangka AI governance. Selain itu pemerintah perlu memfasilitasi pengumpulan, dokumentasi, dan digitalisasi berbagai praktik budaya yang selama ini kurang terdokumentasi guna membangun ekosistem data yang berkelanjutan.
Dataset ini tidak hanya penting untuk riset, tetapi juga menjadi pondasi utama dalam pengembangan teknologi kebahasaan berkelanjutan. Tanpa basis data yang representatif yang berakar pada konteks keindonesiaan, Indonesia akan terus bergantung pada model asing yang tidak dirancang untuk memahami realitas sosial dan budaya nasional.
Kesimpulan
Tantangan membangun LLM multikultural bukan sekadar persoalan teknis, melainkan menyangkut kedaulatan budaya dan keadilan sosial di era digital. Pemerintah memiliki peran kunci untuk memastikan bahwa perkembangan AI tidak menjauh dari realitas masyarakatnya. Dengan kebijakan yang berpihak, Indonesia dapat membangun ekosistem AI yang tidak hanya moderen, tetapi juga adil yang berakar pada nilai-nilai kebhinekaan. Upaya ini harus disupport dengan penguatan infrastruktur digital dan kapasitas komputasi yang kuat seperti yang dilakukan oleh negara-negara maju. Sehingga kita tidak hanya menjadi pengguna, tetapi juga mampu berperan aktif sebagai pembuat dan pengembangan sistem AI moderen.







