Infomalangraya.com –
Beberapa perusahaan teknologi terbesar di dunia melatih model AI mereka pada kumpulan data yang mencakup transkrip lebih dari 173.000 video YouTube tanpa izin, sebuah investigasi baru dari Bukti Berita telah ditemukan. Kumpulan data, yang dibuat oleh perusahaan nirlaba bernama EleutherAI, berisi transkrip video YouTube dari lebih dari 48.000 saluran dan digunakan oleh Apple, NVIDIA, dan Anthropic di antara perusahaan-perusahaan lainnya. Temuan investigasi tersebut menyoroti kebenaran AI yang tidak mengenakkan: teknologi tersebut sebagian besar dibangun di atas data yang diambil dari kreator tanpa persetujuan atau kompensasi mereka.
Dataset ini tidak menyertakan video atau gambar dari YouTube, tetapi berisi transkrip video dari kreator terbesar platform tersebut termasuk Marques Brownlee dan MrBeast, serta penerbit berita besar seperti Surat kabar New York Timesitu Bahasa Indonesia: BBCDan Berita ABCSubtitel dari video milik Engadget juga menjadi bagian dari kumpulan data tersebut.
“Apple telah mengambil data untuk AI mereka dari beberapa perusahaan,” Brownlee memposting di X. “Salah satu dari mereka mengambil banyak data/transkrip dari video YouTube, termasuk milik saya,” tambahnya. “Ini akan menjadi masalah yang terus berkembang untuk waktu yang lama.”
Apple telah mengambil data untuk AI mereka dari beberapa perusahaan
Salah satu dari mereka mengambil banyak data/transkrip dari video YouTube, termasuk milik saya
Apple secara teknis menghindari “kesalahan” di sini karena mereka bukan pihak yang melakukan scraping
Namun ini akan menjadi masalah yang terus berkembang untuk waktu yang lama https://t.co/U93riaeSlY
—Marques Brownlee (@MKBHD) 16 Juli 2024
Seorang juru bicara Google mengatakan kepada Engadget bahwa komentar sebelumnya yang dibuat oleh CEO YouTube Neal Mohan yang mengatakan bahwa perusahaan yang menggunakan data YouTube untuk melatih model AI akan melanggar ketentuan dan layanan platform masih berlaku. Apple, NVIDIA, Anthropic, dan EleutherAI tidak menanggapi permintaan komentar dari Engadget.
Sejauh ini, perusahaan AI belum transparan tentang data yang digunakan untuk melatih model mereka. Awal bulan ini, seniman dan fotografer mengkritik Apple karena gagal mengungkapkan sumber data pelatihan untuk Apple Intelligence, pengembangan AI generatif milik perusahaan yang akan hadir di jutaan perangkat Apple tahun ini.
YouTube, khususnya, merupakan gudang video terbesar di dunia, yang tidak hanya menyimpan transkrip, tetapi juga audio, video, dan gambar, sehingga menjadikannya kumpulan data yang menarik untuk melatih model AI. Awal tahun ini, kepala bagian teknologi OpenAI, Mira Murati, menghindari pertanyaan dari Jurnal Wall Street tentang apakah perusahaan tersebut menggunakan video YouTube untuk melatih Sora, alat pembuat video AI mendatang dari OpenAI. “Saya tidak akan membahas detail data yang digunakan, tetapi itu adalah data yang tersedia untuk umum atau berlisensi,” kata Murati saat itu. CEO Alphabet Sundar Pichai juga mengatakan bahwa perusahaan yang menggunakan data dari YouTube untuk melatih model AI mereka akan melanggar ketentuan layanan platform tersebut.
Jika Anda ingin melihat apakah subtitle dari video YouTube Anda atau dari saluran favorit Anda termasuk dalam kumpulan data, kunjungi alat pencarian Proof News.
Pembaruan, 16 Juli 2024, 15:17 PT: Cerita ini telah diperbarui untuk menyertakan pernyataan dari Google.