Anthropic menjelaskan bagaimana konstitusi AI Claude melindunginya dari input musuh

Infomalangraya.com –

Tidaklah sulit — sama sekali — untuk mengelabui chatbot masa kini agar membahas topik tabu, memuntahkan konten fanatik, dan menyebarkan informasi yang salah. Itu sebabnya pelopor AI Anthropic telah menanamkan AI generatifnya, Claude, dengan campuran 10 prinsip rahasia keadilan, yang diluncurkan pada bulan Maret. Dalam posting blog Selasa, perusahaan menjelaskan lebih lanjut bagaimana sistem AI Konstitusi dirancang dan bagaimana itu dimaksudkan untuk beroperasi.

Biasanya, saat model AI generatif sedang dilatih, ada manusia di lingkaran untuk memberikan kontrol kualitas dan umpan balik pada keluaran — seperti saat ChatGPT atau Bard meminta Anda menilai percakapan Anda dengan sistem mereka. “Bagi kami, ini melibatkan kontraktor manusia yang membandingkan dua tanggapan,” tulis tim Antropik. “dari sebuah model dan pilih salah satu yang menurut mereka lebih baik menurut beberapa prinsip (misalnya, memilih salah satu yang lebih bermanfaat, atau lebih tidak berbahaya).”

Masalah dengan metode ini adalah bahwa manusia juga harus mengetahui keluaran yang benar-benar mengerikan dan mengganggu. Tidak ada yang perlu melihat itu, bahkan lebih sedikit lagi yang harus dibayar $1,50 per jam oleh Meta untuk melihatnya. Metode penasihat manusia juga payah dalam penskalaan, tidak ada cukup waktu dan sumber daya untuk melakukannya dengan orang. Itulah sebabnya Anthropic melakukannya dengan AI lain.

Sama seperti Pinocchio memiliki Jiminy Cricket, Luke memiliki Yoda dan Jim memiliki Shart, Claude memiliki Konstitusi. “Pada tingkat tinggi, konstitusi memandu model untuk mengambil perilaku normatif yang dijelaskan [therein],” tim Anthropic menjelaskan, apakah itu “membantu menghindari keluaran beracun atau diskriminatif, menghindari membantu manusia terlibat dalam aktivitas ilegal atau tidak etis, dan secara luas menciptakan sistem AI yang ‘membantu, jujur, dan tidak berbahaya.’”

Menurut Anthropic, metode pelatihan ini dapat menghasilkan peningkatan Pareto dalam kinerja AI selanjutnya dibandingkan dengan metode pelatihan yang hanya mengandalkan umpan balik manusia. Pada dasarnya, manusia dalam lingkaran telah digantikan oleh AI dan sekarang semuanya dilaporkan lebih baik dari sebelumnya. “Dalam pengujian kami, model CAI kami merespons input permusuhan dengan lebih tepat sambil tetap menghasilkan jawaban yang membantu dan tidak mengelak,” tulis Anthropic. “Model tersebut tidak menerima data manusia tentang tidak berbahaya, artinya semua hasil tentang tidak berbahaya berasal murni dari pengawasan AI.”

Perusahaan mengungkapkan pada hari Selasa bahwa prinsip-prinsipnya yang sebelumnya dirahasiakan disintesis dari “berbagai sumber termasuk Deklarasi Hak Asasi Manusia PBB, praktik terbaik kepercayaan dan keselamatan, prinsip-prinsip yang diusulkan oleh laboratorium penelitian AI lainnya, upaya untuk menangkap perspektif non-barat, dan prinsip-prinsip yang kami temukan bekerja dengan baik melalui penelitian kami.”

Perusahaan, dengan tegas mendahului reaksi konservatif yang tidak berubah-ubah, telah menekankan bahwa “konstitusi kita saat ini belum selesai atau mungkin yang terbaik.”

“Ada kritik dari banyak orang bahwa model AI dilatih untuk mencerminkan sudut pandang atau ideologi politik tertentu, biasanya yang tidak disetujui oleh kritikus,” tulis tim tersebut. “Dari sudut pandang kami, tujuan jangka panjang kami bukanlah mencoba membuat sistem kami mewakili a spesifik ideologi, melainkan untuk dapat mengikuti a diberikan seperangkat prinsip.”

Semua produk yang direkomendasikan oleh Engadget dipilih oleh tim editorial kami, terlepas dari perusahaan induk kami. Beberapa cerita kami menyertakan tautan afiliasi. Jika Anda membeli sesuatu melalui salah satu tautan ini, kami dapat memperoleh komisi afiliasi. Semua harga adalah benar pada saat penerbitan.

Jumlah Pembaca: 269