Jika AI ingin mengambil alih dunia, mengapa AI tidak bisa memecahkan masalah Spelling Bee?

TEKNOLOGI131 Dilihat
Infomalangraya.com –

Tugas saya untuk penguasa AI kami sederhana: bantu saya memecahkannya Waktu New York Ejaan Lebah.

Saya menghabiskan sebagian besar Sabtu malam mencoba membentuk huruf G, Y, A, L, P, O dan N menjadi kata sebanyak mungkin. Namun tiga jam, 141 poin dan 37 kata – termasuk “nonapologi”, “laguna”, dan “analogi” – kemudian, saya menemui jalan buntu. Hanya beberapa kata lagi yang saya butuhkan untuk mendorong diri saya ke dalam eselon “jenius” Spelling Bee, gelar yang diperuntukkan bagi mereka yang menguraikan 70 persen dari semua kemungkinan kata menggunakan huruf-huruf yang diberikan, dan titik di mana teka-teki tersebut dianggap telah terpecahkan secara efektif. . (Pemecah 100 persen diberi peringkat “ratu lebah”, tapi saya pun punya batasnya.)

Pikiran manusia saya jelas-jelas sedang kesulitan, namun tugas ini tampak seperti permainan anak-anak bagi AI, jadi saya mengaktifkan ChatGPT, memberi tahu bahwa saya sedang mencoba memenangkan Spelling Bee, memberikan surat-surat saya, dan menetapkan peraturannya. “Beri aku daftar setiap kata yang bisa dibentuk dengan kata-kata itu,” aku mengetik. “Boleh mengulang huruf, tapi setiap kata harus mengandung ‘N’.”

Ketika saya menekan enter, inilah yang diludahkan ChatGPT:

Berikut daftar kata yang dibentuk dengan huruf “GYALPON” yang harus mengandung huruf “N”:
GLNPAYO
YPNL
PGNOYL
ONAPYLG
LGNAPYO
SETIAP
NAYGOPL
GYPON
AOGPLNY
PNAOGLY
Ini hanyalah contoh daftar karena banyaknya kemungkinan permutasi.

Bukan awal yang baik.

“Kata-katanya harus ada di kamus,” aku mengetik kembali. “Tentu,” jawabnya. “Saya akan memberikan daftar kata bahasa Inggris yang valid berdasarkan huruf yang diberikan.” ANGLY, GALON, LANG.

Jelas, ini tidak berhasil, jadi saya beralih ke Copilot Microsoft (YANG, BERMAIN, PERENCANAAN, MENGGANGGU), Gemini Google (GAPO, PERGI, GIAN), dan Claude dari Anthropic (Mangga, sedang berlangsung, HUKUM17.LAY). Meta AI dengan senang hati memberi tahu saya bahwa ia memastikan untuk hanya menyertakan kata-kata yang dikenali oleh kamus dalam daftar yang ada NALYP Dan BESAR, sementara Perplexity — chatbot dengan ambisi membunuh Google Penelusuran — menulis begitu saja GAL ratusan kali sebelum membeku secara tiba-tiba.

Kebingungan tersedot saat memecahkan Spelling BeeKebingungan tersedot saat memecahkan Spelling Bee

Perplexity, sebuah chatbot dengan ambisi mematikan Google Penelusuran, hancur berkeping-keping saat diminta membentuk kata dari sekumpulan huruf. (Tangkapan Layar oleh Pranav Dixit / Engadget)

AI kini dapat membuat gambar, video, dan audio secepat Anda mengetikkan deskripsi apa yang Anda inginkan. Dapat menulis puisi, esai, dan makalah. Ini juga bisa menjadi tiruan pucat dari pacar Anda, terapis Anda, dan asisten pribadi Anda. Dan banyak orang berpikir bahwa teknologi ini siap untuk mengotomatiskan manusia keluar dari pekerjaan dan mengubah dunia dengan cara yang hampir tidak dapat kita bayangkan. Jadi mengapa sulit sekali memecahkan teka-teki kata sederhana?

Jawabannya terletak pada seberapa besar model bahasa, teknologi dasar yang menggerakkan kegilaan AI modern kita, berfungsi. Pemrograman komputer secara tradisional bersifat logis dan berbasis aturan; Anda mengetikkan perintah yang diikuti komputer sesuai dengan serangkaian instruksi, dan komputer memberikan keluaran yang valid. Namun pembelajaran mesin, yang merupakan bagian dari AI generatif, berbeda.

“Ini murni statistik,” kata Noah Giansiracusa, profesor matematika dan ilmu data di Universitas Bentley kepada saya. “Ini benar-benar tentang mengekstraksi pola dari data dan kemudian mengeluarkan data baru yang sebagian besar sesuai dengan pola tersebut.”

OpenAI tidak mencatat respons, namun juru bicara perusahaan mengatakan kepada saya bahwa jenis “umpan balik” ini membantu OpenAI meningkatkan pemahaman model dan respons terhadap masalah. “Hal-hal seperti struktur kata dan anagram bukanlah kasus penggunaan umum untuk Perplexity, jadi model kami tidak dioptimalkan untuk itu,” kata juru bicara perusahaan, Sara Platnick, kepada saya. “Sebagai pemain Wordle/Connections/Mini Crossword setiap hari, saya senang melihat kinerja kami!” Microsoft dan Meta menolak berkomentar. Google dan Anthropic tidak merespons hingga waktu publikasi.

Inti dari model bahasa besar adalah “transformer”, sebuah terobosan teknis yang dibuat oleh para peneliti di Google pada tahun 2017. Setelah Anda mengetikkan perintah, model bahasa besar akan memecah kata atau pecahan dari kata tersebut menjadi unit matematika yang disebut “token”. Transformer mampu menganalisis setiap token dalam konteks kumpulan data yang lebih besar tempat model dilatih untuk melihat bagaimana mereka terhubung satu sama lain. Setelah transformator memahami hubungan ini, ia dapat merespons permintaan Anda dengan menebak kemungkinan token berikutnya secara berurutan. Itu Waktu keuangan memiliki penjelasan animasi hebat yang menguraikan semua ini jika Anda tertarik.

Meta AI juga payah dalam memecahkan Spelling BeeMeta AI juga payah dalam memecahkan Spelling Bee

Saya salah mengetik “tentu”, tetapi Meta AI mengira saya menyarankannya sebagai sebuah kata dan mengatakan bahwa saya benar. (Tangkapan layar oleh Pranav Dixit / Engadget)

SAYA pikiran Saya memberikan instruksi yang tepat kepada chatbots untuk menghasilkan kata-kata Spelling Bee saya, yang mereka lakukan hanyalah mengubah kata-kata saya menjadi token, dan menggunakan transformator untuk memberikan tanggapan yang masuk akal. “Ini tidak sama dengan pemrograman komputer atau mengetikkan perintah ke dalam prompt DOS,” kata Giansiracusa. “Kata-kata Anda diterjemahkan ke dalam angka dan kemudian diproses secara statistik.” Sepertinya kueri yang murni berbasis logika adalah penerapan terburuk bagi keterampilan AI – mirip dengan mencoba memutar sekrup dengan palu yang membutuhkan banyak sumber daya.

Keberhasilan model AI juga bergantung pada data yang dilatihnya. Inilah sebabnya mengapa perusahaan AI saat ini sedang terburu-buru membuat kesepakatan dengan penerbit berita — semakin baru data pelatihannya, semakin baik pula responsnya. AI generatif, misalnya, payah dalam menyarankan gerakan catur, tetapi setidaknya sedikit lebih baik dalam tugas tersebut daripada memecahkan teka-teki kata. Giansiracusa menunjukkan bahwa banyaknya permainan catur yang tersedia di internet hampir pasti disertakan dalam data pelatihan untuk model AI yang ada. “Saya menduga jumlah game Spelling Bee online yang diberi anotasi tidak cukup untuk dilatih oleh AI seperti halnya game catur,” katanya.

“Jika chatbot Anda tampak lebih bingung dengan permainan kata dibandingkan kucing dengan kubus Rubik, itu karena ia tidak dilatih secara khusus untuk memainkan permainan kata yang rumit,” kata Sandi Besen, peneliti kecerdasan buatan di Neudesic, sebuah perusahaan AI yang dimiliki oleh IBM. “Permainan kata memiliki aturan dan batasan khusus yang sulit dipatuhi oleh model kecuali jika diinstruksikan secara khusus selama pelatihan, penyesuaian, atau dorongan.”

“Jika chatbot Anda tampak lebih bingung dengan permainan kata dibandingkan kucing dengan kubus Rubik, itu karena ia tidak dilatih secara khusus untuk memainkan permainan kata yang rumit.”

Semua hal ini tidak menghentikan perusahaan-perusahaan AI terkemuka di dunia untuk memasarkan teknologi ini sebagai obat mujarab, dan sering kali terlalu melebih-lebihkan klaim mengenai kemampuannya. Pada bulan April, OpenAI dan Meta sesumbar bahwa model AI baru mereka akan mampu “bernalar” dan “merencanakan.” Dalam sebuah wawancara, chief operating officer OpenAI Brad Lightcap mengatakan kepada Waktu keuangan bahwa GPT generasi berikutnya, model AI yang mendukung ChatGPT, akan menunjukkan kemajuan dalam memecahkan “masalah sulit” seperti penalaran. Joelle Pineau, wakil presiden penelitian AI Meta, mengatakan kepada publikasi tersebut bahwa perusahaan tersebut “bekerja keras dalam mencari cara agar model-model ini tidak hanya dapat berbicara, tetapi juga benar-benar bernalar, merencanakan…memiliki memori.”

Upaya saya yang berulang kali untuk mendapatkan GPT-4o dan Llama 3 untuk memecahkan Spelling Bee gagal total. Ketika saya memberi tahu ChatGPT hal itu GALON, LANG dan ANGLY tidak ada dalam kamus, chatbot mengatakan bahwa ia setuju dengan saya dan menyarankan GALVANOPI alih-alih. Saat saya salah mengetikkan dunia “yakin” sebagai “sur” dalam tanggapan saya terhadap tawaran Meta AI untuk menghasilkan lebih banyak kata, chatbot memberi tahu saya bahwa “sur” memang merupakan kata lain yang dapat dibentuk dengan huruf G, Y , A, L, P, O dan N.

Jelasnya, kita masih jauh dari Kecerdasan Umum Buatan, sebuah konsep samar yang menggambarkan momen ketika mesin mampu melakukan sebagian besar tugas sebaik atau lebih baik daripada manusia. Beberapa ahli, seperti Yann LeCun, kepala ilmuwan AI di Meta, telah berterus terang tentang keterbatasan model bahasa besar, mengklaim bahwa model tersebut tidak akan pernah mencapai kecerdasan tingkat manusia karena mereka tidak benar-benar menggunakan logika. Pada sebuah acara di London tahun lalu, LeCun mengatakan bahwa model AI generasi saat ini “tidak memahami cara kerja dunia. Mereka tidak mampu membuat perencanaan. Mereka tidak mampu berpikir jernih,” katanya. “Kita tidak punya mobil yang sepenuhnya otonom dan bisa mengemudi sendiri, yang bisa melatih diri mereka sendiri untuk mengemudi dalam waktu sekitar 20 jam latihan, sesuatu yang bisa dilakukan oleh anak berusia 17 tahun.”

Namun, Giansiracusa memberikan nada yang lebih hati-hati. “Kita tidak begitu tahu cara berpikir manusia, bukan? Kita tidak tahu apa sebenarnya kecerdasan itu. Saya tidak tahu apakah otak saya hanyalah sebuah kalkulator statistik besar, seperti versi model bahasa besar yang lebih efisien.”

Mungkin kunci untuk hidup dengan AI generatif tanpa menyerah pada hype atau kecemasan adalah dengan memahami keterbatasan yang ada di dalamnya. “Alat-alat ini sebenarnya tidak dirancang untuk banyak hal yang digunakan orang-orang,” kata Chirag Shah, profesor AI dan pembelajaran mesin di Universitas Washington. Dia ikut menulis makalah penelitian terkenal pada tahun 2022 yang mengkritik penggunaan model bahasa besar di mesin pencari. Perusahaan-perusahaan teknologi, menurut Shah, dapat melakukan pekerjaan yang lebih baik dengan bersikap transparan mengenai apa yang dapat dan tidak dapat dilakukan oleh AI sebelum memberikannya kepada kita. Namun kapal itu mungkin sudah berlayar. Selama beberapa bulan terakhir, perusahaan teknologi terbesar di dunia – Microsoft, Meta, Samsung, Apple, dan Google – telah membuat deklarasi untuk menerapkan AI ke dalam produk, layanan, dan sistem operasi mereka.

“Bot-bot itu jelek karena tidak dirancang untuk hal ini,” kata Shah mengenai teka-teki permainan kata-kata saya. Apakah bot-bot itu jelek dalam semua masalah lain yang dilontarkan oleh perusahaan-perusahaan teknologi masih harus dilihat.

Bagaimana lagi chatbot AI mengecewakan Anda? Kirimi saya email di pranav.dixit@engadget.com dan beri tahu saya!

Pembaruan, 13 Juni 2024, 16:19 ET: Cerita ini telah diperbarui untuk menyertakan pernyataan dari Perplexity.

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *