GPT-4 dilakukan mendekati level dokter ahli dalam penilaian mata

TEKNOLOGI106 Dilihat

Infomalangraya.com –

Seiring dengan kemajuan model pembelajaran bahasa (LLM), begitu pula pertanyaan tentang bagaimana model tersebut dapat bermanfaat bagi masyarakat di berbagai bidang seperti bidang medis. Sebuah studi baru-baru ini dari Fakultas Kedokteran Klinis Universitas Cambridge menemukan bahwa GPT-4 OpenAI memiliki kinerja yang hampir sama baiknya dalam penilaian oftalmologi dibandingkan para ahli di bidangnya, yaitu Waktu keuangan pertama kali dilaporkan.

Dalam penelitian yang dipublikasikan di Kesehatan Digital PLOS, peneliti menguji LLM, pendahulunya GPT-3.5, PaLM 2 Google, dan LLaMA Meta dengan 87 pertanyaan pilihan ganda. Lima dokter mata ahli, tiga dokter mata peserta pelatihan, dan dua dokter junior tidak terspesialisasi menerima ujian tiruan yang sama. Pertanyaan-pertanyaan tersebut berasal dari buku teks untuk menguji peserta pelatihan tentang segala hal mulai dari sensitivitas cahaya hingga lesi. Isinya tidak tersedia untuk umum, jadi para peneliti yakin LLM tidak mungkin pernah dilatih mengenai hal tersebut sebelumnya. ChatGPT yang dilengkapi dengan GPT-4 atau GPT-3.5 diberi tiga kali kesempatan untuk menjawab pasti atau tanggapannya ditandai nol.

GPT-4 mendapat nilai lebih tinggi dibandingkan peserta pelatihan dan dokter junior, dengan menjawab 60 dari 87 pertanyaan dengan benar. Meskipun angka ini jauh lebih tinggi daripada rata-rata jawaban benar para dokter junior yang berjumlah 37 jawaban benar, angka ini hanya melampaui rata-rata tiga peserta pelatihan yang berjumlah 59,7. Meskipun seorang dokter spesialis mata hanya menjawab 56 pertanyaan dengan akurat, lima orang tersebut mempunyai skor rata-rata 66,4 jawaban benar, mengalahkan mesin. PaLM 2 mendapat skor 49, dan GPT-3.5 mendapat skor 42. LLaMa mendapat skor terendah yaitu 28, berada di bawah dokter junior. Khususnya, uji coba ini terjadi pada pertengahan tahun 2023.

Meskipun hasil-hasil ini mempunyai potensi manfaat, terdapat juga beberapa risiko dan kekhawatiran. Para peneliti mencatat bahwa penelitian ini menawarkan sejumlah pertanyaan terbatas, terutama dalam kategori tertentu, yang berarti hasil sebenarnya mungkin berbeda. LLM juga memiliki kecenderungan untuk “berhalusinasi” atau mengada-ada. Itu adalah satu hal jika itu adalah fakta yang tidak relevan, namun mengklaim bahwa ada katarak atau kanker adalah cerita lain. Seperti halnya dalam banyak kasus penggunaan LLM, sistemnya juga kurang bernuansa, sehingga menciptakan peluang lebih lanjut untuk ketidakakuratan.

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *