Peneliti OpenAI, Google, dan Meta Peringatkan Potensi Hilangnya Kemampuan Melacak Penyimpangan AI

Peneliti Peringatkan Potensi Hilangnya Kontrol atas AI

Lebih dari 40 ilmuwan dari berbagai institusi AI terkemuka, termasuk OpenAI, Google DeepMind, Anthropic, dan Meta, menyerukan penelitian lebih lanjut mengenai metode pemantauan keamanan tertentu. Metode ini memungkinkan manusia untuk menganalisis cara model AI ‘berpikir’. Sebuah makalah penelitian yang diterbitkan pada hari Selasa menyoroti apa yang dikenal sebagai pemantauan chain of thought (CoT) sebagai peluang baru namun rapuh untuk meningkatkan keamanan AI.

Apa itu Chain of Thought (CoT)?

Chain of thought (CoT) adalah proses di mana model penalaran modern, seperti ChatGPT, dilatih untuk melakukan penalaran ekstensif sebelum mengambil tindakan atau menghasilkan output akhir. Dengan kata lain, mereka ‘berpikir dengan keras’ melalui masalah langkah demi langkah, menyediakan semacam memori kerja untuk memecahkan tugas-tugas kompleks. Para ilmuwan berpendapat bahwa sistem AI yang ‘berpikir’ dalam bahasa manusia menawarkan peluang unik untuk keamanan AI: kita dapat memantau chain of thought (CoT) mereka untuk mengetahui niat melakukan kesalahan.

Ancaman Terhadap Pemantauan CoT

Para peneliti memperingatkan bahwa kemampuan untuk memantau CoT ini mungkin tidak selalu ada. Seiring dengan semakin bergantungnya pengembang pada reinforcement learning, yang memprioritaskan output yang benar daripada bagaimana mereka mencapainya, model di masa depan mungkin berevolusi menjauh dari penggunaan penalaran yang tidak dapat dengan mudah dipahami oleh manusia. Selain itu, model yang lebih canggih pada akhirnya dapat belajar untuk menekan atau mengaburkan penalaran mereka jika mereka mendeteksi bahwa hal itu sedang dipantau.

Rekomendasi Para Peneliti

Menanggapi hal ini, para peneliti mendesak pengembang AI untuk melacak dan mengevaluasi kemampuan pemantauan CoT dari model mereka dan memperlakukannya sebagai komponen penting dari keseluruhan keamanan model. Mereka bahkan merekomendasikan agar hal itu menjadi pertimbangan utama saat melatih dan menerapkan model baru.

Dukungan dari Tokoh Terkemuka AI

Makalah ini didukung oleh tokoh-tokoh AI terkemuka seperti salah satu pendiri OpenAI, John Schulman dan Ilya Sutskever, serta peraih Nobel yang dikenal sebagai “Godfather of AI,” Geoffrey Hinton. Hal ini menekankan pentingnya isu ini bagi komunitas AI secara keseluruhan.