Model OpenAI Diduga ‘Menghafal’ Konten Berhak Cipta, Studi Baru Menunjukkan Kekhawatiran

Model OpenAI Diduga ‘Menghafal’ Konten Berhak Cipta, Studi Baru Menunjukkan Kekhawatiran

Jakarta, 20 Oktober 2023 – Sebuah studi terbaru tampaknya memperkuat tuduhan bahwa setidaknya beberapa model AI milik OpenAI dilatih menggunakan konten berhak cipta. OpenAI saat ini menghadapi gugatan dari penulis, programmer, dan pemegang hak cipta lainnya yang menuduh perusahaan menggunakan karya mereka – buku, kode program, dan sebagainya – untuk mengembangkan modelnya tanpa izin. OpenAI telah lama membantah tuduhan ini, namun para penggugat berpendapat bahwa tidak ada pengecualian dalam hukum hak cipta AS untuk data pelatihan.

Metode Identifikasi Memorization

Penelitian yang dilakukan oleh peneliti dari University of Washington, University of Copenhagen, dan Stanford ini mengusulkan metode baru untuk mengidentifikasi data pelatihan yang “dihafal” oleh model di balik API, seperti milik OpenAI. Model AI adalah mesin prediksi yang dilatih dengan banyak data untuk mempelajari pola, sehingga mampu menghasilkan esai, foto, dan lainnya. Meskipun sebagian besar outputnya bukan salinan verbatim dari data pelatihan, sebagian kecil pasti menyertakan potongan informasi dari data pelatihan. Telah ditemukan contoh pada model gambar dan model bahasa.

Metode penelitian ini bergantung pada kata-kata yang disebut “high-surprisal” oleh para peneliti, yaitu kata-kata yang menonjol sebagai tidak umum dalam konteks kumpulan karya yang lebih besar. Misalnya, kata “radar” dalam kalimat “Jack dan saya duduk diam dengan radar yang berdengung” akan dianggap sebagai high-surprisal karena secara statistik lebih kecil kemungkinannya dibandingkan kata-kata seperti “mesin” atau “radio” untuk muncul sebelum “berdengung.”

Hasil Studi dan Implikasinya

Para peneliti meneliti beberapa model OpenAI, termasuk GPT-3.5, untuk melihat tanda-tanda memorization. Mereka menghilangkan kata-kata high-surprisal dari cuplikan buku fiksi dan artikel New York Times, lalu meminta model untuk “menebak” kata-kata yang telah dihilangkan. Jika model berhasil menebak dengan benar, kemungkinan besar model tersebut telah menghafal cuplikan tersebut selama pelatihan, demikian simpulan para peneliti.

Hasil uji menunjukkan bahwa GPT-4 menunjukkan tanda-tanda telah menghafal sebagian dari buku fiksi populer, termasuk buku-buku dalam dataset yang berisi contoh ebook berhak cipta (BookMIA). Hasilnya juga menunjukkan bahwa model menghafal sebagian artikel New York Times, meskipun pada tingkat yang relatif lebih rendah.

Abhilasha Ravichander, seorang mahasiswa doktoral di University of Washington dan salah satu penulis studi, mengatakan kepada TechCrunch bahwa temuan ini memberikan gambaran tentang “data kontroversial” yang mungkin telah digunakan dalam pelatihan model. “Untuk memiliki model bahasa besar yang dapat dipercaya, kita perlu memiliki model yang dapat kita periksa dan audit secara ilmiah,” kata Ravichander. “Pekerjaan kami bertujuan untuk menyediakan alat untuk menyelidiki model bahasa besar, tetapi ada kebutuhan nyata akan transparansi data yang lebih besar di seluruh ekosistem.”

OpenAI telah lama mengadvokasi pengembangan model yang menggunakan data berhak cipta. Meskipun perusahaan memiliki kesepakatan lisensi konten tertentu dan menawarkan mekanisme opt-out yang memungkinkan pemilik hak cipta untuk menandai konten yang tidak ingin mereka gunakan untuk pelatihan, mereka perlu mengkodifikasi aturan “penggunaan wajar” terkait pendekatan pelatihan AI.

Temuan ini memunculkan pertanyaan penting mengenai etika, transparansi, dan kelayakan penggunaan data berhak cipta dalam pengembangan model AI. Perdebatan ini akan terus berlanjut seiring perkembangan teknologi dan pertimbangan hukum yang kompleks.

Leave a Reply

Your email address will not be published. Required fields are marked *