Wikipedia Rilis Dataset AI: Atasi Beban Bot dengan Solusi Inovatif

Wikipedia Siapkan Dataset AI untuk Redakan Serangan Bot

Yayasan Wikimedia, pengelola Wikipedia, mengumumkan kemitraan dengan Kaggle (milik Google) untuk merilis dataset yang dioptimalkan untuk pelatihan model AI. Langkah ini diambil sebagai respons terhadap lonjakan trafik bot yang signifikan, yang membebani infrastruktur Wikipedia.

Dataset awal akan tersedia dalam bahasa Inggris dan Prancis, berisi teks mentah Wikipedia yang disederhanakan, tanpa referensi atau kode markdown. Tujuannya adalah untuk menyediakan sumber data terstruktur bagi pengembang AI, sehingga mengurangi kebutuhan mereka untuk terus menerus menjelajahi (crawling) situs web Wikipedia.

Lonjakan Traffic Bot Ancam Keberlanjutan Wikipedia

Sebagai platform non-profit yang bergantung pada donasi, Wikipedia tidak secara langsung memonetisasi kontennya. Meskipun terbuka untuk penggunaan data oleh pihak lain (seperti Kiwix, versi offline Wikipedia), lonjakan trafik bot untuk keperluan pelatihan AI telah menimbulkan masalah baru. Konsumsi bandwidth meningkat 50% sejak Januari 2024, membebani sumber daya Wikipedia.

Mengapa Ini Penting?

Biaya Operasional: Lonjakan trafik bot meningkatkan biaya bandwidth, yang ditanggung oleh donasi.
Aksesibilitas: Dataset terstruktur mengurangi beban pada server Wikipedia, memastikan akses yang stabil bagi pengguna.
Inovasi AI: Menyediakan data yang bersih dan terstruktur mendorong pengembangan model AI yang lebih baik.

Dilema Konten dan Hak Cipta di Era AI

Muncul perdebatan mengenai penggunaan konten untuk pelatihan AI. Beberapa berpendapat bahwa semua konten harus gratis dan penggunaan data untuk melatih AI dianggap penggunaan wajar (fair use). Namun, penciptaan konten membutuhkan biaya, dan beberapa perusahaan AI mengabaikan norma-norma terkait penghormatan terhadap keinginan pemilik situs untuk tidak di-crawl.

Model bahasa (language model) membutuhkan data pelatihan yang sangat besar. Data ini telah menjadi komoditas berharga di era ledakan AI. Beberapa model terkemuka dilatih menggunakan karya berhak cipta, dan beberapa perusahaan AI terlibat dalam litigasi terkait masalah ini.

Lisensi Creative Commons dan Penggunaan AI

Konten Wikipedia dilisensikan di bawah Creative Commons Attribution-ShareAlike, yang memungkinkan siapa pun untuk berbagi, mengadaptasi, dan membangun karya tersebut, bahkan secara komersial, selama kredit diberikan kepada pencipta asli dan karya turunan dilisensikan dengan persyaratan yang sama. Bagaimana Wikimedia akan memastikan perusahaan AI menghormati persyaratan ini masih belum jelas.

Kemitraan Wikipedia dan Kaggle diharapkan dapat memberikan solusi yang saling menguntungkan: mengurangi beban infrastruktur Wikipedia dan menyediakan data berkualitas tinggi bagi pengembang AI.