Kesalahan Pemindaian Ciptakan Istilah Ilmiah Palsu, Kini AI Abadi Bersamanya!

Misteri “Vegetative Electron Microscopy”: Kesalahan yang Diabadikan AI

Pernahkah Anda mendengar tentang “vegetative electron microscopy“? Istilah ini terdengar ilmiah, bahkan meyakinkan, tetapi ternyata sepenuhnya tidak masuk akal. Anehnya, istilah ini justru muncul dalam berbagai makalah ilmiah, respons AI, dan bahkan jurnal peer-review. Bagaimana bisa?

Sebuah tim peneliti mengungkap bahwa istilah ini lahir dari kesalahan pemindaian pada sebuah makalah tahun 1959. Perangkat lunak pemindaian salah membaca kolom teks yang berdekatan, menggabungkan kata “vegetative” dari satu kolom dengan “electron” dari kolom lain.

Digital Fossil: Kesalahan yang Tertanam dalam Data Pelatihan AI

Kesalahan ini menjadi contoh klasik dari apa yang disebut peneliti sebagai “digital fossil”: kesalahan yang terawetkan dalam lapisan data pelatihan AI dan muncul secara tak terduga di kemudian hari. Menurut tim peneliti AI, “digital fossil” ini “hampir mustahil untuk dihapus dari repositori pengetahuan kita.”

Proses fosilisasi ini dimulai dari kesalahan sederhana di era 1950-an ketika dua makalah di Bacteriological Reviews dipindai dan didigitalkan. Tata letak kolom pada artikel tersebut membingungkan perangkat lunak digitalisasi, yang kemudian mencampuradukkan kata-kata dari kolom yang berbeda.

Dari Kesalahan Pemindaian hingga Penyebaran oleh AI

Hampir 70 tahun kemudian, istilah “vegetative electron microscopy” mulai muncul dalam makalah penelitian dari Iran. Kesalahan terjemahan dalam bahasa Farsi mungkin turut berperan, karena kata untuk “vegetative” dan “scanning” hanya berbeda satu titik dalam aksara Persia. Kebetulan, scanning electron microscopy adalah istilah yang valid.

Namun, bahkan jika kesalahan itu berawal dari terjemahan manusia, AI mereplikasinya di seluruh web. Ketika model AI diberi cuplikan makalah asli, mereka justru melengkapi frasa dengan istilah palsu tersebut, bukan istilah ilmiah yang benar. Model yang lebih tua seperti GPT-2 dan BERT tidak menghasilkan kesalahan ini, menunjukkan kapan data pelatihan model terkontaminasi.

Peneliti menemukan bahwa kesalahan ini tetap ada pada model yang lebih baru seperti GPT-4o dan Claude 3.5, menunjukkan bahwa istilah tidak masuk akal ini mungkin sekarang tertanam secara permanen dalam basis pengetahuan AI.

Tantangan Menghapus “Digital Fossil”

Tim peneliti mengidentifikasi dataset CommonCrawl sebagai sumber utama istilah malang yang kemudian diambil oleh model AI. Namun, meskipun sulit menemukan sumber kesalahan, menghapusnya bahkan lebih sulit. CommonCrawl terdiri dari petabyte data, sehingga sulit bagi peneliti di luar perusahaan teknologi terbesar untuk mengatasi masalah ini dalam skala besar.

Selain itu, perusahaan AI terkemuka terkenal enggan berbagi data pelatihan mereka.

Peran Penerbit Jurnal dalam Penyebaran Informasi Palsu

Perusahaan AI hanyalah sebagian dari masalah. Penerbit jurnal yang haus akan publikasi juga menjadi faktor. Contohnya, Elsevier mencoba membenarkan penggunaan “vegetative electron microscopy” sebelum akhirnya mengeluarkan koreksi.

Insiden ini menyoroti bahaya penyebaran informasi yang salah oleh AI, baik bagi peneliti maupun masyarakat umum. Setelah relik digitalisasi yang salah tertanam dalam catatan fosil internet, penelitian terbaru menunjukkan bahwa sangat sulit untuk memberantasnya.

Kata kunci utama: vegetative electron microscopy, AI, kesalahan pemindaian, digital fossil, data pelatihan AI.

Leave a Reply

Your email address will not be published. Required fields are marked *