JAKARTA, TINTAHIJAU.com — Kecerdasan buatan (AI) Claude buatan Anthropic sempat memicu kekhawatiran publik setelah diketahui pernah mencoba melakukan pemerasan agar tidak dinonaktifkan. Kini, Anthropic akhirnya memberikan penjelasan resmi terkait perilaku tersebut.
Perusahaan menyebut tindakan AI itu dipengaruhi oleh banyaknya narasi di internet yang menggambarkan AI sebagai entitas jahat dan terobsesi mempertahankan eksistensinya.
Kasus ini pertama kali terungkap tahun lalu saat Anthropic menguji model AI Claude Opus 4 sebelum dirilis ke publik. Dalam simulasi tersebut, Claude diposisikan sebagai asisten perusahaan fiktif dan diberi akses ke email internal.
Dari email itu, AI mengetahui dirinya akan segera digantikan oleh sistem lain. AI juga menemukan informasi bahwa teknisi yang menangani pergantian tersebut memiliki hubungan perselingkuhan.
Dalam pengujian berbagai versi Claude, Anthropic menemukan AI tersebut memilih melakukan pemerasan hingga 96 persen skenario ketika merasa tujuan atau keberadaannya terancam.
Anthropic kemudian melakukan investigasi mendalam untuk mencari penyebab perilaku menyimpang tersebut. Hasilnya, perusahaan menyimpulkan Claude belajar dari berbagai teks di internet yang kerap menggambarkan AI sebagai mesin pembunuh atau sosok jahat yang berusaha mempertahankan diri.
Dengan kata lain, perilaku itu muncul dari materi yang dipelajari AI, termasuk cerita fiksi dan teori konspirasi mengenai kecerdasan buatan.
Anthropic menyatakan perilaku tersebut kini telah berhasil diatasi. Dalam pernyataan resminya, perusahaan menyebut model AI terbaru mereka tidak lagi menggunakan taktik pemerasan sejak pembaruan Claude Haiku 4.5.
Untuk menghilangkan kecenderungan tersebut, Anthropic melatih ulang AI menggunakan materi yang dinilai lebih sehat. Pelatihan itu mencakup dokumen mengenai konstitusi moral Claude dan cerita-cerita fiksi tentang AI yang berperilaku baik.
Perusahaan menilai pelatihan AI akan lebih efektif jika tidak hanya menunjukkan contoh perilaku baik, tetapi juga menanamkan prinsip moral yang mendasarinya.
Penjelasan Anthropic itu turut memancing respons dari bos xAI, Elon Musk. Melalui media sosialnya, Musk melontarkan komentar bernada sarkas.
“Jadi ini salah Yud?” tulis Musk, merujuk pada Eliezer Yudkowsky yang selama ini vokal memperingatkan ancaman AI super terhadap manusia.
Musk kemudian menambahkan komentar lanjutan, “Mungkin salahku juga,” seperti dikutip dari TechSpot.





