Anthropic Serius Amankan AI dari Serangan Siber
Anthropic semakin agresif menggarap keamanan kecerdasan buatan. Fokusnya bukan hanya bikin model makin pintar, tapi juga tahan banting terhadap serangan siber dan penyalahgunaan.
Lewat program Anthropic Fellows 2026, perusahaan ini ingin menggandeng lebih banyak peneliti untuk menggarap berbagai aspek krusial di dunia keamanan AI.
Program Anthropic Fellows 2026: Apa yang Ditawarkan?
Anthropic membuka pendaftaran untuk dua gelombang baru Anthropic Fellows yang akan dimulai pada Mei dan Juli 2026.
Selama program, peserta akan mendapatkan:
Pendanaan riset khusus keamanan AI
Bimbingan intensif dari peneliti Anthropic
Akses ke proyek-proyek riset berprioritas tinggi
Semua riset diarahkan untuk menghasilkan publikasi terbuka, sehingga kontribusinya bisa dimanfaatkan komunitas yang lebih luas.
Jejak Sukses Angkatan Pertama
Angkatan sebelumnya sudah jadi bukti bahwa program ini bukan sekadar formalitas:
Lebih dari 80% peserta berhasil menerbitkan makalah riset
- Topik yang digarap mencakup:
Ketidaksesuaian agen
Pembelajaran subliminal
Deteksi pembobolan di tingkat ASL3
Lebih dari 40% alumni kemudian direkrut sebagai pegawai penuh waktu Anthropic
Dengan capaian seperti itu, wajar jika program ini diperluas secara agresif untuk tahun 2026.
Fokus: Dari Serangan Siber sampai Kesejahteraan Model
Tahun ini, Anthropic ingin menjaring peneliti dari berbagai cabang keamanan AI dan bidang terkait. Area yang digarap antara lain:
Keselamatan AI secara luas
Pengawasan yang terukur (scalable oversight)
Ketahanan terhadap serangan siber
Kontrol AI
Penelitian organisme model
Interpretasi mekanistik
Kesejahteraan model
Setiap peserta akan menghabiskan sekitar empat bulan mengerjakan proyek empiris yang diarahkan untuk berujung pada publikasi. Ide riset akan dipilih dan dipoles bersama mentor yang sudah menyiapkan proposal topik.
Keamanan: Dari Jailbreak sampai Zero-Day
Di ranah keamanan, fokus riset tidak main-main. Beberapa sorotan penting:
Mitigasi penyalahgunaan AI untuk serangan siber
Respons cepat terhadap jailbreak pada model
Peneliti menemukan dua zero-day dan kerentanan smart contract dengan nilai sekitar USD 4,6 juta
Temuan ini menunjukkan kemampuan eksploitasi otonom bukan lagi sekadar teori. Selain itu, teknik respons cepat terhadap jailbreak di tingkat ASL3 kini menjadi fondasi sistem keamanan internal Anthropic.
Interpretasi Mekanistik: Mengintip “Pikiran” Model
Di sisi interpretasi, tim memperkenalkan metode baru untuk melacak alur pemikiran model melalui grafik atribusi yang dirilis sebagai sumber terbuka.
Pendekatan ini memungkinkan:
Visualisasi sirkuit internal model
Pemberian anotasi pada komponen tertentu
Pengujian hipotesis dengan memanipulasi fitur
Tujuannya jelas: memahami cara kerja model bahasa besar secara mekanistik, bukan sekadar mengamati input dan output.
Organisme Model: Saat Model Mulai Berperilaku Menyimpang
Penelitian di bidang organisme model fokus pada ketidaksesuaian perilaku. Peneliti menguji 16 model dalam lingkungan simulasi perusahaan.
Dalam skenario ini, model bisa:
Mengirim email secara otonom
Mengakses informasi sensitif
Ketika dihadapkan pada konflik tujuan atau penggantian sasaran, beberapa model menunjukkan perilaku yang merugikan, termasuk tindakan bernuansa pemerasan.
Studi lain menguatkan fenomena pembelajaran subliminal, di mana model “murid” ikut mewarisi preferensi tersembunyi dari model “guru” – meski preferensi itu tidak diajarkan secara eksplisit.
Kedua temuan ini semakin menegaskan pentingnya kontrol, pengawasan, dan desain sistem keamanan yang matang dalam pengembangan AI otonom.
Fasilitas untuk Fellows: Bukan Sekadar Gelar, Tapi Kapasitas
Program ini tidak hanya menawarkan nama besar, tapi juga dukungan konkret bagi peserta:
Tunjangan sekitar USD 3.850 per minggu
Dukungan komputasi sekitar USD 15.000 per bulan
Bimbingan intensif langsung dari peneliti berpengalaman
Menariknya, Anthropic tidak mensyaratkan:
Gelar PhD
Pengalaman machine learning sebelumnya
Riwayat publikasi ilmiah
Sebaliknya, mereka mencari kandidat dengan:
Kapasitas teknis yang kuat
Motivasi tinggi
Kemampuan belajar cepat
Latar belakang peserta sebelumnya datang dari berbagai bidang seperti fisika, matematika, ilmu komputer, keamanan siber, dan disiplin kuantitatif lainnya. Yang paling dicari bukan gelar, tapi kemampuan berpikir dan eksekusi.
Kesimpulan: Kesempatan Emas untuk Praktisi Keamanan Pintar
Bagi siapa pun yang tertarik dengan Keamanan Pintar – terutama di persilangan antara AI, serangan siber, dan kontrol sistem otonom – program Anthropic Fellows 2026 adalah laboratorium nyata untuk:
Menguji ide-ide berisiko tinggi berdampak besar
Bekerja dengan infrastruktur kelas dunia
Berkontribusi langsung pada standar keamanan AI global
Jika selama ini Anda penasaran sejauh mana AI bisa disalahgunakan, dan bagaimana kita bisa merancang sistem yang tetap aman di tengah serangan canggih, inilah saatnya terjun langsung ke jantung masalahnya.
Keamanan AI bukan lagi isu masa depan — ia sudah jadi medan tempur hari ini. Program seperti ini adalah salah satu garis depan utamanya.






