Teknik penyelarasan yang menarik. Jika model memperhatikan dan mengatakan pada dirinya sendiri bahwa Anda sedang menonton, ia berperilaku lebih baik — sehingga Anda dapat melatihnya untuk mengingatkan dirinya sendiri lebih sering.
Sebelum rilis Claude Sonnet 4.5, kami melakukan audit kotak putih model, menerapkan teknik interpretabilitas untuk "membaca pikiran model" untuk memvalidasi keandalan dan penyelarasannya. Ini adalah audit pertama semacam itu pada LLM perbatasan, sepengetahuan kami. (1/15)
Tampilkan Versi Asli
1,01 rb
0
Konten pada halaman ini disediakan oleh pihak ketiga. Kecuali dinyatakan lain, OKX bukanlah penulis artikel yang dikutip dan tidak mengklaim hak cipta atas materi tersebut. Konten ini disediakan hanya untuk tujuan informasi dan tidak mewakili pandangan OKX. Konten ini tidak dimaksudkan sebagai dukungan dalam bentuk apa pun dan tidak dapat dianggap sebagai nasihat investasi atau ajakan untuk membeli atau menjual aset digital. Sejauh AI generatif digunakan untuk menyediakan ringkasan atau informasi lainnya, konten yang dihasilkan AI mungkin tidak akurat atau tidak konsisten. Silakan baca artikel yang terkait untuk informasi lebih lanjut. OKX tidak bertanggung jawab atas konten yang dihosting di situs pihak ketiga. Kepemilikan aset digital, termasuk stablecoin dan NFT, melibatkan risiko tinggi dan dapat berfluktuasi secara signifikan. Anda perlu mempertimbangkan dengan hati-hati apakah trading atau menyimpan aset digital sesuai untuk Anda dengan mempertimbangkan kondisi keuangan Anda.