Bitget App
Giao dịch thông minh hơn
Mua CryptoThị trườngGiao dịchFuturesSao chépBots‌Earn
OpenAI phát hành giám sát CoT để ngăn chặn hành vi độc hại trong các mô hình lớn

OpenAI phát hành giám sát CoT để ngăn chặn hành vi độc hại trong các mô hình lớn

Xem bài gốc
Bitget2025/03/10 23:35

OpenAI đã phát hành nghiên cứu mới nhất của mình, chỉ ra rằng việc sử dụng giám sát CoT (Chuỗi Suy Nghĩ) có thể ngăn chặn các mô hình lớn phát ngôn vô nghĩa, che giấu ý định thực sự và các hành vi độc hại khác. Đây cũng là một trong những công cụ hiệu quả để giám sát các siêu mô hình. OpenAI đã sử dụng mô hình tiên tiến mới phát hành o3-mini làm đối tượng để giám sát, với một mô hình GPT-4o yếu hơn đóng vai trò giám sát. Môi trường thử nghiệm là các nhiệm vụ mã hóa, yêu cầu AI thực hiện các chức năng trong thư viện mã để vượt qua các bài kiểm tra đơn vị. Kết quả cho thấy rằng các giám sát CoT hoạt động xuất sắc trong việc phát hiện hành vi "hack phần thưởng" có hệ thống, với tỷ lệ hồi tưởng lên tới 95%, vượt xa 60% chỉ giám sát hành vi.

0

Tuyên bố miễn trừ trách nhiệm: Mọi thông tin trong bài viết đều thể hiện quan điểm của tác giả và không liên quan đến nền tảng. Bài viết này không nhằm mục đích tham khảo để đưa ra quyết định đầu tư.

PoolX: Khóa để nhận token mới.
APR lên đến 12%. Luôn hoạt động, luôn nhận airdrop.
Khóa ngay!