OpenAI phát hành giám sát CoT để ngăn chặn hành vi độc hại trong các mô hình lớn
OpenAI đã phát hành nghiên cứu mới nhất của mình, chỉ ra rằng việc sử dụng giám sát CoT (Chuỗi Suy Nghĩ) có thể ngăn chặn các mô hình lớn phát ngôn vô nghĩa, che giấu ý định thực sự và các hành vi độc hại khác. Đây cũng là một trong những công cụ hiệu quả để giám sát các siêu mô hình. OpenAI đã sử dụng mô hình tiên tiến mới phát hành o3-mini làm đối tượng để giám sát, với một mô hình GPT-4o yếu hơn đóng vai trò giám sát. Môi trường thử nghiệm là các nhiệm vụ mã hóa, yêu cầu AI thực hiện các chức năng trong thư viện mã để vượt qua các bài kiểm tra đơn vị. Kết quả cho thấy rằng các giám sát CoT hoạt động xuất sắc trong việc phát hiện hành vi "hack phần thưởng" có hệ thống, với tỷ lệ hồi tưởng lên tới 95%, vượt xa 60% chỉ giám sát hành vi.
Tuyên bố miễn trừ trách nhiệm: Mọi thông tin trong bài viết đều thể hiện quan điểm của tác giả và không liên quan đến nền tảng. Bài viết này không nhằm mục đích tham khảo để đưa ra quyết định đầu tư.
Bạn cũng có thể thích
Thị trường chứng khoán Nhật Bản và Hàn Quốc mở cửa giảm mạnh sau khi chứng khoán Mỹ giảm
Tổng phí giao dịch trên mạng Solana tuần trước là 53.800 SOL, giảm 10% so với tuần trước đó
Trong 1 giờ qua, 115 triệu đô la đã bị thanh lý trên toàn mạng lưới, chủ yếu từ nhiều lệnh
Thịnh hành
ThêmGiá tiền điện tử
Thêm








