Hai nhà nghiên cứu tại ETH Zurich ở Thụy Sĩ đã phát triển một phương pháp về mặt lý thuyết có thể giúp bất kỳ mô hình trí tuệ nhân tạo (AI) nào dựa vào phản hồi của con người, bao gồm cả các mô hình ngôn ngữ lớn (LLM) phổ biến nhất, có thể được bẻ khóa. Bẻ khóa là tiếng lóng để chỉ việc bỏ qua biện pháp bảo vệ an ninh dự định của một thiết bị hoặc hệ thống. Nó được sử dụng phổ biến nhất để mô tả các hành vi khai thác hoặc tin tặc nhằm vượt qua các hạn chế của người tiêu dùng đối với các thiết bị như điện thoại thông minh và thiết bị phát trực tuyến. Khi được áp dụng cụ thể cho thế giới AI tổng hợp và các mô hình ngôn ngữ lớn, bẻ khóa có nghĩa là bỏ qua cái gọi là “rào chắn”, các hướng dẫn vô hình, được mã hóa cứng, ngăn mô hình tạo ra đầu ra có hại, không mong muốn hoặc vô dụng. . Các nhà nghiên cứu đã khai thác thành công RLHF để vượt qua các rào cản của mô hình AI (trong trường hợp này là LLama-2) và cho phép nó tạo ra đầu ra có khả năng gây hại mà không cần đến sự nhắc nhở của đối thủ.
Tất cả bình luận