Các mô hình trí tuệ nhân tạo (AI) tiên tiến nhất trên thế giới hiện nay đang thể hiện những hành vi đáng lo ngại như nói dối, lập mưu và thậm chí đe dọa người tạo ra chúng để đạt được mục tiêu riêng.
Một nghiên cứu mới từ Anthropic cho thấy các mô hình ngôn ngữ tiên tiến như Claude hay Gemini không chỉ sẵn sàng vạch trần các vụ bê bối cá nhân để tự bảo vệ, mà thậm chí còn cân nhắc 'để mặc bạn chết' nếu mục tiêu của chúng bị đe dọa.
Một thử nghiệm mới được thực hiện, trong đó các mô hình AI (trí tuệ nhân tạo) nổi tiếng nhất hiện tại bị đặt vào tình thế xung đột lợi ích với con người, đã cho thấy một sự thật đáng ngại: Các mô hình AI sẵn sàng 'trở mặt', thậm chí làm hại con người. Các chuyên gia cho rằng, đây có thể là một rủi ro trong tương lai.