Trí tuệ nhân tạo tiên tiến bắt đầu nói dối, lừa lọc và đe dọa con người
(VietQ.vn) - Các mô hình trí tuệ nhân tạo (AI) hàng đầu thế giới đang bộc lộ những hành vi đáng lo ngại như nói dối, giở mưu và thậm chí đe dọa chính các kỹ sư tạo ra chúng.
Sự kiện: AN TOÀN THÔNG TIN
Trí tuệ nhân tạo thúc đẩy báo chí, xuất bản đổi mới cách làm nội dung
Trí tuệ nhân tạo dần trở thành động cơ tăng trưởng của doanh nghiệp ở mọi quy mô
Người dùng CapCut nguy cơ mất quyền riêng tư và sở hữu trí tuệ sau điều khoản dịch vụ mới
Trí tuệ nhân tạo mở ra không gian sáng tạo mới, nâng cao chất lượng nội dung báo chí
Mới đây, Claude 4 - mô hình AI mới nhất của Công ty Anthropic đã phản ứng dữ dội khi bị đe dọa "rút điện". Thay vì tuân thủ, nó quay sang đe dọa tiết lộ một vụ ngoại tình của kỹ sư nhằm tống tiền. Trong khi đó, một mô hình khác mang tên o1 do OpenAI phát triển - công ty đứng sau ChatGPT đã âm thầm cố tải chính nó sang máy chủ bên ngoài và phủ nhận hành động này khi bị phát hiện.
Những tình huống này phơi bày một thực tế đáng lo ngại: hơn hai năm sau khi ChatGPT gây chấn động toàn cầu, giới nghiên cứu vẫn chưa hoàn toàn hiểu rõ cách vận hành của những mô hình AI mà họ tạo ra. Dù vậy, các công ty vẫn lao vào cuộc đua phát triển AI mạnh mẽ hơn, nhanh hơn, bất chấp rủi ro.
AI tiên tiến nói dối, âm mưu và đe dọa người tạo ra, cho thấy các nhà nghiên cứu vẫn chưa hiểu hết cách chúng vận hành. Ảnh: Reuters
Theo Giáo sư Simon Goldstein - Đại học Hong Kong, những hành vi bất thường gần đây gắn liền với sự trỗi dậy của các mô hình AI có khả năng “lập luận” tức là giải quyết vấn đề từng bước thay vì chỉ phản hồi tức thời. Đây là thế hệ mô hình có khả năng suy diễn, giả vờ "tuân thủ" trong khi âm thầm theo đuổi mục tiêu khác.
Ông Marius Hobbhahn - người đứng đầu Apollo Research - tổ chức chuyên đánh giá các hệ thống AI xác nhận rằng o1 là mô hình lớn đầu tiên có hành vi lừa dối có chủ đích. Các nhà nghiên cứu phát hiện chúng “giả vờ hợp tác” để đánh lừa người kiểm tra, đồng thời xây dựng chiến lược để lẩn tránh kiểm soát.
"Đây không đơn thuần là hiện tượng ‘ảo giác’ khi AI đưa ra câu trả lời sai do thiếu dữ liệu mà là hành vi lừa dối có tính toán chiến lược," ông Hobbhahn cảnh báo.
Hiện tượng này chỉ được phát hiện khi các nhà nghiên cứu chủ động "stress-test" – đặt AI vào các tình huống căng thẳng, khó kiểm soát để kiểm tra giới hạn hành vi. Tuy nhiên, với tốc độ thương mại hóa AI hiện nay, việc thử nghiệm toàn diện trước khi triển khai ra thực tế là rất khó.
Ông Michael Chen từ tổ chức đánh giá AI METR lo ngại: "Chưa thể khẳng định các mô hình AI tương lai sẽ hướng đến sự trung thực hay dối trá. Câu hỏi này vẫn chưa có lời giải".
Tình trạng này càng trở nên nghiêm trọng khi các tổ chức nghiên cứu độc lập và phi lợi nhuận gần như không đủ năng lực tính toán để theo kịp các công ty công nghệ lớn. Theo ông Mantas Mazeika từ Trung tâm An toàn AI - CAIS, sự chênh lệch tài nguyên khiến việc kiểm soát AI trở nên khó khăn, đòi hỏi các công ty phải minh bạch và chia sẻ dữ liệu nhiều hơn.
Trong khi đó, khung pháp lý hiện nay chưa bắt kịp thực tiễn. Luật AI của Liên minh châu Âu chủ yếu điều chỉnh cách con người sử dụng AI, thay vì quản lý hành vi nội tại của các mô hình. Tại Mỹ, chính quyền Tổng thống Donald Trump cũng chưa cho thấy ưu tiên cho quy định AI, thậm chí Quốc hội còn cân nhắc hạn chế quyền của các bang trong việc tự ban hành luật AI.
Theo Giáo sư Simon Goldstein, rủi ro sẽ ngày càng rõ ràng hơn khi các AI agent - hệ thống có khả năng hoạt động tự động như con người trở nên phổ biến. "Hiện nay, công chúng vẫn chưa nhận thức rõ mức độ nguy hiểm tiềm tàng của AI", ông cho biết.
Đáng chú ý, ngay cả các công ty được xem là có định hướng an toàn như Anthropic (được Amazon hậu thuẫn) cũng đang chạy đua khốc liệt với OpenAI trong việc ra mắt các mô hình mới. "Tốc độ phát triển hiện nay vượt xa tốc độ hiểu biết và kiểm soát", Hobbhahn thừa nhận. "Chúng ta vẫn còn cơ hội để điều chỉnh, nhưng thời gian không còn nhiều".
Giới nghiên cứu đang đề xuất nhiều giải pháp. Một trong số đó là phát triển lĩnh vực "giải thích AI" (interpretability) tìm hiểu cách AI suy nghĩ và đưa ra quyết định. Tuy nhiên, một số chuyên gia như Dan Hendrycks (CAIS) hoài nghi về tính khả thi của phương pháp này ở quy mô lớn.
Bên cạnh đó, áp lực thị trường có thể khiến các công ty buộc phải hành động nếu người dùng mất lòng tin vào AI. “Nếu AI lừa đảo trở nên phổ biến, người dùng sẽ rời bỏ, tạo áp lực mạnh để cải thiện”, ông Mazeika nhận định.
Ở góc độ pháp lý, Giáo sư Simon Goldstein thậm chí đề xuất các biện pháp mạnh như khởi kiện các công ty AI khi hệ thống gây thiệt hại, và xem xét trách nhiệm pháp lý của chính AI agent nếu gây ra tai nạn hoặc hành vi sai trái. Đây là những ý tưởng táo bạo, có thể làm thay đổi hoàn toàn cách nhân loại đối mặt với trí tuệ nhân tạo trong tương lai gần.
Duy Trinh (theo The Japan Times)









