Công bố bộ tiêu chuẩn đánh giá năng lực tiếng Việt

06:13 03/10/2025

(VietQ.vn) - Zalo AI và Viện Khoa học và Công nghệ tiên tiến Nhật Bản (JAIST) vừa giới thiệu phiên bản mới của VMLU (Vietnamese Multitask Language Understanding) - bộ tiêu chuẩn đánh giá năng lực tiếng Việt của các mô hình ngôn ngữ lớn (LLM).

Trong bối cảnh các mô hình AI ngày càng trở nên thông minh, phiên bản VMLU, được giới thiệu lần đầu tiên vào năm 2023, đã được nâng cấp để đánh giá sâu hơn những năng lực phức tạp. Cụ thể, bộ tiêu chuẩn mở rộng đánh giá ba kỹ năng cốt lõi của một LLM hiện đại, bao gồm:

Đọc hiểu (ViSQuAD): 3.310 câu hỏi đánh giá khả năng hiểu sâu văn bản, xử lý các câu hỏi phức tạp dựa trên đặc thù ngôn ngữ và ngữ cảnh tiếng Việt.

Suy luận (ViDrop): 3.090 câu hỏi thách thức khả năng suy luận logic của LLM qua các tác vụ như so sánh, đếm, và tính toán số học.

Tương tác (ViDialog): 210 hội thoại đánh giá sự mạch lạc, khả năng hiểu ngữ cảnh và vận dụng kiến thức đa lĩnh vực (lịch sử, địa lý, logic) trong đối thoại.

Việc công bố bộ tiêu chuẩn đánh giá năng lực tiếng Việt VMLU giúp có thêm công cụ đánh giá chất lượng đầu ra của các mô hình AI tiếng Việt.

Điểm nổi bật của bộ tiêu chuẩn mới là phương pháp đánh giá tiên tiến, kết hợp đa dạng hình thức từ trắc nghiệm, câu hỏi mở đến yêu cầu suy luận từng bước. Đặc biệt, VMLU áp dụng phương pháp “LLM as a judge” (dùng LLM để đánh giá LLM) - một xu hướng đang được cộng đồng AI toàn cầu áp dụng để có kết quả khách quan và quy mô hơn.

Với 10.880 câu hỏi trắc nghiệm, thuộc 58 chủ đề, được chia theo nhiều cấp độ, phiên bản 2023 đã tập trung vào đánh giá kiến thức nền tảng của LLM. Trong khi đó, bộ tiêu chuẩn mới tiến một bước xa hơn, đo lường khả năng suy luận và tương tác của LLM trong những ngữ cảnh thực tế. Sự nâng cấp này không chỉ giúp các nhà phát triển đánh giá mô hình toàn diện hơn mà còn thúc đẩy LLM tạo ra những giá trị hữu ích cho người dùng cuối.

Theo TS. Châu Thành Đức, Giám đốc nghiên cứu và phát triển trí tuệ nhân tạo tại Zalo AI, nhận định: “Thế giới hiện có hàng trăm bộ tiêu chuẩn khác nhau để đánh giá năng lực của các mô hình ngôn ngữ lớn. Tuy nhiên, số lượng các bộ tiêu chuẩn đánh giá phục vụ riêng cho tiếng Việt lại rất hạn chế. Với việc ra mắt các bộ tiêu chuẩn vào năm 2023 và 2025, chúng tôi mong muốn đa dạng hóa các phương diện đánh giá”.

Với sự hợp tác của các chuyên gia đầu ngành tại Zalo AI và Viện JAIST, VMLU sẽ tiếp tục nghiên cứu xây dựng các bộ tiêu chuẩn đánh giá đa dạng hơn về lĩnh vực cũng như độ khó. Trong tương lai, VMLU cũng hướng tới phát triển các bộ tiêu chuẩn đánh giá tính an toàn và trung thực, đảm bảo các mô hình LLM được phát triển một cách có trách nhiệm.

Sự ra đời của VMLU đã tạo động lực cho các cá nhân, startup hay các nhóm nghiên cứu nhỏ trong việc phát triển ra các mô hình AI tiếng Việt mới. Điều này tạo điều kiện cho các nghiên cứu mới, đặt nền móng đo lường sự chính xác và nâng cấp kết quả của các mô hình cơ bản, giúp hoàn thiện quá trình phát triển các ứng dụng AI ngôn ngữ Việt, do chính người Việt tạo ra để phục vụ người Việt.

Đây cũng là một trong những yếu tố quan trọng thúc đẩy sự phát triển Generative AI Việt Nam đi nhanh hơn, bắt kịp với làn sóng phát triển AI trên thế giới.

Bảo Linh (t/h)

Chất lượng Việt Nam

Từ khóa:mô hình AI, tiêu chuẩn, LLM, zalo AI, đánh giá năng lực tiếng việt, công cụ

'Điều chúng tôi mua không chỉ là bó rau, mà là sự an tâm'

8 nhóm giải pháp về tiêu chuẩn, đo lường, chất lượng thúc đẩy phát triển thị trường nội địa

3 nguyên tắc cơ bản của xây dựng, quản lý, áp dụng tiêu chuẩn và quy chuẩn kỹ thuật

Công bố bộ tiêu chuẩn đánh giá năng lực tiếng Việt

Khơi thông ‘điểm nghẽn’ đầu tư công, thúc đẩy tăng trưởng kinh tế

Bảy nguyên tắc quản lý chất lượng: Nền tảng cho hiệu quả và phát triển bền vững

Phát triển thị trường điện cạnh tranh: Đề xuất nghiên cứu cơ chế giá điện theo khu vực

tin liên quan

QUATEST 3: 50 năm đồng hành cùng chất lượng, vững bước tương lai 10

'Điều chúng tôi mua không chỉ là bó rau, mà là sự an tâm' 10

8 nhóm giải pháp về tiêu chuẩn, đo lường, chất lượng thúc đẩy phát triển thị trường nội địa 10

Nâng cao niềm tin người tiêu dùng thông qua truyền thông về tiêu chuẩn đo lường chất lượng 10

3 nguyên tắc cơ bản của xây dựng, quản lý, áp dụng tiêu chuẩn và quy chuẩn kỹ thuật

Nửa đầu năm 2026, Tổng Công ty Lọc hóa dầu Việt Nam lập kỷ lục sản lượng và doanh thu

Quy chuẩn kỹ thuật được phân loại ra sao?

Hàng đạt tiêu chuẩn khác gì hàng thông thường?

Ra mắt Công viên công nghệ giải trí đa tầng Gigaversal

Gần 100 thí sinh tham dự vòng chung kết Cuộc thi Hackathon Quốc tế về Tính toán Lượng tử

Đáp ứng quy chuẩn kỹ thuật: Từ nghĩa vụ bắt buộc đến lợi thế cạnh tranh của doanh nghiệp

Đằng sau lời quảng cáo 'có cánh': Chất lượng thật nằm ở đâu?

Vai trò kinh tế nhà nước trong nắm giữ công nghệ nguồn ở Việt Nam hiện nay

Ajinomoto Việt Nam chăm lo toàn diện cho sức khỏe và đời sống của người lao động

video hot

[VIDEO]QUATEST 3: 50 năm đồng hành cùng chất lượng, vững bước tương lai

[VIDEO]Hàng giả 'đội lốt' hàng xuất khẩu: Hé lộ đường dây xuyên biên giới

[VIDEO]Năm dấu hiệu nhận biết sản phẩm bảo đảm chất lượng

TS Phan Đức Hiếu - Chuyên gia kinh tế

Ông Hoàng Quang Phòng - Phó Chủ tịch VCCI

Bộ trưởng Bộ Khoa học và Công nghệ Nguyễn Mạnh Hùng

TS. Nguyễn Đức Độ - Phó Viện trưởng Viện Kinh tế Tài chính