Xây dựng nền tảng cho AI với dữ liệu tiếng Việt mã nguồn mở

14/03/2025 12:02

Các chuyên gia nêu rõ, để Việt Nam tận dụng và phát triển được sức mạnh của AI, việc hỗ trợ tiếng Việt đóng vai trò rất quan trọng.

Phát biểu khai mạc tại họp báo công bố chương trình "Thách thức đổi mới sáng tạo Việt Nam 2025" sáng 14/3, ông Võ Xuân Hoài - Phó Giám đốc Trung tâm đổi mới sáng tạo quốc gia (NIC) - cho biết, trí tuệ nhân tạo (AI) đang chuyển đổi thế giới.

Do đó, việc phát triển các tập dữ liệu Việt Nam quy mô lớn, chất lượng cao và mã nguồn mở để đào tạo và đánh giá AI đã trở thành ưu tiên cấp bách. Mục tiêu của chương trình năm nay là thúc đẩy phát triển lĩnh vực trí tuệ nhân tạo (AI) tại Việt Nam.

Chương trình năm nay tập trung vào Dự án ViGen với nỗ lực tạo ra bộ dữ liệu tiếng Việt mã nguồn mở chất lượng cao để đào tạo, đánh giá và từ đó nâng cao hiệu quả của các mô hình ngôn ngữ lớn (LLMs), giúp các mô hình AI hiểu rõ hơn văn hóa, bối cảnh và cách diễn đạt trong tiếng Việt. Dự án này được kỳ vọng sẽ nâng cao sự hiện diện của tiếng Việt trong quá trình phát triển AI, đồng thời góp phần thúc đẩy nền kinh tế số phát triển vượt bậc và bền vững.

Xây dựng nền tảng cho AI với dữ liệu tiếng Việt mã nguồn mở- Ảnh 1.

Ông Võ Xuân Hoài - Phó Giám đốc Trung tâm đổi mới sáng tạo quốc gia (NIC).

Dự án ViGen cũng đóng góp vào việc đảm bảo sự phát triển AI ở Việt Nam phù hợp với giá trị văn hóa và tiêu chuẩn đạo đức ở Việt Nam, hướng tới việc xây dựng một hệ sinh thái AI mã nguồn mở phù hợp với bối cảnh địa phương và có trách nhiệm.

Nhằm hỗ trợ dự án, Meta sẽ đóng góp các bộ dữ liệu mã nguồn mở, bao gồm những thông tin chi tiết về di chuyển và kết nối xã hội, cũng như dữ liệu đào tạo từ các bản đồ dân số có sự hỗ trợ của AI.

Ông Trần Việt Hùng - Nhà sáng lập & CEO, Tổ chức AI for Vietnam cho biết, ViGen sẽ đóng góp cho cộng đồng những bộ dữ liệu lớn và chất lượng cao bằng tiếng Việt nhằm cải thiện hiện trạng tiếng Việt đang bị coi là một ngôn ngữ còn hiện diện hết sức khiêm tốn trong AI.

"Project ViGen cũng cho thấy sức mạnh và giá trị của những mô hình mã nguồn mở như Llama, cho phép phát triển các giải pháp sáng tạo có tác động toàn cầu có tính đến ngữ cảnh của tiếng Việt", ông Hùng nói.

Xây dựng nền tảng cho AI với dữ liệu tiếng Việt mã nguồn mở- Ảnh 2.

Ông Trần Việt Hùng - Nhà sáng lập & CEO, Tổ chức AI for Vietnam.

Nói về việc chuẩn hóa tiếng Việt cho Llama, PGS.TS Nguyễn Trường Thắng - Viện trưởng Viện Công nghệ Thông tin, Viện Hàn Lâm và Khoa học Công nghệ Việt Nam - một trong những đối tác của ViGen cho biết, AI là những "cậu bé" 5,6 tuổi do các tập đoàn công nghệ tạo ra có khả năng suy nghĩ hấp thụ thông tin nhanh. Và Llama là một "cậu bé" do Meta tạo ra giống như ChatGPT cho Open AI và Gemini của Google.

Tuy nhiên với việc được xây dựng trên nền tảng mã nguồn mở, khác với ChatGPT, chúng ta có thể hiểu cách hoạt động cũng dạy và huấn luyện cho Llama. Song Llama hiện chủ yếu được huấn luyện bằng tiếng Anh, tiếng Pháp (99%), và rất ít tiếng Việt.

"Với việc được tạo ra từ mã nguồn mở giúp, chúng ta có thể tiếp cận và huấn luyện để biến Llama trở thành một "cậu bé" người Việt nhiều hơn", ông Thắng nói và nhấn mạnh, dữ liệu để dạy và huấn luyện Llama là dữ liệu sạch, tiếng Việt chuẩn hoá, có đạo đức và minh bạch.

Bán dẫn, AI định hình vị thế mới của Việt NamThách thức về nguồn lực là rào cản lớn khi phát triển ngành bán dẫn, AI

Nói thêm về việc lựa chọn Llama cho ViGen, ông Bùi Thanh Minh - Phó Tổng Giám Đốc phụ trách phát triển sản phẩm, Giám đốc Đổi mới sáng tạo, MISA - một đối tác khác của dự án nhấn mạnh tầm quan trọng của bảo mật.

Theo ông Minh, với nền tảng mã nguồn mở, mô hình như Llama hoàn toàn có thể triển khai trên server của chúng ta, dữ liệu hoàn toàn trong tầm kiểm soát khi sử dụng. Tính bảo mật cao hơn rất nhiều những mô hình dưới dạng Cloud (truyền dữ liệu ra các server bên ngoài).

Ngoài ra với Llama, cũng cho phép người sử dụng tùy biến và tinh chỉnh để phù hợp với công việc của mình. Bên cạnh đó là sự ổn định ít bị ảnh hưởng bởi tốc độ của Internet. Cuối cùng là được sự hỗ trợ từ nguồn lực lớn của của Meta.

Llama (Large Language Model Meta AI) là một mô hình ngôn ngữ lớn được phát triển bởi Meta (công ty mẹ của Facebook). Phiên bản đầu tiên của Llama được ra mắt vào quý đầu năm 2023.

Llama được thiết kế để hiểu và tạo ra ngôn ngữ tự nhiên giống con người, với các phiên bản có số lượng tham số khác nhau, từ 7 tỷ đến 70 tỷ tham số.

Một trong những điểm đặc biệt của Llama là tính chất mã nguồn mở, cho phép các nhà phát triển và nhà nghiên cứu truy cập và sử dụng mô hình này một cách tự do, thậm chí cho mục đích thương mại. Điều này tạo điều kiện cho cộng đồng công nghệ phát triển và tùy chỉnh các ứng dụng AI dựa trên Llama theo nhu cầu cụ thể.