Xây dựng nền tảng cho AI với dữ liệu tiếng Việt mã nguồn mở

Phát biểu khai mạc tại họp báo công bố chương trình "Thách thức đổi mới sáng tạo Việt Nam 2025" sáng 14/3, ông Võ Xuân Hoài - Phó Giám đốc Trung tâm đổi mới sáng tạo quốc gia (NIC) - cho biết, trí tuệ nhân tạo (AI) đang chuyển đổi thế giới.

Do đó, việc phát triển các tập dữ liệu Việt Nam quy mô lớn, chất lượng cao và mã nguồn mở để đào tạo và đánh giá AI đã trở thành ưu tiên cấp bách. Mục tiêu của chương trình năm nay là thúc đẩy phát triển lĩnh vực trí tuệ nhân tạo (AI) tại Việt Nam.

Chương trình năm nay tập trung vào Dự án ViGen với nỗ lực tạo ra bộ dữ liệu tiếng Việt mã nguồn mở chất lượng cao để đào tạo, đánh giá và từ đó nâng cao hiệu quả của các mô hình ngôn ngữ lớn (LLMs), giúp các mô hình AI hiểu rõ hơn văn hóa, bối cảnh và cách diễn đạt trong tiếng Việt. Dự án này được kỳ vọng sẽ nâng cao sự hiện diện của tiếng Việt trong quá trình phát triển AI, đồng thời góp phần thúc đẩy nền kinh tế số phát triển vượt bậc và bền vững.

Xây dựng nền tảng cho AI với dữ liệu tiếng Việt mã nguồn mở- Ảnh 1.

Dự án ViGen cũng đóng góp vào việc đảm bảo sự phát triển AI ở Việt Nam phù hợp với giá trị văn hóa và tiêu chuẩn đạo đức ở Việt Nam, hướng tới việc xây dựng một hệ sinh thái AI mã nguồn mở phù hợp với bối cảnh địa phương và có trách nhiệm.

Nhằm hỗ trợ dự án, Meta sẽ đóng góp các bộ dữ liệu mã nguồn mở, bao gồm những thông tin chi tiết về di chuyển và kết nối xã hội, cũng như dữ liệu đào tạo từ các bản đồ dân số có sự hỗ trợ của AI.

Ông Trần Việt Hùng - Nhà sáng lập & CEO, Tổ chức AI for Vietnam cho biết, ViGen sẽ đóng góp cho cộng đồng những bộ dữ liệu lớn và chất lượng cao bằng tiếng Việt nhằm cải thiện hiện trạng tiếng Việt đang bị coi là một ngôn ngữ còn hiện diện hết sức khiêm tốn trong AI.

"Project ViGen cũng cho thấy sức mạnh và giá trị của những mô hình mã nguồn mở như Llama, cho phép phát triển các giải pháp sáng tạo có tác động toàn cầu có tính đến ngữ cảnh của tiếng Việt", ông Hùng nói.

Xây dựng nền tảng cho AI với dữ liệu tiếng Việt mã nguồn mở- Ảnh 2.

Nói về việc chuẩn hóa tiếng Việt cho Llama, PGS.TS Nguyễn Trường Thắng - Viện trưởng Viện Công nghệ Thông tin, Viện Hàn Lâm và Khoa học Công nghệ Việt Nam - một trong những đối tác của ViGen cho biết, AI là những "cậu bé" 5,6 tuổi do các tập đoàn công nghệ tạo ra có khả năng suy nghĩ hấp thụ thông tin nhanh. Và Llama là một "cậu bé" do Meta tạo ra giống như ChatGPT cho Open AI và Gemini của Google.

Tuy nhiên với việc được xây dựng trên nền tảng mã nguồn mở, khác với ChatGPT, chúng ta có thể hiểu cách hoạt động cũng dạy và huấn luyện cho Llama. Song Llama hiện chủ yếu được huấn luyện bằng tiếng Anh, tiếng Pháp (99%), và rất ít tiếng Việt.

"Với việc được tạo ra từ mã nguồn mở giúp, chúng ta có thể tiếp cận và huấn luyện để biến Llama trở thành một "cậu bé" người Việt nhiều hơn", ông Thắng nói và nhấn mạnh, dữ liệu để dạy và huấn luyện Llama là dữ liệu sạch, tiếng Việt chuẩn hoá, có đạo đức và minh bạch.

Bán dẫn, AI định hình vị thế mới của Việt NamThách thức về nguồn lực là rào cản lớn khi phát triển ngành bán dẫn, AI

Nói thêm về việc lựa chọn Llama cho ViGen, ông Bùi Thanh Minh - Phó Tổng Giám Đốc phụ trách phát triển sản phẩm, Giám đốc Đổi mới sáng tạo, MISA - một đối tác khác của dự án nhấn mạnh tầm quan trọng của bảo mật.

Theo ông Minh, với nền tảng mã nguồn mở, mô hình như Llama hoàn toàn có thể triển khai trên server của chúng ta, dữ liệu hoàn toàn trong tầm kiểm soát khi sử dụng. Tính bảo mật cao hơn rất nhiều những mô hình dưới dạng Cloud (truyền dữ liệu ra các server bên ngoài).

Ngoài ra với Llama, cũng cho phép người sử dụng tùy biến và tinh chỉnh để phù hợp với công việc của mình. Bên cạnh đó là sự ổn định ít bị ảnh hưởng bởi tốc độ của Internet. Cuối cùng là được sự hỗ trợ từ nguồn lực lớn của của Meta.

Llama (Large Language Model Meta AI) là một mô hình ngôn ngữ lớn được phát triển bởi Meta (công ty mẹ của Facebook). Phiên bản đầu tiên của Llama được ra mắt vào quý đầu năm 2023.

Llama được thiết kế để hiểu và tạo ra ngôn ngữ tự nhiên giống con người, với các phiên bản có số lượng tham số khác nhau, từ 7 tỷ đến 70 tỷ tham số.

Một trong những điểm đặc biệt của Llama là tính chất mã nguồn mở, cho phép các nhà phát triển và nhà nghiên cứu truy cập và sử dụng mô hình này một cách tự do, thậm chí cho mục đích thương mại. Điều này tạo điều kiện cho cộng đồng công nghệ phát triển và tùy chỉnh các ứng dụng AI dựa trên Llama theo nhu cầu cụ thể.

Cùng chuyên mục

Cường quốc công nghiệp số 1 châu Âu “đặt cược” hàng tỷ Euro vào năng lượng nhiệt hạch

Khoảnh khắc 56.000 tấn bê tông sụp đổ tại nhà máy điện hạt nhân Đức

Tấm pin năng lượng mặt trời với sức chống chịu phi thường

Cuộc đua mới trong ngành năng lượng tái tạo

OPEN INNOVATION DAY 2025: Đột phá công nghệ, thúc đẩy chuyển dịch xanh & số

Loại turbine đáng kinh ngạc, tạo ra điện từ giọt nước

Năng suất đột phá với tháp năng lượng mặt trời 3D

Đau đầu với “yếu tố thay đổi cuộc chơi” mang tên AI

500.000 tấm pin năng lượng mặt trời được lắp đặt nhanh chóng nhờ thứ không ngờ

Gã khổng lồ turbine điện gió Vestas ngừng dự án quan trọng tại Ba Lan

Khai thác tiềm năng vô hạn của những cơn gió lộng trên trời theo cách không ngờ

Hệ thống giúp biến năng lượng sóng biển thành điện năng

Độc đáo turbine điện gió có khả năng “gió chiều nào xoay chiều đó”

Hủy nổ 3 quả thủy lôi thời Thế chiến II tại dự án điện gió ngoài khơi lớn nhất nước Đức

Mới cập nhật

Căng mình giúp dân trong lũ lịch sử: Mệnh lệnh từ trái tim người lính

1 giờ trước XÃ HỘI

(Chinhphu.vn) - Những ngày cuối tháng 10, mưa lớn từ thượng nguồn trút xuống miền Trung đã gây sạt lở, chia cắt giao thông, ngập lụt nghiêm trọng trên diện rộng. Giữa tâm lũ, hơn 11 nghìn cán bộ, chiến sĩ LLVT Quân khu 5 cùng hàng trăm phương tiện ca nô, xuồng máy, xe chuyên dụng đã vượt hiểm nguy, băng lũ đến với dân, cứu hộ, sơ tán, vận chuyển lương thực, nhu yếu phẩm cho vùng bị cô lập; thật sự là chỗ dựa vững chắc cho Nhân dân giữa những ngày gian khó.

Khơi thông điểm nghẽn kiểm nghiệm, xuất khẩu sầu riêng thông suốt trở lại

1 giờ trước KINH TẾ

Sau thời gian gián đoạn do khâu kiểm nghiệm, xuất khẩu sầu riêng tại các địa phương Tây Nguyên đã được khơi thông, giúp doanh nghiệp và nông dân yên tâm thu hoạch cuối vụ.

The Privé gây chú ý thị trường căn hộ hạng sang khu Đông TP.HCM

1 giờ trước ĐỊA ỐC

Trong bối cảnh thị trường bất động sản TP.HCM ngày càng ít nguồn cung, phân khúc căn hộ hạng sang lại cho thấy sức bật đáng kể. Nhu cầu về không gian sống đẳng cấp, riêng tư và mang tính biểu tượng tăng nhanh, mỗi dự án được ra mắt đều nhanh chóng thu hút sự chú ý từ giới đầu tư và khách hàng thượng lưu.

Khai mạc Photo Hanoi ’25 - sáng tạo nghệ thuật nhiếp ảnh quốc tế

1 giờ trước VĂN HOÁ

Kịp thời ngăn chặn vụ công an 'dởm' lừa đảo chiếm đoạt 200 triệu đồng

1 giờ trước PHÁP LUẬT

Cần tiêu chí đánh giá mức độ hợp lý của cấu trúc hệ thống pháp luật

2 giờ trước XÃ HỘI

(Chinhphu.vn) - Thực tiễn pháp luật Việt Nam thời gian qua cho thấy, dù đã đạt nhiều thành tựu trong việc xây dựng và hoàn thiện hệ thống pháp luật, song vấn đề tính hợp lý của cấu trúc hệ thống pháp luật vẫn còn là thách thức lớn. Do đó, cần tiêu chí đánh giá mức độ hợp lý của cấu trúc hệ thống pháp luật của Việt Nam.