TS. Lê Minh Thao gợi ý cách FPT biến nguồn mở thành tài sản riêng

Chiều ngày 3/3, chương trình FPT Leader Talk mang chủ đề "AI học hiểu thế giới: Thị giác máy tính - Ngôn ngữ trong kỷ nguyên suy luận" đã diễn ra, mở màn cho chuỗi 10 hội thảo chuyên sâu do Học viện FPT phối hợp cùng Viện Quantum AI & Cyber Security (QACI) tổ chức.

Tâm điểm thu hút sự chú ý của gần 150 cán bộ công nghệ nhà F chính là những chia sẻ đắt giá của diễn giả khách mời: Tiến sĩ Lê Minh Thao, hiện là Giáo sư cấp 1 (Assistant Professor) tại Đại học Pennsylvania State (Mỹ).

Đến với FPT Leader Talk, TS. Lê Minh Thao mang theo một nền tảng học thuật và kinh nghiệm thực chiến ấn tượng. Là cựu sinh viên Đại học Bách khoa Hà Nội, anh tiếp tục nhận bằng Thạc sĩ Khoa học Máy tính tại Viện Công nghệ Tokyo, Nhật Bản và hoàn thành chương trình Tiến sĩ tại Đại học Deakin, Australia. Nổi bật trong chặng đường nghiên cứu, luận án tiến sĩ về mạng nơ-ron sâu trong suy luận thị giác đã giúp anh vinh dự giành huy chương Alfred Deakin cho luận án xuất sắc nhất.

TS. Lê Minh Thao mang đến chương trình Leader Talk công nghệ thị giác máy tính.

Trong bài trình bày, diễn giả Lê Minh Thao đã chia sẻ bức tranh tổng quan về Trí tuệ Thị giác - Ngôn ngữ (Vision-Language Intelligence), một lĩnh vực đang phát triển mạnh mẽ nhằm giúp AI hiểu đồng thời hình ảnh và ngôn ngữ giống như cách con người nhận thức thế giới. Anh cho rằng, dù các mô hình nền tảng lớn đã đạt được nhiều bước tiến ấn tượng, các hệ thống AI hiện tại vẫn bộc lộ nhiều điểm yếu với "suy luận có cấu trúc" (compositional reasoning). Cụ thể, các mô hình này thường thất bại khi phải phân tích các tình huống thực tế phức tạp đòi hỏi theo dõi sự tương tác giữa nhiều vật thể, phân tích chuỗi hành động theo thời gian trong video, hoặc hiểu về mối quan hệ nhân quả.

Buổi chia sẻ về chủ đề liên qua công nghệ AI đã thu hút lượng lớn cán bộ công nghệ nhà F. Ngoài 150 người tham gia trực tiếp, vẫn còn số lượng không nhỏ người theo dõi qua màn ảnh nhỏ.

Bất chấp những hạn chế đó, các mô hình Vision-Language (VLM) đang tạo ra giá trị thực tiễn khổng lồ cho các doanh nghiệp. Ứng dụng nổi bật nhất là hệ thống Multimodal RAG (Retrieval-Augmented Generation đa phương thức), cho phép AI truy xuất và suy luận trực tiếp trên các dữ liệu đặc thù của doanh nghiệp như biểu đồ, tài liệu PDF, trang trình bày hay dữ liệu camera an ninh mà không cần phụ thuộc vào công nghệ nhận dạng ký tự quang học (OCR) truyền thống. Ngoài ra, công nghệ này cũng đang là động lực đổi mới trong các lĩnh vực như y tế, thương mại điện tử, xe tự lái và robot.

Để giải quyết triệt để các rào cản hiện tại, nhóm nghiên cứu của anh Thao đề xuất dịch chuyển từ các mô hình nhận thức thụ động sang các hệ thống tác tử AI chủ động (Agentic AI systems). Thay vì đưa ra câu trả lời chỉ qua một bước xử lý dễ dẫn đến sai sót, hệ thống AI tác tử (như mô hình M3-Agent) hoạt động theo cơ chế quản lý phân cấp: tự động chia nhỏ vấn đề, lập kế hoạch, phân công cho các tác tử chuyên biệt (như tìm kiếm, nhận diện, xác minh) và tự sửa lỗi trước khi đưa ra quyết định cuối cùng. Hướng tiếp cận này giúp giải quyết các bài toán phức tạp, tăng cường độ tin cậy, minh bạch cho AI trong môi trường thực tế và đảm bảo việc triển khai AI một cách có trách nhiệm.

Loạt câu hỏi từ lý thuyết đến thực tiễn được khán giả tham gia online lẫn trực tiếp gửi đến TS. Lê Minh Thao, trong phần thảo luận sôi nổi do anh Lê Anh Ngọc, Phó Giám đốc Viện QACI dẫn dắt.

Sau phần trình bày lý thuyết, sức nóng của chương trình tiếp tục được đẩy lên cao qua phiên thảo luận sôi nổi xoay quanh các bài toán thực tiễn khi triển khai AI tại doanh nghiệp. Giải đáp trăn trở của chị Nguyễn Phương Anh (FPT Smart Cloud) về việc hệ thống AI thường gặp lỗi nhận diện là do bộ mã hóa thị giác Vision encoder hay do dữ liệu ngôn ngữ, TS. Lê Minh Thao nhận định đây là hiện tượng "ảo giác" hallucination phổ biến của AI. Để khắc phục, anh đề xuất hai giải pháp trọng tâm: một mặt cần cải thiện sự liên kết giữa thị giác và ngôn ngữ để mô hình hiểu đồng nhất; mặt khác, cần tối ưu hóa khâu tìm kiếm và khoanh vùng thông tin đầu vào nhằm cung cấp bối cảnh chính xác nhất, từ đó giảm thiểu tối đa sai sót cho AI.

Dưới lăng kính quản trị và kinh doanh, TS Lê Anh Ngọc, Phó Giám đốc Viện QACI đặt ra bài toán lớn về chiến lược làm chủ công nghệ của FPT: Làm thế nào để tự chủ các giải pháp VLM mà vẫn cân bằng được bài toán chi phí đầu tư tài nguyên khổng lồ? Phân tích vấn đề này, TS. Lê Minh Thao gợi ý chiến lược tận dụng các mô hình mã nguồn mở và biến chúng thành tài sản riêng của FPT thông qua kỹ thuật "huấn luyện”. Phương pháp tối ưu này sẽ giúp mô hình "quên" đi các tri thức đại trà dư thừa, giải phóng không gian để học sâu nguồn dữ liệu cá nhân hóa, đặc thù của riêng doanh nghiệp. Đây chính là lời giải sắc bén về mặt chi phí và tài nguyên, mở ra định hướng quan trọng để FPT xây dựng thành công các mô hình công nghệ lõi mang đậm dấu ấn của mình trong thời gian tới.

Chương trình Leader Talk "AI học hiểu thế giới: Thị giác máy tính - Ngôn ngữ trong kỷ nguyên suy luận" đánh dấu chuỗi chương trình seminar chuyên sâu, được tổ chức bởi Viện QACI, kết hợp cùng Học viện FPT.

Khép lại hơn 2 giờ đồng hồ đầy sôi nổi, FPT Leader Talk số đầu tiên đã mang đến những góc nhìn học thuật lẫn thực tiễn vô cùng giá trị, mở ra nhiều ý tưởng đột phá cho các kỹ sư, chuyên gia công nghệ nhà F trên hành trình chinh phục những đỉnh cao mới của trí tuệ nhân tạo.

Đen Đá

TS. Lê Minh Thao gợi ý cách FPT biến nguồn mở thành tài sản riêng

Ý kiến

Tin cùng chuyên mục