Kỹ sư nhà FPT 'bắt' camera ứng dụng AI giúp phát hiện sớm hút thuốc, bạo lực học đường

Từ bài toán an ninh học đường tại trường THPT FPT Cần Thơ, nhóm cán bộ công nghệ đã phát triển giải pháp camera ứng dụng AI có khả năng tự động phát hiện hành vi hút thuốc, đánh nhau hay té ngã. Không chỉ giúp giảm tải giám sát thủ công, giải pháp còn cho thấy nỗ lực đưa AI vào vận hành thực tế, từng bước tiến tới làm chủ công nghệ lõi theo định hướng chiến lược của FPT.

Từ camera giám sát đến camera biết cảnh báo

Nếu trước đây camera an ninh chủ yếu làm nhiệm vụ ghi lại hình ảnh, thì tại campus FPT Cần Thơ (gồm THPT FPT Cần Thơ và Đại học FPT Cần Thơ), nhóm cán bộ công nghệ đang tìm nâng tầm thiết bị này cao hơn. Mục tiêu không còn dừng ở chuyện nhìn lại sự việc sau khi đã xảy ra, mà là phát hiện sớm dấu hiệu bất thường để người phụ trách kịp thời can thiệp.

Ý tưởng ấy không đến từ một bài toán công nghệ thuần túy. Nó xuất phát từ nhu cầu thực tế trong môi trường học đường. Hút thuốc sai quy định, nguy cơ bạo lực học đường hay các sự cố như té ngã đều là những tình huống cần được nhận diện nhanh. Trong khi đó, cách giám sát truyền thống vẫn phụ thuộc nhiều vào con người. Nhân viên an ninh hoặc giám thị phải theo dõi màn hình liên tục trong thời gian dài, dễ mệt, dễ sót và khó duy trì hiệu quả nếu quy mô mở rộng.

Từ thực tế đó, nhóm cán bộ công nghệ tại campus đã bắt tay phát triển giải pháp camera ứng dụng AI nhằm tự động phát hiện các hành vi như hút thuốc, đánh nhau và một số tình huống khẩn cấp trong khuôn viên trường. Đại diện nhóm tác giả, Lưu Bá Phúc, cán bộ phòng CNTT Đại học FPT Cần Thơ, cho biết động lực ban đầu là xây dựng một hệ thống camera giám sát thông minh, đủ khả năng chủ động phát hiện và ngăn chặn sớm các hành vi vi phạm hoặc nguy cơ mất an toàn trong trường học.

Lưu Bá Phúc - thành viên nhóm dự án phát triển giải pháp ứng dụng AI vào camera để tăng cường quản lý, giám sát tại khu vực trường học.

Giải pháp được đẩy mạnh nghiên cứu và xây dựng trong giai đoạn đầu năm 2026. Cách làm của nhóm không phải dồn toàn bộ bài toán vào một mô hình AI nặng rồi để hệ thống “gồng” xử lý liên tục toàn bộ video. Thay vào đó, nhóm thiết kế kiến trúc theo kiểu phễu lọc nhiều lớp để tối ưu tốc độ và tài nguyên.

Ở lớp đầu, luồng video RTSP từ camera được đưa qua mô hình YOLO11 pose để bóc tách người, theo dõi khung xương và đánh giá tư thế. Hệ thống quan sát các dấu hiệu như tay đưa lên miệng, trạng thái té ngã hay khoảng cách giữa hai người. Khi phát hiện tín hiệu đáng ngờ, hệ thống sẽ tự động cắt các khung hình quan trọng và chuyển sang lớp phân tích sâu hơn.

Với lớp sau, nhóm sử dụng AI đa phương thức như Qwen3 VL hoặc Google Gemma3 bản vision, chạy local và không cần huấn luyện lại từ đầu. Nhiệm vụ của lớp này là suy luận ngữ cảnh hình ảnh để xác định xem đó có thực sự là hành vi "có vấn đề" hay không. Khi phát hiện bất thường, hệ thống sẽ gửi cảnh báo gần như tức thời qua Telegram hoặc Zalo, kèm hình ảnh hoặc video minh chứng.

Điểm mạnh của cách tiếp cận này nằm ở chỗ rất thực dụng. Nhóm không cố bắt AI làm hết mọi việc cùng lúc. Họ dùng tracking (theo dõi) khung xương để tạo trigger (sự việc), sau đó mới kích hoạt lớp nhận diện hình ảnh và suy luận ngữ cảnh. Chính thiết kế này giúp hệ thống giảm tải phần cứng, giảm độ trễ và tránh phải lao vào một hành trình huấn luyện mô hình riêng vừa tốn thời gian vừa đòi hỏi tài nguyên lớn.

Demo giao diện camera có ứng dụng AI giúp phát hiện các hành vi bất thường.

Phần backend (quản trị) của hệ thống được phát triển bằng Python và FastAPI. Các mô hình được tích hợp và vận hành local qua LM Studio, tận dụng sức mạnh tính toán của máy trạm hiệu năng cao. Theo chia sẻ từ nhóm phát triển, hệ thống hiện có thể tự động giám sát 24/7 qua các luồng camera trong campus, giảm đáng kể việc trực màn hình thủ công. Độ trễ phát hiện hành vi bất thường hiện ở mức dưới 60 giây, tùy cấu hình phần cứng.

Ở góc độ vận hành, đây là bước chuyển rất đáng chú ý. Camera không còn là thiết bị chỉ ghi hình rồi lưu lại. Nó bắt đầu mang vai trò của một lớp giám sát chủ động, biết lọc tín hiệu, biết đánh giá tình huống và biết gửi cảnh báo đến đúng người phụ trách. Với đội ngũ giám thị và bảo vệ, điều đó đồng nghĩa áp lực trực quan sát liên tục được giảm đi đáng kể.

Đi từ bài toán thật để tiến gần công nghệ lõi

Điều làm giải pháp này đáng chú ý không chỉ nằm ở tính ứng dụng, mà còn ở hành trình phát triển phía sau. Nếu nhìn vào một hệ thống đang chạy thử khá ổn, nhiều người sẽ nghĩ con đường đi đến đó chắc cũng mượt. Thực tế lại không đơn giản như vậy.

Theo Lưu Bá Phúc, ở giai đoạn đầu, nhóm từng đi theo hướng quen thuộc là huấn luyện mô hình bằng cách truyền thống với hàng nghìn bộ dữ liệu. Tuy nhiên, hiệu quả thu được không như kỳ vọng. Mô hình chưa đủ tốt, thời gian huấn luyện kéo dài và bài toán phần cứng trở thành rào cản rất lớn.

Thay vì cố xuyên vào một hướng đã cho thấy nhiều hạn chế, nhóm lùi lại để đọc thêm, tìm thêm và soi lại bài toán. Trong quá trình tìm hiểu các dự án trên diễn đàn công nghệ, nhóm nhận ra các mô hình computer vision và AI đa phương thức hiện nay đã tiến rất nhanh. “Có những mô hình chỉ cần nhận một bức ảnh là có thể mô tả nội dung với mức độ bao quát rất cao trong thời gian ngắn. Từ đó, một hướng đi mới được chúng tôi mở ra. Đó là tại sao không dùng chính năng lực suy luận hình ảnh của generative AI để giải bài toán camera, thay vì ôm toàn bộ gánh nặng huấn luyện từ đầu”, Phúc cho hay.

Tin nhắn tự động gửi về cho giám thị/ bảo vệ để kịp thời xử lý các trường hợp vi phạm.

Ý tưởng ấy nghe có vẻ đơn giản khi kể lại, nhưng để đưa vào thực tế là cả một chặng đường thử nghiệm liên tục. Khi bắt đầu triển khai, nhóm phải đối mặt với khá nhiều tình huống mà chỉ người làm mới “thấm”. Có lúc AI liên tục ảo giác, nhìn hành động sinh viên gãi cằm, chống tay hay vươn vai thành hút thuốc.

Có lúc hệ thống nhận diện sai ngữ cảnh vì góc camera, ánh sáng hoặc tư thế đứng của người trong hình.Đó là những lỗi tưởng nhỏ nhưng rất nguy hiểm với một hệ thống cảnh báo. Chỉ cần báo sai quá nhiều, người dùng sẽ nhanh chóng mất niềm tin. Vì vậy, nhóm buộc phải chỉnh từng lớp logic, tinh chỉnh prompt, thay đổi cách cắt khung hình, thử lại ngưỡng kích hoạt và kiểm tra hàng loạt kịch bản khác nhau để kéo hệ thống về mức ổn định hơn.

Một trong những câu chuyện thú vị nhất của dự án là những buổi nhóm phải nhờ học sinh đóng vai đánh nhau, giả vờ té ngã, lăn trên sân trước camera để tạo tình huống kiểm thử sát thực tế. Có thể với người ngoài, đó là những buổi test khá vui. Nhưng với team phát triển, đó là cách duy nhất để kiểm tra độ nhạy của hệ thống trong môi trường thật, nơi mọi chuyển động đều không hoàn hảo như trong bộ dữ liệu mẫu.

Việc ứng dụng AI vào camera giúp kịp thời phát hiện các trường hợp vi phạm, giảm tải đáng kể khối lượng công việc cho giám thị/ bảo vệ nhà trường.

Hiện dự án đã bắt đầu chạy thử từ cuối tháng 3/2026 và đang áp dụng trên 4 camera tại campus FPT Cần Thơ. Do thời điểm này lượng học sinh chưa đông và an ninh trong trường nhìn chung vẫn được đảm bảo, hệ thống chưa ghi nhận các vụ hút thuốc hay bạo lực thực tế. Tuy vậy, hệ thống đã phát hiện được một số trường hợp học sinh ra ngoài lớp sử dụng điện thoại hoặc đi dạo trong giờ học để cảnh báo giám thị kiểm tra. Đây chưa phải con số lớn, nhưng là tín hiệu đầu tiên cho thấy hệ thống có thể đi vào việc thật chứ không chỉ dừng ở mức trình diễn kỹ thuật.

Phản hồi từ phía người dùng bước đầu khá tích cực. Theo Phúc, mục tiêu của hệ thống là giảm tải áp lực cho giám thị và bảo vệ. Khi có cảnh báo, người phụ trách sẽ nhận được thông tin qua Telegram bot gồm hình ảnh phát hiện, mô tả hành vi, mức độ tin cậy, thời điểm phát hiện và thời gian phản hồi. Trong một lần chạy thử, hệ thống gửi cảnh báo về hành vi hút thuốc với độ tin cậy 98% và thời gian phản hồi khoảng hơn 10 giây. Với một giải pháp đang ở giai đoạn thử nghiệm, đây là kết quả khá hứa hẹn.

Ở giai đoạn tới, nhóm đặt ra hai hướng phát triển rõ ràng. Trong ngắn hạn, hệ thống sẽ tiếp tục được tối ưu logic phân tích hình ảnh và tinh chỉnh để có thể chạy tốt hơn trên phần cứng cấu hình thấp, đồng thời giảm hiện tượng ảo giác. Trong dài hạn, nhóm hướng tới phát triển đây thành một giải pháp AI hoàn chỉnh hơn để có thể nhân rộng trên toàn campus FPT Cần Thơ, thậm chí mở rộng ra toàn hệ thống nhà Giáo dục FPT.

Ý nghĩa của giải pháp camera AI tại trường THPT FPT Cần Thơ đã vượt ra ngoài phạm vi một dự án nội bộ. Nó cho thấy công nghệ lõi không chỉ nằm ở phòng lab hay trong những bài toán quy mô rất lớn. Thay vào đó, nó có thể được bồi đắp từng ngày từ các dự án nhỏ nhưng thật, nơi đội ngũ kỹ thuật phải liên tục học, thử, sửa và tự nâng năng lực của mình qua từng vòng triển khai.

Trí Đức

Kỹ sư nhà FPT 'bắt' camera ứng dụng AI giúp phát hiện sớm hút thuốc, bạo lực học đường

Ý kiến

Tin cùng chuyên mục