CrystalSound - 'Phát súng' AI mở màn vào thế giới công nghệ âm thanh của FPT Software

CrystalSound là giải pháp tối ưu chất lượng âm thanh qua các ứng dụng hội nghị trực tuyến, được phát triển bởi NextG - đơn vị mới trong nhóm Incubator (vườn ươm) của FPT Software. NextG mang nhiệm vụ tập trung phát triển sản phẩm, giải pháp có khả năng cạnh tranh toàn cầu, góp phần vào mục tiêu trở thành công ty tỷ USD đẳng cấp thế giới của Phần mềm nhà F.

Xử lý âm thanh là mảng nghiên cứu ứng dụng khá lâu đời. Trong xử lý âm thanh có rất nhiều lĩnh vực khác nhau như: xác định vị trí nguồn âm cho các ứng dụng thiên về an ninh, định danh người nói, nhận dạng tiếng nói, nâng cao chất lượng tiếng nói, tách tiếng nói, đổi tiếng nói và trợ thính.

Những năm gần đây, nhờ vào sự phát triển của công nghệ Machine Learning (học máy), bên cạnh những “ông lớn” như Nuance Communications, nhiều start-up chuyên về xử lý audio đã xuất hiện và đạt được những thành công nhất định như BabbleLabs (mới được Cisco mua lại vào năm 2020), Krisp, Elevoc, Cerence…

Đặc biệt, trong 2 năm gần đây, khi dịch bệnh Covid-19 bùng phát trên toàn thế giới, rất nhiều tổ chức, doanh nghiệp chuyển đổi sang mô hình làm việc tại nhà (WFH). Việc tổ chức họp, giao tiếp trực tuyến thay cho các cuộc gặp gỡ tập trung đã trở thành yêu cầu bắt buộc. Chỉ tính riêng tại FPT Software, trung bình mỗi người Phần mềm tham gia họp trực tuyến từ 1-2 giờ/ngày. Nhu cầu về một sản phẩm có khả năng xử lý âm thanh càng trở nên cấp thiết hơn.

Với tiêu chí “AI for life”, NextG đã lựa chọn CrystalSound - ứng dụng lọc nhiễu sử dụng công nghệ Trí tuệ nhân tạo - là một trong những sản phẩm đầu tiên mà đơn vị phát triển.

Trong giới học thuật, hiện cũng có rất nhiều thuật toán nâng cao chất lượng tiếng nói. Mỗi năm, hàng nghìn bài nghiên cứu mới về chủ đề này được ra đời. Mục tiêu của những nhà nghiêncứu là làm sao giảm nhiễu được tốt nhất, bất kể thuật toán có phức tạp đến đâu hoặc mất thời gian bao lâu. Vì thế thách thức quan trọng nhất mà NextG đặt ra cho CrystalSound là giảm nhiễu và nâng cao chất lượng tiếng nói ở thời gian thực (real-time).

Ngay sau khi “chốt kèo” với CrystalSound, NextG bắt tay vào xây dựng lực lượng. Một đội ngũ chuyên gia, kỹ sư hàng đầu có hiểu biết và kinh nghiệm nghiên cứu về các kỹ thuật xử lý âm thanh được quy tụ.

Để phát triển thành công CrystalSound, các thành viên dự án đều phải am hiểu về ứng dụng, xử lý tín hiệu số và cách con người cảm nhận âm thanh. Các thành viên chỉ mới tập hợp đầy đủ từ cuối tháng 5, thế nhưng với sức trẻ cùng sự nhiệt huyết, dấn thân, mọi người đều thích ứng rất nhanh và làm việc quên ngày nghỉ.

Với đội ngũ chất lượng và năng động, Giám đốc sản phẩm Nguyễn Hải Triều Anh tự tin nhận định: “Nghiên cứu nâng cao chất lượng âm thanh là thế mạnh của team. Hiện nay những thuật toán nhận dạng tiếng nói tốt nhất vẫn có tỷ lệ sai từ trên 30% cho các môi trường nhiều nhiễu và có nhiều người nói cùng lúc như nhà hàng, siêu thị, quán cà phê. Do đó, sau CrystalSound, team cũng sẽ thử sức với chủ đề hóc búa này. Ngoài ra, mình cũng đang hướng dẫn các bạn kỹ sư AI trẻ tuổi nghiên cứu và viết các bài báo tại các hội nghị quốc tế hàng đầu về xử lý âm thanh như ICASSP và Interspeech”.

Trong một dự án phát triển phần mềm ứng dụng công nghệ AI như CrystalSound, phần mềm và phần AI đều quan trọng như nhau. Anh Triều Anh cho biết: “Với phần mềm, các giai đoạn phát triển tương tự truyền thống và chỉ khác ở việc tích hợp hai phần với nhau sẽ khó khăn hơn, vì thuật toán AI có rủi ro, thường bị thay đổi nhiều so với phác thảo ban đầu. Với phần AI model, hai thành phần quan trọng nhất đó là thuật toán và dữ liệu. Thuật toán tốt mà dữ liệu không chuẩn cũng sẽ không thành công”.

Các giai đoạn, để team phát triển sản phẩm AI như CrystalSound.

Những phiên bản thử nghiệm đầu tiên của CrystalSound, chất lượng còn thua đối thủ cạnh tranh. Team dựa vào kết quả đánh giá chất lượng (QA) để biết được loại nhiễu nào kém so với đối thủ và tập trung cải thiện. Bắt tay thực hiện từ ngày 8/3, ra mắt bản demo đầu tiên vào ngày 30/6 và tới ngày 11/10, team chính thức ra mắt phiên bản hoàn thiện đầu tiên của sản phẩm.

Phiên bản 1.0 của CrystalSound đã ra mắt với các chức năng cơ bản, quan trọng nhất là giảm tiếng ồn ở cả hai chiều của cuộc gọi, tức là tiếng ồn từ phía bạn và cả tiếng ồn từ những bên khác tham gia cuộc gọi. Giải pháp hoạt động trên tất cả ứng dụng hội nghị/giao tiếp trực tuyến như Zoom, Teams, Webex, Skype… và không phụ thuộc vào ngôn ngữ giao tiếp. CrystalSound cũng sở hữu chế độ năng lượng thấp để đảm bảo ứng dụng sẽ hoạt động ngay cả khi pin laptop bị yếu hay máy tính có cấu hình thấp.

Các thử nghiệm độc lập từ Microsoft, từ nhóm chuyên gia âm thanh bên ngoài cũng như thửnghiệm từ người dùng đại chúng trên nền tảng cung ứng cộng đồng Amazon Mechanical Turk đều cho thấy khả năng “lọc nhiễu” của CrystalSound ngang ngửa, thậm chí tốt hơn so với sảnphẩm đang dẫn đầu thị trường.

Phiên bản nâng cấp tiếp theo của CrystalSound dự kiến được phát hành vào cuối năm nay với nhiều tính năng hấp dẫn như loại bỏ âm thanh và tiếng vọng trong phòng, trải nghiệm giọng nói HD và một vài tính năng đặc biệt khác mà NextG đang giữ bí mật để mang lại bất ngờ cho người dùng.

Cucumber