Từ 'bức xúc' đến sản phẩm thân thiện cho người dùng

Hàng trăm clip giới thiệu phim đều có cùng một giọng, nghe thiếu tự nhiên. Chưa kể, để tạo ra các file audio, người dùng còn gặp nhiều khó khăn… Xuất phát từ thực tiễn đó, nhóm FPT.AI Voice Maker đã tạo ra một ứng dụng cực kỳ thân thiện và hữu ích.

Trong giới review phim trước kia, giọng “chị google” dường như là một chất giọng phổ biến. Sau này, giọng “chị Ban Mai” của giải pháp FPT.AI Text to Speech đã trở nên quen thuộc hơn, phủ sóng nhiều trang nổi tiếng. Tuy nhiên, theo Vũ Mạnh Cường (FPT Smart Cloud), xuất thân từ Ban Công nghệ, anh nhận thấy bên cạnh API - Application Programming Interface (giao diện lập trình ứng dụng) chỉ dành cho lập trình viên, thì vẫn còn thiếu sản phẩm dành cho người dùng phổ thông.

“Mình phát hiện ra, bên cạnh API dành cho “dân chuyên nghiệp”, vẫn còn thị trường ngách, đó là phát triển sản phẩm có giao diện thân thiện, hướng đến số đông người dùng phổ thông”. Ý tưởng sáng tạo một phần mềm giúp nâng cao những trải nghiệm tốt nhất cho người dùng cuối với sản phẩm FPT.AI Text to Speech được nhen nhóm từ những ngày đầu tháng 7, thông qua một cuộc thi lập trình được tổ chức trong nội bộ FPT Smart Cloud với tên gọi Growth Hacking.

Từ ý tưởng đến sản phẩm là một chặng đường dài. Trong ảnh, hai thành viên nhóm FPT.AI Voice Maker làm việc nhóm.

Vũ Mạnh Cường - thành viên Team Platform (CuongVM15) cùng đồng đội của mình là những người đầu tiên vẽ nên ý tưởng về ứng dụng Voice Maker. Sản phẩm của Cường cùng nhóm bạn tạo ra lúc đó đã nhận được giải Ba của cuộc thi nhưng nhiều tính năng vẫn còn dang dở, giao diện chưa thật sự thân thiện với người dùng.

Cường cho biết, từ ý tưởng đến thực hiện là cả một chặng đường dài. Khó khăn trông thấy của nhóm đó là, những sản phẩm, nền tảng thực hiện từ sản phẩm “thô” như Voice Maker thường tốn nhiều nhân lực, thời gian…

Hai thành viên nhóm là Vũ Mạnh Cường và Phạm Văn Khang cùng chia sẻ, cái khó khác nữa khi phát triển nền tảng này đó là tạo nên một giao diện dễ dùng nhất. Mục tiêu là để người sử dụng không phải xem nhiều hướng dẫn, cũng không phải hỏi lại kỹ thuật viên. “Trên một giao diện, họ tự học, tự làm được luôn. Phát triển được trải nghiệm người dùng tốt nhất là một việc tốn khá nhiều thời gian của nhóm mình” – anh Cường kể lại.

Để làm tốt, việc đầu tiên nhóm xác định là phải tự nghiên cứu lĩnh vực tương tự, từ trong nước đến nước ngoài. Nhóm nhận thấy ở Việt Nam các ứng dụng text to speech còn khá thô sơ, gần như người dùng không được chỉnh sửa gì. Trường hợp cho phép chỉnh sửa thì lại phải dùng đến công cụ audio thứ ba. “Đôi khi chỉ đơn giản thêm vài giây ngắt, nghỉ mà cũng phải dùng thêm một phần mềm với nhiều thao tác, rất bất tiện và mất thời gian”, anh Cường bộc lộ sự bức xúc thay cho người dùng.

Từ nỗi niềm “bức xúc thay” đó, các thành viên của nhóm đã nỗ lực xây dựng bản đầu tiên, rồi đưa cho người dùng, nhận về phản hồi của họ. Sau đó, các anh tiếp tục nghiên cứu kỹ lưỡng trải nghiệm người dùng, cập nhật dần, để sản phẩm tốt hơn qua mỗi lần sửa.

Ngày 4/12/2020, FPT.AI Voice Maker chính thức được "trình làng" sau thời gian 4 tháng "cày ngày cày đêm" của Cường và Khang. Cả hai tranh thủ thời gian ngoài giờ làm việc để code không ngừng nghỉ nhằm hiện thực hóa mục tiêu biến những API thô sơ trở nên thân thiện với mọi người dùng.

Thành quả của nhóm chính là FPT.AI Voice Maker - một ứng dụng trên giao diện web giúp người dùng tạo ra giọng nói tự động. Điểm nổi bật của ứng dụng này so với các nền tảng khác là người dùng không cần cơ sở vật chất chuyên nghiệp, không cần kỹ năng lập trình vẫn có thể sử dụng tốt.

Một điểm ưu việt của FPT.AI Voice Maker được người dùng yêu thích đó là có thể tùy biến đa dạng, nhiều giọng đọc theo vùng miền, giới tính. Chất lượng giọng cũng được đánh giá là tốt nhất trên thị trường hiện nay.

FPT.AI Voice Maker là ứng dụng cho phép người dùng thực hiện mọi thao tác trên giao diện web.

Chia sẻ thêm về sự thân thiện của ứng dụng này, anh Khang cho biết, người dùng chỉ cần có đường dẫn của bài báo, Voice Maker sẽ tự động thu thập nội dung và tạo thành file giọng nói. Người dùng còn có thể tùy chỉnh như muốn ngắt nghỉ như thế nào, thêm mấy giọng đọc… tất cả đều thao tác trên một giao diện thuận lợi. “Với những công cụ truyền thống, mỗi đoạn sẽ cho ra một audio khác nhau, rồi lại phải dùng một phần mềm thứ 3 ghép nối các audio. Còn Voice Maker tự động ghép thành audio cuối cùng” – anh Khang bổ sung.

Nhóm cũng rất tự tin khi so sánh “đứa con tinh thần” của mình với các sản phẩm khác từ Việt Nam. Theo đó, FPT.AI Voice Maker có những lựa chọn xử lý audio sâu hơn. Còn so sánh với đối thủ từ nước ngoài, sản phẩm cũng không hề thua kém. Cụ thể là thân thiện hơn về giao diện, dành cho người không cần biết gì về kỹ thuật vẫn thao tác dễ dàng và cho sản phẩm như ý.

Gửi gắm vào FPT.AI Voice Maker nhiều kỳ vọng, thời gian tới nhóm mong muốn sẽ tiếp cận được nhiều đối tượng người dùng hơn. “Bên cạnh các trang review phim, bọn mình muốn sản phẩm sẽ phục vụ rộng rãi cho cộng đồng sách nói, đọc truyện, phim hoạt hình hay lĩnh vực giáo dục”, anh Cường cười hiền chia sẻ.

Vừa qua, được sự khuyến khích của đơn vị, nhóm đã dự thi vòng chung khảo iKhiến 2021. Anh Cường cho biết, trước kia nhóm đã đi thi Hackathon, nay tham gia iKhiến cũng là thêm một kinh nghiệm và cơ hội để nhận góp ý, hoàn thiện sản phẩm. Đội cũng rất vinh dự là đại diện đầu tiên của FPT Smart Cloud tại sân chơi này.

Nói về tinh thần sáng tạo của nhóm FPT.AI Voice Maker nói riêng và tại đơn vị, anh Trần Thế Trung (Viện trưởng Viện nghiên cứu FPT) cho biết, ở FPT Smart Cloud những sáng kiến luôn được thúc đẩy. Anh Trung cũng cởi mở chia sẻ: “Một trong những cách chúng tôi khuyến khích các bạn nghĩ ra những ý tưởng mới đó là giao đề bài khó hơn. Từ cái khó, các bạn sẽ ló ra cái hay, cái mới và nhân lên thành những sáng tạo giá trị cho tổ chức”.

Người nhà F quan tâm đến ứng dụng này có thể đăng ký và dùng thử tại đây.

>> ‘Thương vụ với Base chính là cú hích cho các start-up tại FPT’

P.V