Nhiều năm qua, giới công nghệ đã và đang nỗ lực để tạo ra phần mềm nhận dạng giọng nói có thể lắng nghe như con người. Theo Giám đốc Công nghệ FPT Lê Hồng Việt, Ban Công nghệ tập đoàn đang triển khai các dự án về tổng hợp tiếng nói (Text to Speech - TTS) và nhận dạng tiếng nói (Speech to Text - STT) như một phần của nền tảng FPT.AI và đang nhận được những kết quả khả quan.
Độc giả có thể làm thầy FPT.AI bằng cách ghi âm giọng nói hay kiểm tra chất lượng ghi âm của người khác. |
“Công nghệ tổng hợp tiếng nói (TTS) của FPT hiện có chất lượng vượt trội, được đánh giá là hệ thống tổng hợp giọng tiếng Việt tốt nhất hiện nay và được ứng dụng vào các trung tâm chăm sóc khách hàng, giúp khách hàng thực sự áp dụng được công nghệ để tăng cường hiệu quả sản xuất kinh doanh”, anh Việt khẳng định và dẫn chứng, công nghệ của FPT đang thực hiện 15.000 cuộc gọi mỗi giờ mà không cần bất cứ tổng đài viên nào. “Tạm thời, máy móc đã thay thế 200 tổng đài viên của một trong các khách hàng và dự báo số lượng này sẽ còn tăng theo cấp số nhân”.
|
Trong khi đó, công nghệ nhận dạng tiếng nói (STT) đang trong giai đoạn hoàn thiện, các thuật toán đã được nâng cao để chất lượng nhận dạng giọng nói của FPT STT có thể bắt kịp Google với giọng miền Bắc.
“Các hệ thống tổng hợp và nhận dạng tiếng nói được xây dựng dựa trên công nghệ trí tuệ nhân tạo/học máy, việc chúng ta cần làm chính là “training” - dạy cho hệ thống này”, anh Việt nhấn mạnh và cho hay, chất lượng sẽ càng cao nếu chúng ta có nguồn giọng càng phong phú, với những câu thu âm đủ âm sắc và thanh điệu trong tiếng Việt. “Vì thế, tôi mong muốn kêu gọi mỗi người hãy trở thành một người thầy cho đứa con công nghệ của FPT”.
Cụ thể, với 5 phút thu âm mỗi ngày của hơn 30.000 người FPT và hàng triệu người Việt Nam sẽ cung cấp lượng dữ liệu lớn và phong phú cho hệ thống. Điều đó sẽ góp phần đưa sản phẩm công nghệ của tập đoàn có khả năng cạnh tranh sòng phẳng với những sản phẩm tương tự của các người khổng lồ như Google, Microsoft và Amazon.
Độc giả cùng truy cập tại đây (hoặc website: https://recorder.fpt.ai/) dạy cho hệ thống bằng cách click vào nút “Ghi âm giọng nói của bạn”.
“Để đáp lại sự giúp đỡ của các bạn, tôi có thể cam kết: ‘Với sự giúp đỡ này, chúng tôi sẽ làm cho các bạn tự hào về công nghệ của FPT!".
Ghi âm xong, độc giả có thể nghe hay ghi âm lại để chọn bản ghi chuẩn nhất trước khi gửi lên hệ thống. |
Công nghệ liên quan đến tiếng nói là bài toán cơ bản về giao tiếp giữa người và máy (Human-Machine Interface). Ngày nay, xu thế IoT và Trí tuệ nhân tạo (AI) khiến cho nhu cầu ứng dụng xử lý tiếng nói ngày càng tăng lên và trở thành thiết yếu.
Về mặt công nghệ, xử lý tiếng nói có thể chia làm 2 bài toán phổ thông cơ bản là “Tổng hợp tiếng nói” và “Nhận dạng tiếng nói”. Mới nhất, IBM tuyên bố đã đạt được tỷ lệ lỗi từ 5,5% vượt qua kỷ lục 6,9 % trước đó.
Trước đó, tháng 10/2015, Microsoft tuyên bố đạt tỷ lệ lỗi 5,9% bằng cách sử dụng các mô hình ngôn ngữ thần kinh giống như các đám mây được liên kết bởi những từ ngữ. Vào thời điểm đó, công ty này tin rằng 5,9% gần như tương đương với con người. Tuy nhiên, IBM cho rằng mức độ tương đương với con người thấp hơn thế, nó ở mức 5,1% và hiện chưa có công ty nào đạt được.
Julia Hirschberg, Giáo sư và Chủ tịch khoa Khoa học Máy tính của Đại học Columbia, cho biết: "Khả năng nhận dạng tiếng nói giống như con người là một thách thức vì những cuộc hội thoại của con người, đặc biệt là trong cuộc hội thoại tự phát, rất phức tạp".
>> Chủ tịch FPT: ‘Giờ đang là thời của người giỏi Toán’
Chi Vy
Ý kiến
()