Với người Việt Nam, giọng đọc huyền thoại của "chị Google" không còn quá xa lạ khi người dùng muốn chuyển văn bản thành giọng nói (Text-to-speech), đặc biệt trong các tình huống cần dùng ứng dụng bản đồ của Google để chỉ đường. Tuy nhiên, giọng đọc tiếng Việt của "chị Google" không thật sự hay bởi người Việt quen nghe giọng vùng miền hơn (Bắc - Trung - Nam).
Mới đây, FPT phát triển thành công FPT.AI Speech - công nghệ chuyển văn bản tiếng Việt thành giọng nói (Text-to-speech) có thể biến các dòng chữ vô hồn thành giọng đọc giống như người thật. Từ đầu năm 2019, FPT.AI Speech cập nhật thêm 3 phiên bản giọng nói tiếng Việt mới cho chất lượng giọng đọc tự nhiên giống như con người.
Thử giọng đọc FPT.Ai tại link này. |
Cụ thể, ba phiên bản giọng nói được cập nhật là: giọng nam miền Bắc (Lê Minh), nữ miền Bắc (Ban Mai) và giọng nữ miền Nam (Lan Nhi). Các giọng mới cho chất lượng cao hơn, giọng đọc tự nhiên giống con người, tự động ngắt nghỉ khi đọc câu dài, kết hợp với biểu cảm, hoàn toàn khác với ngôn ngữ máy đọc thông thường đều đều, không tự nhiên.
Hiện người dùng có thể trải nghiệm bằng cách truy cập vào website https://fpt.ai/vi/tts-vi/ tại link này, sau đó nhập đoạn văn bản muốn AI đọc. Chọn tốc độ đọc, hoặc thêm ngữ điệu nếu đoạn văn đó có chứa câu hỏi. Khi click vào Phân tích văn bản, FPT.AI sẽ đọc đoạn văn đó.
Mời độc giả nghe thử giọng đọc của FPT.AI:
Giọng nữ Miền Bắc (Ban Mai):
Giọng nữ miền Nam (Lan Nhi):
Giọng nam miền Bắc (Lê Minh):
Theo Techinsight, để cho ra đời các phiên bản giọng đọc “thật” nhất, các chuyên gia và kỹ sư của Ban Công nghệ FPT (FTI) đã nghiên cứu một thời gian dài, thu thập, phân tích và xử lý hàng triệu dữ liệu, hàng nghìn giọng đọc nam và nữ từ cả ba miền Bắc, Trung, Nam. Đồng thời phát triển và ứng dụng Ngôn ngữ học, Âm học và các công nghệ: Xử lý ngôn ngữ tự nhiên (Natural Language Processing), học máy (Machine Learning), xử lý tín hiệu số (Digital Signal Processing).
FPT.AI Speech được phát triển dành riêng cho người Việt, dựa trên những nghiên cứu chuyên sâu về giọng nói đặc trưng của từng vùng miền tại Việt Nam. Trước đó, FPT.AI Speech đã có 4 phiên bản giọng đọc khác nhau, gồm có giọng nữ miền Bắc, giọng nam miền Bắc, giọng nữ Huế và giọng nam miền Nam. Đặc biệt, tất cả phiên bản giọng đọc đều được miễn phí cho mọi người truy cập và sử dụng. Tuy nhiên, nếu khách hàng có nhu cầu xử lý một lượng lớn dữ liệu, FPT sẽ đưa ra các gói chi phí để khách hàng có được sự hỗ trợ kỹ thuật tốt nhất.
FPT.AI Text-To-Speech mang lại nhiều giá trị thực tiễn, ứng dụng trong hệ thống tổng đài chăm sóc khách hàng, tổng đài nhắc nợ, hay các hệ thống phát thanh trong các lĩnh vực công cộng như giao thông, y tế… Ứng dụng công nghệ điện toán đám mây của Amazon, API của FPT.AI có thể phản hồi nhanh chóng mọi yêu cầu của khách hàng, đáp ứng nhu cầu tải đột biến của hệ thống. Với ưu điểm giọng đọc chất lượng tốt, tự nhiên, giống với con người nên hiện nay hầu hết các giọng đọc tiếng Việt trên Youtube, một số tổng đài hỗ trợ khách hàng hay các ứng dụng đọc truyện ở Việt Nam… đều đang sử dụng giọng đọc của FPT.
Trên thế giới, Text-To-Speech là công nghệ xử lý văn bản thành giọng nói đã được nghiên cứu khoảng vài chục năm trước, đặc biệt phát triển mạnh trong 10-15 năm gần đây. Công nghệ này đã phát triển gần như hoàn thiện ở nước ngoài, đặc biệt tại các nước sử dụng tiếng Anh. Khi ứng dụng vào cuộc sống, công nghệ này mang lại lợi ích lớn cho cộng đồng người khuyết tật, như người khiếm thị, những người mất khả năng đọc, nói hoặc diễn đạt.
Người dùng có thể kết nối với API của FPT.AI hoặc chuyển đổi văn bản trực tiếp trên giao diện người dùng của website thành các file âm thanh với những định dạng thông dụng như MP3, WAV…
Tại Việt Nam, Text-To-Speech đang đi những bước đi đầu tiên, FPT.AI Speech được Ban Công nghệ FPT (FTI) nỗ lực nghiên cứu và cho ra đời nhằm đưa công nghệ này vào đời sống của người Việt.
Tân Phong
Hiện Ban Công nghệ Tập đoàn FPT sở hữu nền tảng trí tuệ nhân tạo FPT.AI, ứng dụng vào nghiên cứu và phát triển FPT.AI Speech - công nghệ chuyển đổi văn bản thành giọng nói và nhận dạng giọng nói. FPT.AI Text-to-speech được nghiên cứu bởi đội ngũ nhà khoa học, chuyên gia, tiến sĩ, kỹ sư giàu kinh nghiệm tốt nghiệp các trường đại học danh tiếng như: Đại học Cambridge, Đại học Versailles, Đại học Quốc gia Pusan, Đại học Stuttgart, Đại học Kỹ thuật Nanyang…và đã được nhiều doanh nghiệp tin tưởng ứng dụng trong thực tế nhằm tối ưu hóa chi phí và vận hành. |
Ý kiến
()