‘Nhà F chủ động bắt kịp kỷ nguyên giao tiếp bằng giọng nói’

Trưởng phòng IoT Ban Công nghệ FPT - anh Lê Ngọc Tuấn cho hay, tập đoàn đã và đang chuẩn bị nền tảng cho kỷ nguyên giao tiếp bằng giọng nói. Nhà F muốn đồng hành các ông lớn khác trong nước tạo ra những nền tảng để bắt kịp chuyến tàu này.

Bước lên sân khấu sự kiện Vietnam Mobile Day 2018, anh Lê Ngọc Tuấn - Trưởng phòng IoT, Ban công nghệ FPT, cầm một chiếc loa nhỏ, hình trụ, giống mọi chiếc loa khác và nói: “Chào Alexa”. Ngay lập tức, Alexa trả lời lại bằng giọng nữ, với cả tiếng Việt và tiếng Anh: “Xin chào, tôi là Alexa. Tôi có thể chơi nhạc, mua hàng, nói chuyện, đọc sách và làm nhiều ứng dụng khác”.

“Giọng nói của Alexa được hình thành nhờ công nghệ tổng hợp giọng. Việc nghe và trả lời của Alexa mượt mà nhờ các công nghệ điển hình của AI (Trí tuệ nhân tạo) như text to speech (chuyển văn bản thành giọng nói) và speech to text (chuyển giọng nói thành văn bản)”, anh Tuấn chia sẻ.

Theo diễn giả nhà F, Alexa là ví dụ điển hình của VUI (viết tắt của Voice User Interface - Giao tiếp bằng giọng nói). Đây là thời kỳ mà IoT và AI sẽ hòa vào làm một, một chiếc loa “nhìn bình thường” nhưng có thể hiểu và thực hiện các lệnh của người dùng.

Giao tiếp bằng giọng nói người dùng không phải là khái niệm quá mới. VUI xuất hiện lần đầu tiên từ năm 1979, nhưng cho đến gần đây, khi mà các “ông lớn” công nghệ như Apple với Siri, Google ra mắt Google Now, Amazon tung Alexa và Microsoft nhập cuộc với Cortana… hay IBM và Facebook cũng bắt đầu tham gia vào cuộc chơi này, khiến VUI đang được nhắc đến nhiều hơn.

Kỷ nguyên VUI khởi phát khi các thiết bị thông minh và IoT có quá nhiều và bị bão hòa. Một gia đình có khoảng 20 thiết bị thông minh, nghĩa là họ phải cài từ 10-20 ứng dụng trên điện thoại và máy tính bảng để điều khiển. Ở kỷ nguyên của VUI, các thiết bị sẽ được điều khiển bởi một sản phẩm (điển hình là chiếc loa Alexa của Amazon) và cách lập trình của các nhà phát triển phần mềm cũng sẽ thay đổi.

Anh Lê Ngọc Tuấn - Trưởng phòng IoT Ban Công nghệ, tại Vietnam Mobile Day 2018. Ảnh: Nguyễn Lương.

“Xu hướng chuyển sang giao tiếp bằng giọng nói đang chuyển dịch rất nhanh trên thế giới, nhưng ở Việt Nam không nhiều người biết đến. Mobile và xu hướng chạm, gõ đang bão hòa, giọng nói lên ngôi. Trong tương lai gần, các kỹ sư phần mềm cũng sẽ lập trình bằng giọng nói chứ không phải gõ như hiện nay”, Trưởng phòng IoT dự đoán.

Giờ đây, các ông lớn trên thế giới như Google, Amazon, Baidu... đều đã nhảy vào cuộc chơi mới để xây dựng các nền tảng (platform) phục vụ cho sự chuyển dịch này. Sản phẩm điển hình sẽ là loa cùng các thiết bị hỗ trợ. Các ứng dụng hiện tại đều được lập trình phục vụ cho giọng nói. Với bộ dữ liệu khổng lồ cùng công nghệ AI, ngôn ngữ của những "cô gái ảo thông minh" như Alexa sẽ có thể nghe, hiểu và trả lời tự nhiên như con người.

Anh Lê Ngọc Tuấn cho hay, những chiếc loa đầy "chất" công nghệ đang được sử dụng phổ biến tại Mỹ. Họ dùng thay thế điện thoại hay bất cứ thiết bị thông minh nào. Chiếc loa có thể chơi nhạc theo yêu cầu, gọi Uber khi được yêu cầu, bật/tắt các thiết bị điện trong nhà hoặc thay thế điện thoại liên lạc với mọi người mà không cần sim. Đơn giản và gọn nhẹ, người dùng có thể mang nó đi bất cứ đâu.

Trưởng phòng IoT khẳng định, 2018 sẽ là năm chuyển dịch bước ngoặt của giao tiếp giọng nói, giống như cách đây 6 năm, cả thế giới chào đón sự lên ngôi của smartphone. Chu kỳ tiếp theo của công nghệ thế giới sẽ là VUI (Age of VUI - Thời kỳ của giao tiếp bằng giọng nói).

Số liệu thị trường thể hiện mức tăng trưởng của những chiếc loa minh chứng cho nhận định này. Từ năm 2015 đến nay, số lượng loa của riêng Amazon bán ra đã tăng chóng mặt. Cụ thể, năm 2015 trong đợt mở bán đầu tiên, 2 triệu chiếc loa đã được đặt hàng. Đến năm 2016, số lượng tiêu thụ tăng lên 10 triệu và tăng gấp 3 lần vào năm 2017.

Chuyên gia công nghệ nhà F dự đoán, năm 2018, số lượng loa tiêu thụ sẽ gấp 3 lần năm 2017. Đặc biệt, một nền tảng tương tự Google Home và Amazon, có tên Duer Baidu đến từ Trung Quốc sẽ làm thay đổi cấu trúc thị trường. Các thiết bị của Trung Quốc được sản xuất cực nhanh, cực rẻ sẽ khiến thị trường mở rộng hơn, nhanh hơn.

Trong hệ sinh thái mà Amazon đang xây dựng, tương lai loa trở thành trung tâm, sau đó là các thiết bị, dịch vụ thông minh như Uber, Grab, nghẹ nhạc kể chuyện được kết nối với loa. Thậm chí, Amazon còn đang tạo ra hệ thống thanh toán qua giọng nói. Ví dụ, khi có nhu cầu mua bột giặt, quần áo, khách hàng chỉ cần nói qua loa, mọi chuyện sẽ được tự động thực hiện qua hệ thống thương mại điện tử được kết nối.

“Ước tính đến năm 2020 sẽ có 1 triệu thiết bị IoT được bán ra mỗi ngày, và có 50 tỷ thiết bị được tích hợp VUI. Và đến năm 2020, các trợ lý ảo sẽ thay thế 40% các tương tác của con người trên di động”, anh Tuấn nói. “Ở thời kỳ của VUI, mọi thứ đều điều khiển bằng giọng nói và hạn chế con người sử dụng điện thoại và tablet”.

Chiếc loa thông minh Alexa là một trong những ví dụ điển hình của kỷ nguyên VUI.

Hiện nay, Google hay Amazon mới chủ yếu tập trung vào các thị trường nói tiếng Anh và Nhật. Trong thời gian tới, Amazon sẽ sử dụng phần demo tiếng Việt tích hợp vào Amazon Skills, sử dụng bộ dữ liệu tổng hợp tiếng nói của Ban Công nghệ FPT.

“Nếu không trở tay kịp, đây sẽ là cuộc xâm lăng tiếp theo về công nghệ trong kỷ nguyên 4.0. Và FPT mong muốn cùng các ông lớn khác trong nước tạo ra các nền tảng để bắt kịp chuyến tàu này”, Trưởng phòng IoT bày tỏ.

5 năm qua, FPT đã nghiên cứu và tập hợp các bộ dữ liệu để phục vụ công nghệ nhận dạng giọng nói speech to text và text to speech. Những dữ liệu này được xây dựng thành nền tảng chung cho Age of VUI ở Việt Nam và hỗ trợ cộng đồng start-up, doanh nghiệp trong xây dựng hệ sinh thái của riêng mình. “Kỷ nguyên giao tiếp bằng giọng nói đang đến rất gần. Thời kỳ này chuyển dịch rất nhanh và nếu không nhanh chóng tìm hiểu, sự nhập cuộc của chúng ta sẽ lạc hậu”, anh Tuấn nhấn mạnh.

>> FPT bắt tay Điện Quang phát triển thiết bị điện và chiếu sáng thông minh

Ban Công nghệ và Trường Đào tạo cán bộ FPT phối hợp tổ chức sự kiện Tech in Focus số 3, từ 15h-17h ngày 6/7, tại Hà Nội và TP HCM, nhằm mang đến cho cộng đồng yêu thích công nghệ những thông tin bổ ích về ứng dụng giao tiếp bằng giọng nói "Age of VUI". Hai diễn giả là anh Lê Ngọc Tuấn và anh Nguyễn Thượng Tường Minh.

Đăng ký tham dự tại đây.

Hạn đăng ký: 12h thứ Năm (5/7).

Chi Vy