Chúng ta

Trí tuệ nhân tạo của Google có thể dịch các ngôn ngữ chưa từng học

Thứ sáu, 2/12/2016 | 07:55 GMT+7

Nếu trí tuệ nhân tạo có thể dịch từ tiếng Anh sang tiếng Hàn và tiếng Nhật, thì nó có thể tự động dịch tiếng Hàn sang tiếng Nhật và ngược lại.

1-5859-1480582872.jpg

Phần mềm Translate của Google.

Trí tuệ nhân tạo (AI) của Google không chỉ làm tốt hơn trong việc dịch ngôn ngữ giống Mandarin, mà còn có thể dịch qua lại giữa hai ngôn ngữ nó thậm chí còn chưa từng được học. Trong một bản báo cáo nghiên cứu, Google đã tiết lộ cách mà AI này sử dụng khả năng liên kết ngôn ngữ của riêng nó để miêu tả lại các cụm từ ở bất kỳ ngôn ngữ nào. Kết quả là AI có thể dịch qua lại giữa các cặp ngôn ngữ với độ chính xác “hợp lý”, miễn sao nó từng dịch hai ngôn ngữ đó từ một ngôn ngữ chung. Ví dụ, nếu AI từng dịch tiếng Anh sang tiếng Hàn và tiếng Nhật, thì bây giờ bằng khả năng của mình, nó có thể dịch qua lại giữa tiếng Hàn và tiếng Nhật.

Google gần đây đã chuyển tính năng dịch của AI thành hệ thống dịch thuật có tên Google Neural Machine Translation (GNMT). Đó là một khuôn khổ học tập “end-to-end học thông tin từ hàng triệu ví dụ” và chất lượng các bản dịch đã được cải thiện đáng kể. Vấn đề là kho dữ liệu dịch của Google cho tới hiện tại bao gồm 103 ngôn ngữ, có nghĩa là sẽ có khoảng 5.253 cặp ngôn ngữ có thể được dịch. Nếu bạn nhân con số đó với hàng triệu ví dụ cần thiết cho việc đào tạo AI, đó là một kho công việc khổng lồ.

2-1243-1480582872.jpg

Mô hình 3 ngôn ngữ biểu diễn bằng hình ảnh 3D dữ liệu nội bộ.

Ngay cả các nhà nghiên cứu cũng không thể chắc chắn 100% cách thức hoạt động của nó như thế nào, bởi vì hệ thống học sâu (deep-learning) lâu nay vẫn nổi tiếng là khó hiểu. Tuy nhiên, họ đã có thể nhìn vào trong một mô hình 3 ngôn ngữ sử dụng hình ảnh 3D của dữ liệu nội bộ (như ở trên). Khi phóng to ra, các nhà nghiên cứu thấy rằng hệ thống đã tự động nhóm lại tất cả các câu có nghĩa giống nhau từ cả ba ngôn ngữ khác biệt.

Về bản chất, nó phát triển khả năng thể hiện liên kết ngôn ngữ nội bộ của riêng nó cho các cụm từ hoặc câu tương tự nhau.Điều này có nghĩa mạng lưới phải được mã hóa một cái gì đó về ngữ nghĩa của câu chứ không phải chỉ đơn giản là ghi nhớ các bản dịch cụm từ sang cụm từ (phrase-to-phrase)”, theo các nhà nghiên cứu. “Chúng tôi giải thích điều này như dấu hiệu tồn tại của một khả năng liên kết ngôn ngữ trong mạng lưới”.

Trong một thí nghiệm, nhóm nghiên cứu đã sáp nhập 12 cặp ngôn ngữ thành một mô hình có kích thước tương tự như một cặp duy nhất. Mặc dù có thể làm giảm mạnh các cơ sở mã nguồn, những gì họ có thể nhận chỉ là “một bản dịch có chất lượng thấp hơn” một mô hình hai ngôn ngữ chuyên dụng. “Cách tiếp cận của chúng tôi được chứng minh là có thể làm việc một cách đáng tin cậy trong điều kiện quy mô sản xuất sản phẩm của Google và cho phép chung tôi nhanh chóng mở rộng phạm vi ra một lượng lớn ngôn ngữ”, nhóm nghiên cứu chia sẻ. Ghi nhớ rằng, Google mới chỉ nghiêm túc triển khai dự án AI cho ngôn ngữ trong một thời gian ngắn, nên sự tiến bộ nhanh chóng của nó là khá đáng sợ, đặc biệt nếu bạn là một dịch giả chuyên nghiệp.

Đức Anh (theo Engadget)

Ý kiến

()