Bài toán dịch tự động từ ngôn ngữ tự nhiên này sang ngôn ngữ tự nhiên khác là một bài toán khó. Trong những năm gần đây, Google đã tích cực phát triển dịch vụ Google Translate, một dịch vụ dịch máy tự động sử dụng các thuật toán học máy thống kê. Mặc dù dịch vụ này của Google chưa hoàn hảo, nhưng chất lượng dịch càng ngày càng được cải tiến hơn, nhất là đối với các cặp ngôn ngữ thông dụng hoặc tương đồng.
Các nhà khoa học máy tính của Google phát triển thuật toán tự động viết tiêu đề cho ảnh. Ảnh: Technologyreview. |
Gần đây, các nhà khoa học máy tính của Google sử dụng kỹ thuật học máy tương tự để dịch ảnh thành lời. Họ xây dựng dịch vụ tự động sinh tiêu đề cho ảnh, mô tả chính xác nội dung của ảnh. Ví dụ, ảnh trong bài này có thể được mô tả bằng lời như sau: “Một nhóm người đang mua bán tại một chợ ngoài trời. Có nhiều loại rau ở quầy hoa quả.” Dịch vụ này sẽ rất hữu ích cho các công cụ tìm kiếm, xuất bản tự động và giúp những người khiếm thị duyệt web, giúp họ tiếp cận với thế giới rộng hơn.
Cách tiếp cận truyền thống của các hệ thống dịch ngôn ngữ được phát triển từ trước tới nay là dịch từng từ hoặc cụm từ, sau đó sắp thứ tự các từ hoặc cụm từ để cải thiện chất lượng dịch. Trong vài năm nay, Google đã sử dụng cơ sở dữ liệu văn bản tìm kiếm khổng lồ mà họ sở hữu để phát triển cách dịch hoàn toàn khác. Cách tiếp cận này dựa trên việc đếm tần số xuất hiện của các từ đứng gần các từ khác và biểu diễn chúng trong một không gian véc-tơ nhiều chiều. Như thế, mỗi từ sẽ được biểu diễn bằng một véc-tơ, mỗi cụm từ hoặc câu được biểu diễn bởi một tổ hợp của các véc-tơ này.
Vì nghĩa của các từ có tính chất tổng quát, không phụ thuộc ngôn ngữ, nên quan hệ của các từ sẽ giống nhau, không phụ thuộc ngôn ngữ. Ví dụ, nếu các từ “king”, “man”, “queen” và “woman” được biểu diễn bằng bốn véc-tơ tương ứng trong cùng một không gian véc-tơ, thì các phép cộng trừ véc-tơ có thể biểu diễn một quan hệ tuyến tính đơn giản giữa các từ này. Một điểm thú vị là ta thấy có phương trình sau “king” - “man” + “woman” = “queen”. Quan trọng hơn là, điều này đúng cho mọi ngôn ngữ, chẳng hạn, với tiếng Việt, ta cũng có “vua” - “đàn ông” + “đàn bà” = “hoàng hậu”.
Như vậy, vấn đề dịch ngôn ngữ được chuyển thành một bài toán trên không gian véc-tơ toán học. Cách tiếp cận mới của dịch vụ Google Translate là chuyển mỗi câu thành một véc-tơ và dùng véc-tơ đó để sinh ra câu tương đương trong ngôn ngữ khác.
Các nhà khoa học máy tính tại Google đã sử dụng cách tiếp cận tương tự để dịch ảnh thành lời. Họ sử dụng mô hình mạng nơ-ron nhân tạo để nghiên cứu 100.000 ảnh và tiêu đề của chúng, từ đó học cách phân loại nội dung của ảnh. Nhưng thay vì sinh một tập từ mô tả ảnh, thuật toán sinh một véc-tơ biểu diễn mối quan hệ giữa các từ. Véc-tơ này sau đó được nhúng vào thuật toán dịch máy hiện có của Google để sinh tiêu đề của ảnh, viết bằng tiếng Anh hoặc một ngôn ngữ bất kì.
Để đánh giá hiệu quả của cách tiếp cận mới này, Google thuê các kiểm định viên được tuyển qua dịch vụ Mechanical Turk của Amazon. Các kiểm định viên xếp hạng những tiêu đề được sinh tự động bằng cách mới này cùng với tiêu đề được sinh bởi các cách tiếp cận tự động khác và các tiêu đề được mô tả bởi con người.
Kết quả cho thấy, hệ thống mới của Google cho kết quả rất tốt. Trên bộ dữ liệu ảnh PASCAL, hệ thống mới của Google cho kết quả tốt hơn các cách tiếp cận khác. Điểm số BLEU - một độ đo đánh giá chất lượng dịch - của hệ thống mới là 59, trong khi kết quả tốt nhất của các hệ thống tự động khác là 25. Điểm số BLEU của con người trong tác vụ này là 69.
Nhóm nhà khoa học tại Google cho rằng chất lượng của hệ thống còn có thể cao hơn nữa khi kích thước của tập dữ liệu huấn luyện tăng lên nhiều hơn. Họ kỳ vọng rằng trong một tương lai không xa, máy tính sẽ có độ chính xác không thua kém con người trong tác vụ này.
Ban Công nghệ FPT cũng đang nghiên cứu và phát triển xu hướng này. Dự kiến sẽ có kết quả bước đầu trong khoảng cuối 2015.
Lê Vầng (Tham khảo MIT Technology Review)
Ý kiến
()