Chúng ta

10 thuật toán thống trị thế giới

Thứ sáu, 14/7/2017 | 11:45 GMT+7

Thuật toán được sử dụng lần đầu tiên năm 1230 - hơn 700 năm trước khi chiếc máy tính đầu tiên ra đời. Ngày nay, thuật toán len lỏi tới từng ngõ ngách trong cuộc sống: chính phủ, ngân hàng, hệ thống đèn giao thông, smart phone,…Tuy nhiên, trong số hàng triệu thuật toán đang hoạt động, chỉ có 10 đại diện có sức ảnh hưởng mạnh mẽ nhất tới văn minh nhân loại.

<p class="Normal"> <strong>1. Thuật toán tìm kiếm của Google (Còn được biết đến dưới cái tên 'Innovative PageRank')</strong></p> <p class="Normal"> PageRank thường phối hợp với các phần mềm spider hoặc crawler để xử lý một lượng keyword khổng lồ và các yếu tố đi kèm với nó như: tần suất, vị trí địa lý; kèm theo đó là thời gian tồn tại của trang web được điều hướng tới. Thuật toán này định mức “chất lượng” của từng trang web để đi đến kết quả cuối cùng, liên quan tới “mức độ quan trọng” của trang web đó. Trang web có mức độ quan trọng cao nhất sẽ hiển thị ở vị trí đầu tiên trong danh sách kết quả tìm kiếm.</p> <p class="Normal"> Công cụ tìm kiếm của Google đang chiếm 66,7% thị phần tại Mỹ. Microsoft bị bỏ lại khá xa với 18,1%, kế đó là Yahoo - 11,2%; Ask - 2,6%; AOL - 1,4%.</p>

1. Thuật toán tìm kiếm của Google (Còn được biết đến dưới cái tên 'Innovative PageRank')

PageRank thường phối hợp với các phần mềm spider hoặc crawler để xử lý một lượng keyword khổng lồ và các yếu tố đi kèm với nó như: tần suất, vị trí địa lý; kèm theo đó là thời gian tồn tại của trang web được điều hướng tới. Thuật toán này định mức “chất lượng” của từng trang web để đi đến kết quả cuối cùng, liên quan tới “mức độ quan trọng” của trang web đó. Trang web có mức độ quan trọng cao nhất sẽ hiển thị ở vị trí đầu tiên trong danh sách kết quả tìm kiếm.

Công cụ tìm kiếm của Google đang chiếm 66,7% thị phần tại Mỹ. Microsoft bị bỏ lại khá xa với 18,1%, kế đó là Yahoo - 11,2%; Ask - 2,6%; AOL - 1,4%.

<p class="Normal"> <strong>2. Thuật toán trên Newsfeed của Facebook</strong></p> <p class="Normal"> Một sự thật không thể chối cãi, Newfeeds của Facebook là nơi giết thời gian của chúng ta.</p> <p class="Normal"> Để phân tích và dự đoán được chính xác những nội dung mà người dùng ưa thích, thuật toán này xem xét một số yếu tố như: Lượng comment trên status, ảnh, event… của bạn, số lượng người ghé thăm và post bài trên Wall của bạn… Thuật toán này cũng đưa ra được một bảng xếp hạng về những người tương tác với bạn nhiều nhất cũng như phân loại được các post có liên quan tới bạn.</p> <p class="Normal"> Nếu bạn không đặt tùy chọn “Show all the activities” trong preference thì status hiển thị trên Newsfeed của bạn luôn được lọc bởi thuật toán của Facebook.</p>

2. Thuật toán trên Newsfeed của Facebook

Một sự thật không thể chối cãi, Newfeeds của Facebook là nơi giết thời gian của chúng ta.

Để phân tích và dự đoán được chính xác những nội dung mà người dùng ưa thích, thuật toán này xem xét một số yếu tố như: Lượng comment trên status, ảnh, event… của bạn, số lượng người ghé thăm và post bài trên Wall của bạn… Thuật toán này cũng đưa ra được một bảng xếp hạng về những người tương tác với bạn nhiều nhất cũng như phân loại được các post có liên quan tới bạn.

Nếu bạn không đặt tùy chọn “Show all the activities” trong preference thì status hiển thị trên Newsfeed của bạn luôn được lọc bởi thuật toán của Facebook.

<p class="Normal"> <strong>3. Thuật toán trên trang hẹn hò OKCupid</strong></p> <p class="Normal"> Hẹn hò online dần trở thành ngành công nghiệp triệu đô. Nhờ sự lớn mạnh không ngừng của các trang hẹn hò như match.com, eHarmony, OkCupid…, quy mô của ngành công nghiệp này đã mở rộng 3,5% kể từ khi nó xuất hiện lần đầu tiên vào năm 2008. Có rất nhiều dự báo về sự tăng trưởng tích cực của nó.</p> <p class="Normal"> Dịch vụ hẹn hò trực tuyến ngày càng trở nên phổ biến bởi đó là cách đơn giản nhất để các cặp tình nhân có thể biết đến nhau. Và để các đối tượng có thể kết nối với bên kia, các dịch vụ hẹn hò online này sử dụng một hệ thống thuật toán nhằm phân tích hoạt động, sở thích, tâm trạng của người dùng để đưa ra các match - gợi ý trong việc tìm kiếm đối tác.</p> <p class="Normal"> OKCupid được đồng sáng lập bởi Christian Rudder - cựu sinh viên toán đến từ Đại học Harvard lừng danh. Chính anh là người đặt nền tảng cho thuật toán tìm kiếm của OKCupid (dựa theo phương pháp phân tích quyết định của người dùng). Mỗi câu hỏi và quyết định tương ứng của người dùng đều dùng để làm đầu vào (input) cho các hàm đánh giá. Nhờ các thuật toán phân tích quyết định và các hàm đánh giá tối ưu, OKCupid tỏ ra vượt trội hơn khá nhiều đối thủ…</p>

3. Thuật toán trên trang hẹn hò OKCupid

Hẹn hò online dần trở thành ngành công nghiệp triệu đô. Nhờ sự lớn mạnh không ngừng của các trang hẹn hò như match.com, eHarmony, OkCupid…, quy mô của ngành công nghiệp này đã mở rộng 3,5% kể từ khi nó xuất hiện lần đầu tiên vào năm 2008. Có rất nhiều dự báo về sự tăng trưởng tích cực của nó.

Dịch vụ hẹn hò trực tuyến ngày càng trở nên phổ biến bởi đó là cách đơn giản nhất để các cặp tình nhân có thể biết đến nhau. Và để các đối tượng có thể kết nối với bên kia, các dịch vụ hẹn hò online này sử dụng một hệ thống thuật toán nhằm phân tích hoạt động, sở thích, tâm trạng của người dùng để đưa ra các match - gợi ý trong việc tìm kiếm đối tác.

OKCupid được đồng sáng lập bởi Christian Rudder - cựu sinh viên toán đến từ Đại học Harvard lừng danh. Chính anh là người đặt nền tảng cho thuật toán tìm kiếm của OKCupid (dựa theo phương pháp phân tích quyết định của người dùng). Mỗi câu hỏi và quyết định tương ứng của người dùng đều dùng để làm đầu vào (input) cho các hàm đánh giá. Nhờ các thuật toán phân tích quyết định và các hàm đánh giá tối ưu, OKCupid tỏ ra vượt trội hơn khá nhiều đối thủ…

<p class="Normal"> <strong>4. Hệ thống thu thập, phân loại và mã hóa dữ liệu của NSA (Cơ quan An ninh Quốc gia Mỹ)</strong></p> <p class="Normal"> Công nghệ càng phát triển, sự riêng tư của chúng ta càng dễ bị xâm phạm. Nhất cử nhất động của mỗi người đều bị giám sát chặt chẽ, nhưng không phải giám sát bởi người mà bởi thuật toán.</p> <p class="Normal"> Nhờ các vụ rò rỉ tài liệu mật (Wikileaks, Edward Snowden…), dân tình mới biết đến sự tồn tại của liên minh tình báo Five Eyes gồm 5 quốc gia: Mỹ, Anh, Australia, Canada, New Zealand. 5 cơ quan tình báo của 5 quốc gia này bắt tay với nhau, từ đó họ kiểm soát được tất cả cuộc điện thoại, email, ảnh chụp webcam và vị trí địa lý của mọi người. Với yêu cầu thu thập, xử lý, phân tích, tổng hợp một lượng dữ liệu khổng lồ với độ chính xác cao và đương nhiên, Five Eyes phải sử dụng các thuật toán.</p> <p class="Normal"> Một sự thật trớ trêu, NSA phủ nhận việc “thu thập” dữ liệu của chúng ta. Theo thủ tục luật tố tụng năm 1982, thông tin coi như được thu thập khi và chỉ khi quá trình thu thập trực tiếp bởi nhân viên của ủy ban phòng thủ trực thuộc cơ quan tình báo quốc gia. Nếu thông tin được dò quét và trích xuất tự động từ bất kỳ nguồn nào bởi máy móc hoặc các hệ thống tự động thì các thông tin đó chỉ coi như “được thu thập” khi và chỉ khi chúng được xử lý thành dạng văn bản mà con người có thể đọc được.</p> <p class="Normal"> Vấn đề nằm ở chỗ, các thuật toán lại có mối liên hệ mật thiết với con người (nói đúng ra là con người sản xuất ra thuật toán để phục vụ mục đích của mình). Và một khi chúng ta nghĩ đến việc các thuật toán thu thập dữ liệu cá nhân, chúng ta cũng phải nghĩ đến tác giả đứng đằng sau thuật toán đó và động cơ của họ. Không một cá nhân hay tổ chức nào có thể đảm bảo về tính riêng tư của các dữ liệu mà họ thu được.</p> <p class="Normal"> Một vấn đề nữa liên quan tới thuật toán, đó là hệ mật Suite B của NSA. Hệ mật này là tập hợp các thuật toán mã hóa được phát triển bới chính NSA và phục vụ cho công việc của NSA. Hệ mật này được ứng dụng vào quá trình mã hóa dữ liệu, trao đổi khóa, chữ ký số, băm dữ liệu với mục đích duy nhất là bảo vệ tất cả thông tin của NSA.</p>

4. Hệ thống thu thập, phân loại và mã hóa dữ liệu của NSA (Cơ quan An ninh Quốc gia Mỹ)

Công nghệ càng phát triển, sự riêng tư của chúng ta càng dễ bị xâm phạm. Nhất cử nhất động của mỗi người đều bị giám sát chặt chẽ, nhưng không phải giám sát bởi người mà bởi thuật toán.

Nhờ các vụ rò rỉ tài liệu mật (Wikileaks, Edward Snowden…), dân tình mới biết đến sự tồn tại của liên minh tình báo Five Eyes gồm 5 quốc gia: Mỹ, Anh, Australia, Canada, New Zealand. 5 cơ quan tình báo của 5 quốc gia này bắt tay với nhau, từ đó họ kiểm soát được tất cả cuộc điện thoại, email, ảnh chụp webcam và vị trí địa lý của mọi người. Với yêu cầu thu thập, xử lý, phân tích, tổng hợp một lượng dữ liệu khổng lồ với độ chính xác cao và đương nhiên, Five Eyes phải sử dụng các thuật toán.

Một sự thật trớ trêu, NSA phủ nhận việc “thu thập” dữ liệu của chúng ta. Theo thủ tục luật tố tụng năm 1982, thông tin coi như được thu thập khi và chỉ khi quá trình thu thập trực tiếp bởi nhân viên của ủy ban phòng thủ trực thuộc cơ quan tình báo quốc gia. Nếu thông tin được dò quét và trích xuất tự động từ bất kỳ nguồn nào bởi máy móc hoặc các hệ thống tự động thì các thông tin đó chỉ coi như “được thu thập” khi và chỉ khi chúng được xử lý thành dạng văn bản mà con người có thể đọc được.

Vấn đề nằm ở chỗ, các thuật toán lại có mối liên hệ mật thiết với con người (nói đúng ra là con người sản xuất ra thuật toán để phục vụ mục đích của mình). Và một khi chúng ta nghĩ đến việc các thuật toán thu thập dữ liệu cá nhân, chúng ta cũng phải nghĩ đến tác giả đứng đằng sau thuật toán đó và động cơ của họ. Không một cá nhân hay tổ chức nào có thể đảm bảo về tính riêng tư của các dữ liệu mà họ thu được.

Một vấn đề nữa liên quan tới thuật toán, đó là hệ mật Suite B của NSA. Hệ mật này là tập hợp các thuật toán mã hóa được phát triển bới chính NSA và phục vụ cho công việc của NSA. Hệ mật này được ứng dụng vào quá trình mã hóa dữ liệu, trao đổi khóa, chữ ký số, băm dữ liệu với mục đích duy nhất là bảo vệ tất cả thông tin của NSA.

<p class="Normal"> <strong>5. Các trang thương mại điện tử</strong></p> <p class="Normal"> Amazon, Alibaba… quản lý sát sao các thao tác của người dùng cũng như thông tin mua bán của họ. Từ đó, các trang này đưa ra gợi ý mua sắm tương ứng.</p> <p class="Normal"> Trong vài thập niên đầu của thế kỷ 21, tính năng này cực kỳ phổ biến. Và dĩ nhiên nó cũng kéo theo nhiều hệ quả, cả tích cực lẫn tiêu cực.</p> <p class="Normal"> Xét từ góc độ người dùng, việc tự động đưa ra các gợi ý theo thói quen mua sắm giúp họ tiết kiệm rất nhiều thời gian tìm kiếm. Tuy nhiên, giống với thuật toán trên Newsfeed của Facebook, các thuật toán của Amazon tạo ra một trạng thái tạm gọi là filter-bubble. Filter-bubble dùng để mô tả trạng thái của người dùng khi họ bị “cô lập thông tin” (khi người dùng sử dụng các trang thương mại điện tử này, những thông tin phù hợp với thói quen của người dùng được hiển thị với tần suất cao hơn rất nhiều so với thông tin “trái” với thói quen của họ).</p>

5. Các trang thương mại điện tử

Amazon, Alibaba… quản lý sát sao các thao tác của người dùng cũng như thông tin mua bán của họ. Từ đó, các trang này đưa ra gợi ý mua sắm tương ứng.

Trong vài thập niên đầu của thế kỷ 21, tính năng này cực kỳ phổ biến. Và dĩ nhiên nó cũng kéo theo nhiều hệ quả, cả tích cực lẫn tiêu cực.

Xét từ góc độ người dùng, việc tự động đưa ra các gợi ý theo thói quen mua sắm giúp họ tiết kiệm rất nhiều thời gian tìm kiếm. Tuy nhiên, giống với thuật toán trên Newsfeed của Facebook, các thuật toán của Amazon tạo ra một trạng thái tạm gọi là filter-bubble. Filter-bubble dùng để mô tả trạng thái của người dùng khi họ bị “cô lập thông tin” (khi người dùng sử dụng các trang thương mại điện tử này, những thông tin phù hợp với thói quen của người dùng được hiển thị với tần suất cao hơn rất nhiều so với thông tin “trái” với thói quen của họ).

<p class="Normal"> <strong>6. Google Adword</strong></p> <p class="Normal"> Cũng giống như 5 ví dụ trước, Google theo dõi hành vi người dùng, các từ khóa hay sử dụng, xu hướng click… để đặt các quảng cáo phù hợp.</p> <p class="Normal"> Phần lớn doanh thu của Google đến từ tiền bán quảng cáo. Facebook cũng có quảng cáo. Nhưng bạn thử nghĩ lại xem, mình đã bao giờ click quảng cáo trên Facebook?</p>

6. Google Adword

Cũng giống như 5 ví dụ trước, Google theo dõi hành vi người dùng, các từ khóa hay sử dụng, xu hướng click… để đặt các quảng cáo phù hợp.

Phần lớn doanh thu của Google đến từ tiền bán quảng cáo. Facebook cũng có quảng cáo. Nhưng bạn thử nghĩ lại xem, mình đã bao giờ click quảng cáo trên Facebook?

<p class="Normal"> <strong>7. Sàn chứng khoán</strong></p> <p class="Normal"> Các sàn chứng khoán đã sử dụng rất nhiều thuật toán ngay từ những ngày đầu tiên nhằm dự đoán biến động thị trường. Ngày nay, các thuật toán “siêu tốc” được áp dụng cho hệ thống bot có khả năng đưa ra quyết định trong vài mili giây trước các biến động thị trường (người nhanh nhất cũng phải mất vài giây). Với các giao dịch trên sàn chứng khoán, máy móc và thuật toán hầu như không có đối thủ…</p> <p class="Normal"> Nói như vậy tức là máy móc và các thuật toán không có điểm yếu?</p> <p class="Normal"> Ngày 6/5/2010, chỉ số Dow Jones tụt gần 1.000 điểm trong vài phút, phải tới 20 phút sau đó mới phục hồi được. Lý do chính thức không bao giờ được công bố. Tuy nhiên, giới quan trắc cho rằng đó là lỗi của thuật toán giao dịch cạnh tranh định lượng (competing quantiative trading). Thuật toán này được sử dụng rộng rãi cho các sàn chứng khoán có tần suất giao dịch cao. Scott Patterson, báo cáo viên của Wall Street Journal, đã so sánh các thuật toán trên sàn chứng khoán với chế độ bay tự động…. Hầu hết phiên giao dịch ngày nay được tiến hành bằng thuật toán (tự động), tuy nhiên, khi có điều gì đó không ổn, con người hoàn toàn có thể can thiệp.</p>

7. Sàn chứng khoán

Các sàn chứng khoán đã sử dụng rất nhiều thuật toán ngay từ những ngày đầu tiên nhằm dự đoán biến động thị trường. Ngày nay, các thuật toán “siêu tốc” được áp dụng cho hệ thống bot có khả năng đưa ra quyết định trong vài mili giây trước các biến động thị trường (người nhanh nhất cũng phải mất vài giây). Với các giao dịch trên sàn chứng khoán, máy móc và thuật toán hầu như không có đối thủ…

Nói như vậy tức là máy móc và các thuật toán không có điểm yếu?

Ngày 6/5/2010, chỉ số Dow Jones tụt gần 1.000 điểm trong vài phút, phải tới 20 phút sau đó mới phục hồi được. Lý do chính thức không bao giờ được công bố. Tuy nhiên, giới quan trắc cho rằng đó là lỗi của thuật toán giao dịch cạnh tranh định lượng (competing quantiative trading). Thuật toán này được sử dụng rộng rãi cho các sàn chứng khoán có tần suất giao dịch cao. Scott Patterson, báo cáo viên của Wall Street Journal, đã so sánh các thuật toán trên sàn chứng khoán với chế độ bay tự động…. Hầu hết phiên giao dịch ngày nay được tiến hành bằng thuật toán (tự động), tuy nhiên, khi có điều gì đó không ổn, con người hoàn toàn có thể can thiệp.

<p class="Normal"> <strong>8. Nén nhạc chuẩn MP3</strong></p> <p class="Normal"> Các thuật toán nén dữ liệu là một phần cốt yếu của công nghệ số. Chúng hướng đến 2 mục tiêu chính là tiết kiệm không gian lưu trữ và giảm thời gian truyền dữ liệu. Để đạt được 2 mục tiêu đó, vô số phương pháp đã ra đời… Trong đó, đáng chú ý nhất có lẽ là chuẩn MP3.</p> <p class="Normal"> Năm 1987, các nhà khoa học Đức đã hoàn thành chuẩn nén MP3 giúp giảm dung lượng file audio đi 10 lần và MP3 đã khởi đầu kỷ nguyên mới cho ngành công nghiệp âm nhạc.</p>

8. Nén nhạc chuẩn MP3

Các thuật toán nén dữ liệu là một phần cốt yếu của công nghệ số. Chúng hướng đến 2 mục tiêu chính là tiết kiệm không gian lưu trữ và giảm thời gian truyền dữ liệu. Để đạt được 2 mục tiêu đó, vô số phương pháp đã ra đời… Trong đó, đáng chú ý nhất có lẽ là chuẩn MP3.

Năm 1987, các nhà khoa học Đức đã hoàn thành chuẩn nén MP3 giúp giảm dung lượng file audio đi 10 lần và MP3 đã khởi đầu kỷ nguyên mới cho ngành công nghiệp âm nhạc.

<p class="Normal"> <strong>9. CRUSH của IBM</strong></p> <p class="Normal"> CRUSH là hệ thống phân tích và dự đoán thông tin của IBM, được đưa vào sử dụng năm 2010. CRUSH viết đầy đủ là: Criminal Reduction Utilizing Statistical History (Tạm dịch: Hệ thống an ninh sử dụng dữ liệu thống kê). Nhờ CRUSH, cảnh sát thành phố Memphis (Mỹ) đã đạt được những kết quả rất tích cực: Tổng số vụ trọng án giảm 30%, giết người giảm 15% so với 2006.</p> <p class="Normal"> CRUSH lấy thông tin đầu vào và xử lý chúng thông nhờ các hàm gộp dữ liệu, các phân tích thống kê và các thuật toán tối tân nhất. CRUSH cho phép cảnh sát đánh giá các nghi phạm cũng như dự đoán khả năng gây án của chúng trên toàn thành phố.</p> <p class="Normal"> Trong tương lai, các hệ thống tự động như CRUSH sẽ dần thay thế các chuyên viên điều tra. Những vụ án được theo dõi, tổng hợp và xử lý bởi các thuật toán quản lý Internet, GPS, dữ liệu cá nhân, dữ liệu sinh trắc học… Và tất cả thông tin, trạng thái, dự báo đều được cập nhật theo thời gian thực.</p>

9. CRUSH của IBM

CRUSH là hệ thống phân tích và dự đoán thông tin của IBM, được đưa vào sử dụng năm 2010. CRUSH viết đầy đủ là: Criminal Reduction Utilizing Statistical History (Tạm dịch: Hệ thống an ninh sử dụng dữ liệu thống kê). Nhờ CRUSH, cảnh sát thành phố Memphis (Mỹ) đã đạt được những kết quả rất tích cực: Tổng số vụ trọng án giảm 30%, giết người giảm 15% so với 2006.

CRUSH lấy thông tin đầu vào và xử lý chúng thông nhờ các hàm gộp dữ liệu, các phân tích thống kê và các thuật toán tối tân nhất. CRUSH cho phép cảnh sát đánh giá các nghi phạm cũng như dự đoán khả năng gây án của chúng trên toàn thành phố.

Trong tương lai, các hệ thống tự động như CRUSH sẽ dần thay thế các chuyên viên điều tra. Những vụ án được theo dõi, tổng hợp và xử lý bởi các thuật toán quản lý Internet, GPS, dữ liệu cá nhân, dữ liệu sinh trắc học… Và tất cả thông tin, trạng thái, dự báo đều được cập nhật theo thời gian thực.

<p class="Normal"> <strong>10. Auto-tune – tự cân chỉnh âm thanh</strong></p> <p class="Normal"> <span>Chức năng auto-tune tại phòng thu đều được tinh chỉnh bới thuật toán. Các thiết bị thu âm sẽ xử lý theo một tập lệnh và điều chỉnh cao độ nhạc cụ chính xác đến nửa cung (semitone). Một điều thú vị ở đây là thuật toán auto-tune lần đầu tiên được phát triển bởi Any Hildebrand, mục đích lúc đầu của nó là để thông dịch các dữ liệu địa chấn.</span></p> <p class="Normal"> Ca khúc "Believe" của Cher là ca khúc đầu tiên sử dụng auto-tuning.</p>

10. Auto-tune – tự cân chỉnh âm thanh

Chức năng auto-tune tại phòng thu đều được tinh chỉnh bới thuật toán. Các thiết bị thu âm sẽ xử lý theo một tập lệnh và điều chỉnh cao độ nhạc cụ chính xác đến nửa cung (semitone). Một điều thú vị ở đây là thuật toán auto-tune lần đầu tiên được phát triển bởi Any Hildebrand, mục đích lúc đầu của nó là để thông dịch các dữ liệu địa chấn.

Ca khúc "Believe" của Cher là ca khúc đầu tiên sử dụng auto-tuning.

Theo FPT Tech Insight

Ý kiến

()