Big Data hiểu bạn hơn cả người tình và bố mẹ

Câu chuyện vén màn bí ẩn về việc công nghệ đã tạo nên chiến thắng của Trump và Brexit đầy bất ngờ.

8h30 sáng 9/11, Michal Kosinski thức giấc trong khách sạn Sunnehus ở Zurich, Thụy Sĩ. Nhà khoa học 34 tuổi đến để báo cáo trong hội thảo về hiểm nguy của Big Data và cái gọi là “cách mạng số”. Anh đi khắp thế giới để trình bày những báo cáo này, bởi anh là chuyên gia hàng đầu trong lĩnh vực psychometrics - ngành tâm lý học dựa trên phân tích dữ liệu. Bật TV xem, anh chợt hiểu: quả bom đã phát nổ. Donald Trump đã được bầu làm tổng thống Mỹ, bất chấp dự báo của các nhà xã hội học.

Kosinski xem tin về thắng lợi của Trump hồi lâu, xem kết quả bầu cử các bang khác nhau. Trong anh xuất hiện nghi ngờ rằng những gì đang xảy ra có liên quan đến công trình khoa học của mình. Anh thở dài rồi tắt TV.

a26d9c0c6b06c0b26b6434f13ceb70-8509-5599

Thành công của Trump trong cuộc bầu cử Tổng thống thứ 45 ở Mỹ là câu chuyện mới nhất của Big Data. Ảnh: Yahoo.

Cũng ngày hôm đó, một công ty nhỏ chưa ai nghe tên ở thủ đô London của Anh đã gửi đi thông cáo báo chí: “Chúng tôi lấy làm kinh ngạc vì phương pháp truyền thông dựa trên dữ liệu có tính cách mạng của mình đã góp phần đáng kể vào chiến thắng của Donald Trump”. Thông cáo được ký bởi một người tên là Alexander Nix. Anh này 41 tuổi, người Anh và lãnh đạo Công ty Cambridge Analytica. Nix luôn mặc vét, đeo cặp kính thời trang, với mái tóc quăn sáng màu chải ra sau gáy.

Kosinski trầm tư, Nix bóng mượt và Trump ngoác cười - người thứ nhất đã làm cho cách mạng số khả thi, người thứ hai thực hiện nó, và nhờ nó mà người thứ ba đã giành thắng lợi.

Big Data nguy hiểm đến mức nào?

Ngày nay, bất cứ ai không sống trên Mặt trăng 5 năm vừa qua đều quen với thuật ngữ Big Data. Thuật ngữ đó còn có nghĩa là tất cả những gì ta làm, trên mạng hay offline, đều để lại dấu vết số. Mua bằng thẻ, tìm trên Google, dạo chơi với điện thoại trong túi, từng like trên mạng xã hội - tất cả đều được lưu lại. Một thời gian dài không ai hình dung có thể sử dụng các dữ liệu ấy làm gì, chắc chỉ trừ trường hợp kiểu trên Facebook bỗng hiện quảng cáo thuốc bởi vì trước đó ta vào Google gõ câu “hạ huyết áp”. Cũng không ai biết Big Data sẽ là gì đối với nhân loại - hiểm họa lớn hay thành tựu vĩ đại? Nhưng từ ngày 9/11, chúng ta đã biết câu trả lời. Đằng sau chiến dịch tranh cử của Trump trên mạng, và đằng sau chiến dịch ủng hộ Brexit là cùng một công ty chuyên nghiên cứu Big Data: Cambridge Analytica (CA) và Giám đốc Nix. Ai muốn hiểu bản chất của những cuộc bỏ phiếu đó (và bản chất của cả những sự kiện sắp xảy ra), cần bắt đầu từ sự kiện năm 2014 ở Đại học Cambridge, Vương quốc Anh. Hay cụ thể hơn là ở bộ môn Psychometrics của Kosinski.

Psychometrics, đôi khi gọi là psychography, là một phương pháp đo nhân cách. Trong tâm lý học hiện đại, phổ biến nhất là phương pháp OCEAN (từ chữ cái đầu của 5 chiều đo). Vào những năm 1980, có hai nhà tâm lý học đã chứng minh là mỗi người có thể được đo bằng 5 chiều. Đó là Big Five: độ mở đối với trải nghiệm (Openness ), sự tận tâm (Conscientiousness), sự hướng ngoại (Extraversion), sự dễ chịu (Agreeableness) và sự nhạy cảm (Neuroticism). Trên cơ sở những số đo ấy có thể hiểu chính xác bạn là ai, bạn có mong muốn và nỗi sợ hãi nào, và cuối cùng là bạn sẽ hành xử như thế nào. Trở ngại chính là việc thu thập dữ liệu: Để hiểu được một người, cần phải điền bảng hỏi khổng lồ. Nhưng rồi xuất hiện Internet, rồi Facebook, rồi Kosinski.

Năm 2008, sinh viên Michal Kosinski từ Ba Lan bắt đầu cuộc sống mới ở trường Đại học Cambridge danh tiếng của nước Anh, Trung tâm Psychometrics, phòng thí nghiệm Cavendish - phòng thí nghiệm đầu tiên trên thế giới về môn này. Với cộng sự, anh đã sáng tạo và đưa app MyPersonality vào sử dụng trên Facebook. Người dùng được đề nghị điền một bảng hỏi lớn (kiểu: “khi bị stress, bạn có dễ mất kiểm soát? Bạn có xu hướng phê phán người khác?) để biết hồ sơ nhân cách của mình, còn các tác giả sẽ có được những dữ liệu cá nhân vô giá. Thay vì chỉ nhận được vài chục bộ dữ liệu của nhau, họ đã nhận được dữ liệu của hàng trăm, nghìn rồi triệu người dùng. Bằng cách đó, hai nghiên cứu sinh đã thu hoạch được vụ mùa dữ liệu lớn chưa từng có trong lịch sử nghiên cứu tâm lý.

Michal Kosinski. Ảnh: Youtube.

Quá trình mà Kosinski và các cộng sự phát triển trong mấy năm tương đối đơn giản. Thứ nhất, người dùng nhận được một bảng hỏi online. Từ câu trả lời, các nhà khoa học tính ra những phẩm chất của họ. Tiếp theo, Kosinski và nhóm nghiên cứu các hành động của họ: Like và re-post trên Facebook, và giới tính, độ tuổi và nơi ở. Qua đó nhóm thu được các liên kết. Từ kỹ thuật phân tích đơn giản các dữ liệu trên mạng có thể cho ra những kết luận bất ngờ. Ví dụ, nếu một người đàn ông là fan của page mỹ phẩm MAC, khả năng lớn là đồng tính. Ngược lại, anh ta rất nam tính nếu là fan của ban nhạc hiphop Wu-Tang Clan ở New York. Fan của Lady Gaga khả năng lớn là người hướng ngoại, còn kẻ hay like các post mang tính triết lý thì hướng nội.

Nhóm Kosinski liên tục hoàn thiện mô hình của mình. Năm 2012, Kosinski chứng minh rằng chỉ cần phân tích 68 like trên Facebook là đủ xác định màu da của người dùng (xác suất 95%), khả năng đồng tính (88%) và thiên hướng ủng hộ đảng Dân chủ hay Cộng hòa Mỹ (85%). Quá trình còn tiến xa hơn: Mức độ thông minh, thiên kiến tôn giáo, mức độ nghiện rượu, thuốc lá hay ma túy. Dữ liệu thậm chí cho phép xác định là cha mẹ đối tượng có ly dị trước khi người này trưởng thành hay không. Mô hình hiệu quả đến mức cho phép đoán được câu trả lời của đối tượng cho một số câu hỏi. Say sưa vì thành quả, Kosinski tiến tiếp: nhanh chóng, mô hình cho phép chỉ với việc phân tích 10 like đã hiểu nhân cách đối tượng tốt hơn đồng nghiệp của họ, sau 70 like - tốt hơn cả bạn thân, sau 150 - hơn cả bố mẹ, sau 300 - hơn cả bạn tình. Nếu nghiên cứu nhiều hành động hơn thì có thể biết về đối tượng hơn cả chính họ. Vào ngày Kosinski công bố bài báo về mô hình của mình, anh nhận được hai cuộc gọi: Khiếu nại và mời làm việc. Cả hai đều từ Facebook.

Chỉ dành cho bạn bè

Người dùng có thể chọn cho post của mình là public (mở - ai cũng có thể xem được) hay private (kín) trên Facebook, trường hợp sau thì chỉ có một số người nhất định có thể xem. Nhưng đó không là trở ngại cho nhóm thu thập dữ liệu. Kosinski luôn yêu cầu người dùng Facebook đồng ý cho sử dụng dữ liệu cá nhân nếu họ muốn tham gia các bài test.

Nhưng câu chuyện không chỉ dừng lại ở các like, Kosinski và nhóm có thể đánh giá đối tượng dựa trên Big Five thông qua hình ảnh đại diện và những ảnh họ đưa lên mạng xã hội. Hay có thể theo số lượng friend: Chỉ số tốt cho khả năng hướng ngoại! Nhưng ngay cả khi không ở trên mạng, chúng ta cũng lưu vết. Sensor chuyển động trong điện thoại cho thấy ta có vung tay khi dùng nó hay không, hay di chuyển xa cỡ nào (cái này liên quan đến mức độ ổn định của cảm xúc). Như Kosinski nhận xét, điện thoại là một bảng hỏi tâm lý học khổng lồ, mà chúng ta điền hàng ngày, vô tình hay hữu ý. Đặc biệt quan trọng, điều này có ích cho cả chiều ngược lại, không chỉ cho phép lập chân dung tâm lý của người dùng, mà còn cho phép tìm kiếm những người có chân dung cần thiết. Ví dụ, những ông bố lo lắng, những kẻ hướng nội giận dữ, hay những người ngả theo đảng Dân chủ nhưng còn lưỡng lự bỏ phiếu. Về bản chất, đó là hệ thống tìm kiếm con người.

Càng ngày Kosinski càng hiểu cả tiềm năng lẫn nguy cơ của công trình của mình.

Anh luôn coi Internet là món quà của Thượng đế. Luôn muốn “quay lại”, “chia sẻ”. Đấy là linh hồn của thế hệ mới, là khởi đầu của kỷ nguyên mới không biên giới vật lý. Nhưng điều gì sẽ xảy ra nếu có ai đó sử dụng hệ thống tìm kiếm này để chi phối con người? Anh bắt đầu đưa các lời cảnh báo vào tất cả các công trình do mình công bố. Cảnh báo rằng phương pháp của anh “có thể tạo ra nguy hiểm cho đời sống, tự do hay thậm chí tính mạng mọi người”. Nhưng dường như không ai hiểu hậu quả có thể là gì.

Cùng thời điểm, đầu năm 2014, một phó giáo sư trẻ có tên Alexander Kogan tìm đến Kosinski. Ông ấy đại diện cho một công ty quan tâm đến phương pháp của Kosinski. Đề án là sử dụng psychometrics để phân tích 10 triệu người dùng Mỹ trên Facebook. Khách hàng không tiết lộ mục đích, vì lý do bảo mật. Ban đầu Kosinski đồng ý, bởi dù sao việc đó cũng đem lại khoản tiền lớn cho viện của anh, nhưng rồi anh lại trì hoãn. Cuối cùng, anh cũng yêu cầu Kogan tiết lộ tên công ty: SCL - Strategic Communications Laboratories. Anh thử vào Google tìm hiểu - “chúng tôi là công ty toàn cầu chuyên về quản lý các chiến dịch tranh cử” - website của công ty ghi, và chào dịch vụ tiếp thị dựa trên tâm lý và logic. Những trò ảo thuật làm ảnh hưởng kết quả bầu cử. Kosinski lướt qua các trang của website, nghĩ mung lung về việc công ty này sẽ làm gì ở Mỹ.

Tuy nhiên, khi đó Kosinski chưa biết, đằng sau SCL là một hệ thống công ty phức tạp, liên quan đến thiên đường thuế: sau này được Hồ sơ Panama và Wikileaks tiết lộ. Một phần của hệ thống đó phải chịu trách nhiệm về khủng hoảng ở các nước đang phát triển, phần khác đã giúp NATO xây dựng phương pháp chi phối tâm lý người dân Afghanistan. Một trong những công ty con của SCL chính là Cambridge Analytica (CA), một công ty nhỏ nhưng nguy hiểm, đã tổ chức các chiến dịch trên Internet để ủng hộ Brexit và Trump.

>> Xem tiếp

Phan Phương Đạt (dịch từ bản tiếng Nga của The Insider)

Big Data hiểu bạn hơn cả người tình và bố mẹ

Ý kiến

Tin cùng chuyên mục