Chúng ta

Bài học về Big Data từ thung lũng Silicon

Thứ ba, 11/6/2013 | 08:21 GMT+7

Các công ty lớn có xu hướng sử dụng dữ liệu lớn để hỗ trợ các quyết định trong nội bộ, nhưng sự đổi mới, sáng tạo mới chính là cách tận dụng tốt nhất và cao nhất nguồn tài nguyên này.
> Big Data làm tăng chất lượng người lao động

Theo The Wall Street Journal, rất nhiều hoạt động sớm nhất liên quan đến Big Data xuất phát từ các công ty tại thung lũng Silicon với các sản phẩm và dịch vụ trực tuyến, từ Google, eBay, Yahoo, Facebook, LinkedIn, và nhiều công ty khác đang hoạt động trong lĩnh vực này. Chúng ta nợ các tổ chức này một khoản đáng kể vì họ đã củng cố vai trò của ngành khoa học dữ liệu cùng những chuyên ngành liên quan đến Big Data.

d

Theo The Wall Street Journal, rất nhiều hoạt động sớm nhất liên quan đến Big Data xuất phát từ các công ty tại thung lũng Silicon. Ảnh: Internet.

Dữ liệu lớn là sự đổi mới của những sản phẩm/dịch vụ. Một trong những lợi ích tiềm năng của Big Data là phát triển những sản phẩm hoặc dịch vụ mới dành cho khách hàng. Nhưng bạn chỉ có thể thực sự nhìn thấy những sự đổi mới phần nhiều trong môi trường trực tuyến và Google có thể được xem là bậc thầy trong lĩnh vực này, ngay cả xe tự lái cũng được công bố như thành tựu của Big Data.

LinkedIn đã tạo ra rất nhiều sản phẩm và dịch vụ mới với dữ liệu lớn như: Những người bạn có thể quen, Công việc bạn quan tâm, Nhóm bạn muốn tham gia. Các công ty lớn có xu hướng sử dụng dữ liệu lớn để hỗ trợ các quyết định trong nội bộ, nhưng sự đổi mới, sáng tạo mới chính là cách tận dụng tốt nhất và cao nhất nguồn tài nguyên này.

Làm việc với các công cụ, chứ không phải với các ứng dụng

Các công ty dữ liệu lớn đầu tiên không chỉ phát triển những ứng dụng, sản phẩm và các tính năng phân tích mà còn cả những công cụ. Các công cụ này dùng để phân chia những cơ sở dữ liệu cực lớn trên nhiều máy chủ ảo. Google đã phát triển bộ khung MapReduce, Hadoop được phát triển bởi Yahoo, ngôn ngữ Pig được phát triển tại Yahoo vào năm 2006, và các định hướng lưu trữ dữ liệu ngôn ngữ Hive được phát triển tại Facebook.

Vậy liệu các công ty này vẫn phải tiếp tục phát triển các công cụ? Đúng thế, nhưng họ sẽ không còn dừng lại ở cấp cơ sở hạ tầng cơ bản, đặc biệt trong bối cảnh có nhiều nhà cung cấp khác cũng đang bước vào lĩnh vực này. Tuy nhiên, nhu cầu về công cụ để xử lý các loại dữ liệu cụ thể mang phong cách riêng vẫn rất cao.

Trao vị trí hàng đầu cho các nhà khoa học dữ liệu

Các công ty dữ liệu lớn có xu hướng đặt lên vai các nhà khoa học dữ liệu rất nhiều trách nhiệm. Trong một số trường hợp, các giám đốc điều hành cũng chính là chuyên gia dữ liệu. Trong những trường hợp khác, họ phải chịu trách nhiệm đưa sản phẩm và dịch vụ mới ra thị trường.

Thậm chí, trong một số công ty trực tuyến lớn, họ có một kênh liên lạc trực tiếp với các quản lý cấp cao. Chẳng hạn, tại LinkedIn, người đồng sáng lập Reid Hoffman nói với các nhà khoa học dữ liệu của mình rằng, nếu những ý tưởng của họ không được các tổ chức phát triển sản phẩm thông qua, họ có thể nói chuyện trực tiếp với ông.

d

Tại LinkedIn, người đồng sáng lập Reid Hoffman nói với các nhà khoa học dữ liệu của mình rằng, nếu những ý tưởng của họ không được các tổ chức phát triển sản phẩm thông qua, họ có thể nói chuyện trực tiếp với ông. Ảnh: B.I.

Giải quyết năng suất công việc dữ liệu lớn

Các công ty tốt nhất ở thung lũng Silicon đã phát hiện ra rằng năng suất của con người là trở ngại lớn nhất đối với tiến bộ dữ liệu lớn. Vì vậy, họ đang tiến hành các bước để giải quyết vấn đề này. eBay là một trong những người đầu tiên khi tạo ra một loạt công cụ và phương pháp tiếp cận để tăng tốc độ làm việc của dữ liệu. Họ đã xây dựng siêu thị dữ liệu ảo để dễ dàng tạo ra môi trường dữ liệu cho việc phân tích. Một "Trung tâm dữ liệu" đã được tạo ra để các nhà khoa học và chuyên gia có thể chia sẻ dữ liệu, thuật toán và sự hiểu biết của mình.

LinkedIn cũng đang làm việc trên năng suất khoa học dữ liệu, tạo ra một môi trường cho phép tự động thử nghiệm A/B (thử nghiệm để so sánh độ hiệu quả của hai phiên bản sản phẩm sáng tạo) của các trang web.

Đóng góp vào tài sản chung

Rất nhiều sản phẩm mà chúng ta sử dụng cho khoa học dữ liệu như Hadoop, Pig, Hive, Python là mã nguồn mở và đã đóng góp rất lớn vào tài sản chung mà công ty đã tạo ra chúng. Những công cụ có sẵn dành cho cộng đồng dữ liệu lớn luôn có những đặc tính mạnh mẽ. David Henke, Phó Chủ tịch điều hành tại LinkedIn, nói: “LinkedIn đã góp phần vào việc phân phối hệ thống lưu trữ Voldemort và hơn 10 dự án mã nguồn mở khác. Họ đóng góp, chúng tôi góp phần và những mã này đã tiến xa”.

Nhanh nhẹn là quá chậm!

“Chúng tôi đã cố gắng nhanh nhẹn, nhưng vẫn là quá chậm! Và một trong những lý do vì sao các lĩnh vực liên quan đến dữ liệu lớn đạt được sự tiến bộ nhanh chóng như vậy là do sự nóng vội của những người hành nghề”, Giám đốc điều hành của Kyruus, một công ty dữ liệu lớn trong lĩnh vực chăm sóc sức khỏe, có trụ sở tại Boston, thung lũng Silicon, nhận xét và giới thiệu phiên bản mới về dữ liệu của Kyruus.

Còn rất nhiều bài học khác, nhưng hầu hết trong số đó đều đến từ thung lũng Silicon, không chỉ về Big Data, mà còn bao gồm việc sử dụng các đám mây và phần mềm mã nguồn mở, bồi dưỡng, phối hợp chặt chẽ cũng như tiến hành rất nhiều thí nghiệm nghiêm ngặt.

Thật tuyệt vời khi thung lũng Silicon và các trung tâm dữ liệu lớn khác đã khơi nguồn cho sự đổi mới của dữ liệu lớn. Chúng ta hãy hy vọng rằng tất cả bài học này đều sẽ được áp dụng vào các doanh nghiệp lớn và truyền thống.

Lan Chi

Ý kiến

()