Chúng ta

‘Cởi trói’ cho nghiên cứu dữ liệu

Thứ sáu, 12/6/2015 | 16:01 GMT+7

Liệu Data Scientist - nghiên cứu dữ liệu - có phải là công việc tuyệt vời như người ta hay nói về nó?

Mới đây, Mike Driscoll, CEO của Metamarkets, công ty chuyên cung cấp nền tảng phân tích dữ liệu theo thời gian thực, đã chia sẻ xoay quanh câu chuyện thực tế công việc của nhà khoa học dữ liệu. Nhưng quan trọng hơn là cách giảm tải cho họ khỏi những công việc vụn vặt, nhằm phát huy tối đa khả năng hiểu sâu sắc dữ liệu (Data Insight).

Mike bắt đầu câu chuyện bằng việc quay lại thời “chân ướt chân ráo” bước vào lĩnh vực truyền thông số. Đó là thời điểm 2008, khi Mike 31 tuổi, là một tiến sĩ trẻ “mới ra lò” và bắt đầu với vai trò nhân viên tư vấn các giải pháp phân tích dữ liệu sử dụng cho một nền tảng Ad Server (hệ thống máy chủ) di động, công việc đầu tiên trong ngành của Mike.

Lúc đó, Mike phải học lại những kiến thức thống kê đã “trùm mền” từ lâu. Sau đó hạ quyết tâm xử lý dữ liệu lưu trữ trong khoảng thời gian sáu tháng trước đó. Cặm cụi với các dòng lệnh Unix (Unix commands), xử lý các tập tin dữ liệu rải rác khắp các thư mục, đặt lại tên cho nhất quán và đồng nhất kiểu định dạng dữ liệu.

MichaelDriscoll-LiPZWSc896x504-7772-9758

Mike Driscoll - CEO của Metamarkets.

“Người ta thuê tôi với mục đích xử lý các thuật toán phân tích cao cấp. Nhưng công việc thực tế không phải như thế. Khắc phục lỗi hệ thống Ad Server đôi lúc chỉ cần hàm count, average hay “làm đẹp” biểu đồ nhạt nhẽo”, Mike tả lại công việc trước đó của mình.

Rõ ràng, sự thật không mấy vui vẻ khi nói như vậy về công việc của nhà khoa học dữ liệu. Họ phải làm những công việc đơn thuần về xử lý dữ liệu thay vì tiến hành các hoạt động nghiên cứu, học hỏi chuyên sâu từ dữ liệu.

Vì sao người ta lại lãng phí tấm bằng tiến sĩ của Mike như vậy? Trong khi năng lực của nhà khoa học dữ liệu là xây dựng những mô hình dự báo mà lại được giao xử lý dữ liệu thuần túy?

Nguyên nhân chủ yếu đến từ việc các tổ chức Marketing đã đánh giá thấp công đoạn “làm sạch” dữ liệu, cũng như thiếu hụt các công cụ báo cáo cho người làm kinh doanh. Với biệt danh “nhà khoa học dữ liệu”, khi có bất kỳ vấn đề gì phát sinh liên quan tới dữ liệu, họ trở thành cái tên đầu tiên được nhắc đến để xử lý. “Giám đốc Thông tin (CIO) của một công ty quảng cáo gần đây đã nói với tôi rằng công ty của anh ấy đã phải tiêu tốn hơn 50% thời gian chỉ để thu thập và làm sạch dữ liệu”, Mike bình luận thêm.

Cơ bản nhất, doanh nghiệp nên thuê một nhóm phát triển phần mềm có kinh nghiệm để hợp tác với Data Scientist như những kỹ sư dữ liệu (Data Engineer). Họ có nhiệm vụ xây dựng các quy trình, chuẩn hóa, làm sạch xử lý dữ liệu, đảm bảo tương thích khi chuyển tải dữ liệu giữa các hệ thống nội bộ và bên ngoài.

Mấu chốt vấn đề là các Data Engineer sẽ giúp tổ chức xây dựng cơ sở hạ tầng phục vụ điều hành hoạt động kinh doanh hiệu quả. Bên cạnh đó, họ cũng quyết định khả năng mở rộng của dữ liệu thế nào, lưu trữ nội bộ hay trên Cloud, đầu công việc nào tự làm, đầu nào thuê bên ngoài sẽ hiệu quả hơn.

blog-2015-05-DataScientist-6419-14340960

Tổ chức muốn thành công, hãy cởi trói cho người nghiên cứu dữ liệu.

Cách làm này sẽ giảm tải công việc các nhà khoa học dữ liệu. Họ chỉ tập trung và tận dụng nhóm kỹ năng đặc biệt cho xử lý phân tích phức tạp, phù hợp với chuyên môn.

Cách đây 7 năm, lúc Mike bắt đầu vào nghề, khu Madison Avenue của New York với biệt danh “kinh đô quảng cáo” toàn cầu đã ít quan tâm về khoa học dữ liệu. Nhưng giờ đây, nhu cầu làm chủ dữ liệu không còn “nhỏ giọt” mà biến thành “cơn đại hồng thủy”. Cũng chính là lúc doanh nghiệp ở đây kỳ vọng giá trị mang lại từ ngành khoa học mới này ngày càng lớn hơn bao giờ hết. “Miền đất hứa” dữ liệu đã hình thành và đang cần được khai phá.

Doanh nghiệp nên “cởi trói” nhà khoa học dữ liệu khỏi các công việc lặt vặt hằng ngày như họ vẫn đang làm. Đầu tư tiếp tục vào con người và phần mềm bổ sung sẽ giúp các khoa học gia dữ liệu mang lại thịnh vượng cho tổ chức ở tương lai gần.

ANTS (theo Adage)

Ý kiến

()