Chuyên gia công nghệ FPT: ‘Big Data là một tài nguyên khổng lồ’

"Big Data giống như một nguồn nước, nếu biết khai thác đúng cách sẽ trở thành nguồn tài nguyên quý giá. Ngược lại, nếu chỉ biết giữ khư khư, không chia sẻ, khai thác hợp lý, nguồn nước đó sẽ biến thành bùn", anh Nguyễn Việt Cường, chuyên gia công nghệ FPT, nhận định.

Vừa qua, Tech In Focus 2 với chủ đề “Hiện trạng Big Data và một số lưu ý khi xây dựng Data lake” đã diễn ra tại TP Hà Nội và TP HCM (qua hệ thống telepresence) thu hút đông đảo người tham dự cả trong và ngoài FPT.

Tại Hà Nội, chương trình Tech In Focus 2 thu hút được nhiều bạn trẻ đam mê công nghệ trong và ngoài FPT tới dự.

Anh Nguyễn Việt Cường, chuyên gia công nghệ FPT, người có nhiều năm nghiên cứu và phát triển các dự án lớn của tập đoàn đã có những chia sẻ thú vị về khái niệm cơ bản, hiện trạng của các dự án Big Data, và những khuyến cáo khi làm Data Lake.

Theo anh, Big Data là một khái niệm, không phải một công nghệ. Thực tế, các nhà phát triển sẽ ứng dụng công nghệ như AI, Machine Learning… để quản lý và khai thác lượng dữ liệu khổng lồ. Anh định nghĩa Big Data bằng khái niệm cơ bản nhất, với 4 với đặc trưng - Volume (độ lớn), Velocity (tốc độ), Variety (đa dạng), Veracity (tính xác thực).

Chuyên gia công nghệ FPT nhận định, Big Data là một nguồn tài nguyên khổng lồ, nhưng để sử dụng nó trong các dự án thực tế lại là vấn đề lớn đối với các nhà phát triển. "Dữ liệu có mặt ở khắp mọi nơi giống như nguồn nước, nếu biết khai thác đúng cách, đây sẽ trở thành nguồn tài nguyên quý giá cho đơn vị sở hữu. Ngược lại, nếu chỉ biết giữ khư khư, không chia sẻ, khai thác không hợp lý, điều đáng tiếc nhất có thể xảy ra là nguồn nước của bạn sẽ biến thành bùn", anh Cường nói.

Là người có nhiều năm kinh nghiệm về công nghệ, anh Nguyễn Việt Cường đã giải đáp thắc mắc xung quanh khái niệm, hiện trạng Big Data trong nước và trên thế giới hiện nay.

Công nghệ Hadoop ra đời, cung cấp framework mã nguồn mở, cho phép xử lý phân tán các tập dữ liệu lớn trên các cụm máy tính thông qua mô hình lập trình đơn giản. Hadoop được thiết kế để mở rộng quy mô từ một máy chủ đơn sang hàng nghìn máy tính khác có tính toán và lưu trữ cục bộ.

Hadoop gồm Hadoop Common (các tiện ích phổ biến hỗ trợ các phần Hadoop khác); Hadoop Distributed File System (cung cấp khả năng truy cập dữ liệu ứng dụng cao); Hadoop YARN (Framework cho kế hoạch làm việc và quản lý tài nguyên); Hadoop MapReduce (Hệ thống dựa trên YARN để xử lý song song bộ dữ liệu lớn)

Năm 2015, Gartner dự đoán đến năm 2017, 60% các dự án Big Data sẽ thất bại. Thực tế, báo cáo của Gartner năm 2017 chỉ ra, chỉ có 17% dự án sử dụng Hadoop thành công. Theo đó, ba nguyên nhân cơ bản được xác định: sự phản đối của cấp quản lý (management resistance), hỏi sai câu hỏi và thiếu kỹ năng (asking the wrong questions and lacking right skill), hầm dữ liệu (data silos).

Big Data là nguồn tài nguyên lớn nhưng nếu không biết khai thác và sử dụng, nó sẽ biến thành "bùn".

Sau khi phân tích khái niệm và hiện trạng Big Data, anh Cường tập trung làm rõ khái niệm Data Lake - là hồ dữ liệu, nơi lưu trữ dữ liệu chưa qua xử lý (raw data), người dùng có thể trích xuất những dữ liệu cần thiết khi cần. Chính vì bản chất của Data Lake là nơi tập trung dữ liệu thô, nên việc quản trị dữ liệu (data governance) vô cùng cần thiết.

Data governance bao gồm: Data discovery and curation (hiểu được những dữ liệu bên trong, nặc danh hóa những dữ liệu nhạy cảm); Data management (sắp xếp, quản lý dữ liệu); Data security and privacy (bảo vệ dữ liệu, đảm bảo người dùng có thể truy cập được vào Data Lake của mình).

Một số vendors cho Data Lake hiện có mặt trên thị trường có thể kể đến như: Hortonworks, Cloudera, AWS, Zaloni…

Thúy Ngân

Ảnh: Đức Anh