Chúng ta

'Hiểu bài toán là quan trọng nhất trong phân tích dữ liệu'

Thứ năm, 28/11/2019 | 16:00 GMT+7

Chủ nhân giải iKhiến năm 2018, FPT Under 35 Võ Thị Hồng Phương (FPT Telecom) đã chia sẻ với các lập trình viên nhà Phần mềm kinh nghiệm ứng dụng AI trong một bài toán thực tế ngành Viễn thông.

Chiều ngày 27/11, chị Võ Thị Hồng Phương - Data Scientist (nhà khoa học dữ liệu), Trưởng nhóm phân tích dữ liệu FPT Telecom, đã có mặt tại F-Town 1 và chia sẻ tại diễn đàn công nghệ Solution Forum - FPT Software HCM. 

Với chủ đề “Customer Churn Prediction in Telco industry” (Phân tích dữ liệu để giải quyết bài toán dự đoán khách hàng rời mạng), chị Phương cung cấp một cái nhìn thực tế về ứng dụng AI, machine learning trong việc giải quyết một bài toán cụ thể phục vụ kinh doanh. Đây cũng là giải pháp đoạt giải vàng iKhiến 2018 - cuộc thi sáng tạo của tập đoàn.

Quá trình từ lúc xây dựng mô hình đến triển khai hệ thống, kiến trúc giải pháp, những thử thách mà chị và cộng sự đã gặp phải được chị Phương chia sẻ tường tận. Trong đó, có nhiều thông tin xoay quanh kỹ thuật phân tích dữ liệu, từ quá trình thu thập, khám phá, và mô hình hóa trên số lượng lớn dữ liệu để tìm kiếm thông tin, giá trị ẩn chứa trong các mẫu dữ liệu phục vụ cho hoạt động kinh doanh nhà Viễn thông.

fsohcm-csr-5-9103-1574920342.jpg

Chị Võ Thị Hồng Phương, Trưởng nhóm phân tích dữ liệu FPT Telecom, chia sẻ tại Solution Forum - FPT Software HCM.

Nhà Viễn thông FPT cung cấp nhiều dịch vụ, trong đó dịch vụ chính là Internet và Truyền hình FPT. Hiện tỷ lệ rời mạng của nhà "Cáo" chiếm 1%. Liệu tỷ lệ thấp này có đáng để dùng dữ liệu phân tích?

Theo chị Phương, việc chú trọng đến tập khách hàng (có khả năng) rời mạng được Ban lãnh đạo FPT Telecom quan tâm vì nhiều lý do. Bởi giữ chân khách hàng sẽ giúp tăng uy tín thương hiệu, tăng doanh thu. Do lợi nhuận chỉ bắt đầu có sau 12-18 tháng. Cạnh đó, chi phí đầu tư mỗi khách hàng mới nhiều gấp 5-10 lần khách hàng cũ. Việc bán cho khách hàng mới cũng sẽ bị ảnh hưởng bởi việc khách cũ rời mạng. Nhận thức được những điều đó, FPT Telecom luôn cố gắng níu kéo từng khách hàng một, tìm biện pháp để kịp thời giữ chân khách hàng có nguy cơ rời mạng.

Đề bài chỉ có một câu hỏi: "Ai là khách hàng có thể rời mạng?", ngoài ra không có thêm thông số đi kèm hay gợi ý nào. Nhóm phân tích dữ liệu phải trải qua nhiều bước khác nhau như cắt nghĩa vấn đề (define problem), tập hợp dữ liệu, làm sạch - chuẩn hóa dữ liệu, huấn luyện mô hình, kiểm thử, hoàn thiện và triển khai vào hệ thống.

"Define problem là cực kỳ quan trọng", chị Phương nhấn mạnh. Đây chính là tiền đề của cả quá trình về sau. Sau đó, cần chú ý các khâu lấy thông tin, tập hợp thông tin (chẳng hạn như số liệu các chi nhánh, các thông số liên quan chính sách bán hàng, thông tin khách hàng và hành vi sử dụng dịch vụ, độ hài lòng…).

Phần lớn thời gian công sức ở bước preprocessing (tiền xử lý) dữ liệu, xoay sở sao cho dữ liệu được sắp xếp logic nhất, đẹp nhất. "Không tin ai hết" là điều đội ngũ luôn tâm niệm bởi vì chỉ cần một ngày máy không lưu dữ liệu hay người nhập liệu vô tình gõ sai thì dữ liệu vẫn sai. Nhiều tình huống tưởng chừng như không thể vẫn có thể xảy ra. Bởi thế, luôn luôn chú ý làm sạch và chuẩn hóa dữ liệu và đây là một trong những mục tiêu hàng đầu của nhóm trong suốt 3-4 năm qua.

fsohcm-csr-7053-1574920342.jpg

Chương trình thu hút hơn 20 CBNV FPT Software, trong đó một số người thú nhận "bỏ họp" để đến tham gia vì chủ đề hấp dẫn.

Khâu chuyển đổi dữ liệu (transforming data) lại là một quá trình mất thời gian không kém. Từ dữ liệu thu thập được, nhóm cần tìm ra những dữ liệu có ý nghĩa cho việc phân tích, dự đoán, từ đó chọn feature (đặc tính) sáng cho model (mô hình) học. Trước tiên, nhóm phải nghĩ ra khá nhiều yếu tố, giả định tác động để tách 2 nhóm khách hàng (có khả năng rời mạng hoặc không) như tần suất liên lạc đội kỹ thuật, đặc điểm hợp đồng, độ tuổi người ký, hạ tầng xung quanh, thời hạn hợp đồng… Sau đó, theo dõi và phân tích xem đâu là những logic thật sự, cho model học điểm rời mạng và kiểm thử.

"Suy nghĩ chủ quan chưa chắc đúng" và "cần cố gắng suy nghĩ nhiều khía cạnh nhất" là lời khuyên mà diễn giả nhà Viễn thông đúc kết qua những kinh nghiệm thực tế của mình. Chạy một thuật toán mất rất nhiều thời gian và theo chị, cần khéo léo tính toán để không phải thử quá nhiều lần, từ đó rút ngắn thời gian xây dựng model. Chính vì thế, nếu cùng bài toán tương tự nhưng nếu ở công ty khác, trường hợp kinh doanh khác, đội ngũ vẫn phải tìm hiểu lại việc kinh doanh, chính sách, cách phân bố dữ liệu… 

Sau khi xây dựng, kiểm thử và cho chạy mô hình, nhóm phân tích dữ liệu FPT Telecom cũng gặp khá nhiều khó khăn khi triển khai trên thực tế. Làm sao thuyết phục các đơn vị tin vào hệ thống của mình, thuyết phục họ thay đổi từ phương pháp cũ truyền thống sang phương pháp mới là điều không đơn giản. "Tại sao biết những khách hàng này sẽ rời mạng? Điều kiện, dấu hiệu là gì?"; "Tôi không tin"... là những phản hồi chị Phương thường xuyên nhận được khi giới thiệu cho các đơn vị hệ thống xây dựng nên. 

Biết rằng để những người khác đọc và hiểu mô hình của mình là điều khó, chị Phương phải thuyết phục bằng chính hiệu quả chạy thử của hệ thống được đo đếm kỹ qua thời gian dài để chứng minh mô hình của mình không phải không có cơ sở. Hiện tỷ lệ bắt đúng khách hàng rời mạng Internet FPT lên đến 43,1% trong 215.760 khách hàng được chăm sóc, trong khi với rời mạng Truyền hình FPT là 32,5% trong tổng số 64.758 khách hàng được chăm sóc.

Tổng kết lại, chị Phương nhấn mạnh dữ liệu thực tế rất phức tạp và nhiễu, càng nhiều người tạo nên, dữ liệu càng nhiễu. Yêu cầu của bài toán phân tích dữ liệu cũng rất cao. Việc giải quyết một bài toán thực tế rất vất vả và mất thời gian, đòi hỏi từng chút kiên nhẫn.

fsohcm-csr-7-9155-1574920342.jpg

Chị Quách Thanh Phương, đại diện Ban tổ chức, trao quà lưu niệm cảm ơn diễn giả Võ Thị Hồng Phương và các cộng sự.

"Buổi chia sẻ rất bổ ích, tôi học được nhiều kiến thức. Những bài học và kinh nghiệm chị Phương chia sẻ rất thú vị. Chủ đề hôm nay thiết thực không chỉ cho ngành Viễn thông mà tôi cũng có thể ứng dụng được trong công việc của mình", anh Lê Ngọc Hải (SM) bày tỏ.

"Khi nhận lời mời tham dự Solution Forum của FPT Software, tôi khá lo lắng không biết khán giả kỳ vọng gì, bởi tự nhận thấy những phần mình làm rất đơn giản, không có gì cao siêu phức tạp về công nghệ. Tôi đã cố gắng chia sẻ những kinh nghiệm thực tế ứng dụng trong kinh doanh", FPT Under 35 Võ Thị Hồng Phương trải lòng. 

Solution Forum do STU (Ban Công nghệ Giải pháp) phối hợp với CTC (Trung tâm Đào tạo) của FPT Software tổ chức mỗi 2 tháng, với các chủ đề về công nghệ. Theo chị Quách Thanh Phương, đại diện Ban tổ chức, từ khi ra đời và trải qua 60 số, chương trình đã có một cộng đồng lớn trải dài cả ba miền. Trước đó, Solution Forum 60 mang chủ đề "Healthcare: Revolutionized by AI" ("Cách mạng hóa y tế bằng trí tuệ nhân tạo").

Là Trưởng nhóm phân tích dữ liệu đầu tiên của FPT Telecom, nay chị Võ Thị Hồng Phương đã phát triển đội ngũ 30 chuyên gia cùng xây dựng hệ thống lưu trữ tính toán trên dữ liệu lớn, giải quyết các bài toán phân tích dữ liệu nhằm tối ưu và cải thiện các hoạt động kinh doanh, vận hành hệ thống, chăm sóc khách hàng FPT Telecom.

Phối hợp cùng đơn vị chăm sóc khách hàng FPT Telecom, Data Scientist (nhà khoa học dữ liệu) của FPT Telecom đã xây dựng các chương trình giúp 12.000 khách hàng đang gặp vấn đề được chăm sóc chủ động hằng tháng, góp phần giảm thiểu lượng khách hàng rời mạng. Với chương trình cảnh báo khách hàng rời mạng cùng những đóng góp hiệu quả, chị được vinh danh tại các chương trình lớn của FPT như Quán quân iKhiến 2018FPT Under 35 năm 2019.

>> Ứng dụng AI giúp bác sĩ chẩn đoán chính xác hơn

Hà An

Ý kiến

()