Những người F đi tìm dữ liệu Covid-19

Thứ năm, 11/11/2021 | 07:52 GMT+7

Trang web “Số liệu Covid-19 tại Việt Nam” của VnExpress trở thành nguồn thông tin đáng tin cậy cho độc giả, Văn phòng Chính phủ hay Trung tâm Kiểm soát Dịch bệnh (CDC) các tỉnh, thành. Để có được độ phủ sóng rộng rãi như hiện nay, những người tạo ra nó đã miệt mài ngày đêm làm việc với những con số và viết code.

Cuối tháng 4, dịch Covid-19 bùng phát và lan rộng. Bắt đầu một ngày của Trịnh Tuấn Nhi (22 tuổi, TP Thủ Đức) là lên báo tìm đọc các tin tức về tình hình dịch bệnh. Những con số cứng nhắc trong bản tin thông thường khiến Nhi gặp khó khăn khi theo dõi, so sánh với ngày hôm qua.

Nhớ về những ngày đầu tháng 5, khi đang đọc tin tức, vô tình thấy bản đồ theo dõi tình hình Covid-19 trên báo VnExpress, cô nhanh chóng nhấn vào xem và “thích ngay cái nhìn đầu tiên”.

“Số ca nhiễm của các tỉnh thành hiện rõ trên biểu đồ, tôi có thể biết tỉnh nào đang là đỉnh dịch, tỉnh nào còn an toàn… Vì thấy nó dễ theo dõi nên tôi cũng nhắn gia đình ở quê xem thông tin trên đấy”, Nhi kể lại.

6 tháng qua, chứng kiến những con số lên cao chót vót, biểu đồ ca nhiễm, tử vong lúc nào cũng là đường thẳng đi lên khiến cô lo lắng. Nhưng theo Nhi, nhờ đó mà bản thân luôn trong tâm thế chủ động để bảo vệ mình.

1-1362-1636538019.png

Những con số cụ thể và bản đồ vùng dịch dược độc giả đánh giá là dễ xem, dễ hiểu.

Nhớ ngày “cày” số liệu

Khi dịch bùng phát, Ban biên tập của báo VnExpress mong muốn dựng lên một hệ thống theo dõi diễn biến dịch Covid-19 để phục vụ cho độc giả. Nhận ra trên mạng chưa có bất kỳ trang nào được xây dựng để theo dõi số liệu. Điều này càng thúc đẩy nhà FPT Online bắt tay thực hiện ngay đề xuất trên.

Mục tiêu ban đầu là đưa số liệu lên hệ thống nhanh nhất có thể nên chỉ có số liệu về ca nhiễm bệnh. Bước vào đỉnh dịch, số liệu đổ về ngày một nhiều, từ ca nhiễm, ca tử vong, đang điều trị, hồi phục… khiến đội của anh Đặng Tiến Ngọc (Trưởng phòng Sản phẩm, FPT Online) phải tìm cách tổ chức lên hệ thống cho khoa học và trực quan nhất. 

Sáng kiến Dữ liệu Covid-19 tại Việt Nam của nhà Trực tuyến là sáng tạo tranh tài chung khảo số 8 diễn ra online sáng 2/11 thu hút đến 10 đội thi từ 6 công ty thành viên.

Bên cạnh đó, trong thời gian ngắn từ ngày 27/4 đến ngày 3/5, để tạo ra hệ thống hoàn chỉnh buộc thành viên trong đội phải làm việc liên tục. Đội triển khai số liệu ngày đêm “ôm đồm” cả trăm ngàn con số, anh em viết code dán mắt vào màn hình để tạo mã nguồn.

Số liệu sẽ bao gồm ở Việt Nam và thế giới, tập trung vào số ca nhiễm, tử vong, phục hồi… Ở Việt Nam, nguồn sẽ lấy từ thông tin của Bộ Y tế, Cổng thông tin tiêm chủng Covid-19. Và các trang quốc tế như WorldOMeters, Our World In Data sẽ dùng để thống kê cho các quốc gia trên thế giới.

Tuy nhiên, điều khiến nhóm trăn trở là khâu tổ chức dữ liệu sao cho chính xác, dễ hiểu: “Số liệu có rồi nhưng phải sắp xếp như thế nào, không thể nhập tay từng con số vào để tạo thành cơ sở dữ liệu”, anh Ngọc băn khoăn.

Thế là nhóm nảy ra sáng kiến sử dụng hệ thống Google Sheet để nhập số, đưa lệnh vào để bóc tách số liệu mà mình muốn trên từng trang (sheet). “Sau đó, anh em tìm hiểu thêm chức năng mà Google Sheet cung cấp như công thức tính toán số liệu cộng dồn, áp dụng tính ngay trên sheet hay cho phép viết code để lấy số liệu ra đã giúp quy trình bớt phức tạp hơn”, anh Vũ Đình Hiệp (lập trình viên, phòng Nội dung số, FPT Online) chia sẻ.

“Để cho ra kết quả cuối cùng đến người xem, nhóm sẽ tổ chức dữ liệu thô (số ca từng ngày theo tỉnh, thành) trong Google Sheet dưới dạng ma trận cột và hàng, dựa vào mục đích phát triển ra các nhóm dữ liệu liên quan như số ca cả nước, ca vùng, số ca khỏi bệnh…”, anh Ngọc chia sẻ.

Cụ thể, tùy vào nhu cầu mà số liệu sẽ được biến tấu ra từng dữ liệu nhỏ khác để chuyển đổi thành bảng biểu, biểu đồ, template… phản ánh diễn biến dịch lên hay xuống, thể hiện qua đường trung bình như các bản đồ hiển thị trên trang.

2-2122-1636538019.png

Mức độ lên xuống của dịch Covid-19 và quá trình điều trị thể hiện qua đường trung bình của biểu đồ.

“Triển khai lên trang đơn thuần là đẩy nguồn dữ liệu thu thập được, dựa trên công thức đã tính toán để trình bày thành dạng biểu đồ, phản ánh thông tin từng mục như ca nhiễm, nhiễm theo ngày…”, anh Hiệp nói thêm.

Những ngày “ngồi canh” phiên cập nhật

Với số liệu ở Việt Nam sẽ được cập nhật theo phiên cập nhật của Bộ Y tế. Nhớ lại trước kia, mỗi ngày Bộ Y tế có 3 phiên cập nhật (sáng, trưa, tối) thì nhóm cũng “ngồi canh” và cập nhật theo lên hệ thống. Sau giảm còn 2 lần và hiện tại, chỉ còn một lần nên anh em cũng giảm đi một phần việc.

“Các số liệu của thế giới sẽ được hệ thống cập nhật tự động 10 phút một lần theo lệnh mà nhóm đã cài sẵn. Nhưng với các con số ở Việt Nam, chúng tôi sẽ chủ động nhập tay khi Bộ Y tế công bố, có thêm công cụ hỗ trợ nhập để đảm bảo tính thời sự, 1-2 phút là có thông tin trên trang ngay thay vì cài tự động”, anh Hiệp nói.

Trước kia, anh em phải canh khung giờ nhưng hiện tại, chỉ nhập một lần sau 18h. Các số liệu của Bộ Y tế không quá nhiều nên việc nhập không quá khó. Tuy nhiên, để đảm bảo chính xác nhất khi đưa ra công chúng, mọi người sẽ kiểm tra lại dữ liệu bằng cách dùng thuật toán để xem tổng số ca nhiễm tỉnh thành có khớp số tổng số ca cả nước mà Bộ Y tế công bố hay không.

Thành viên của phòng Sản phẩm gồm anh Ngọc và Trần Huy Anh cùng phòng Nội dung số là anh Hiệp và Nguyễn Ngọc Toản đã triển khai và cải tiến liên tục, cập nhật thêm các mục như trang số liệu về vắc xin, tạo ra phiên bản tiếng Anh…

Áp lực và khó khăn là có nhưng các thành viên luôn thực hiện với tâm thế sẵn sàng “chiến” đến cùng. “Lúc đó rất cần một hệ thống số liệu chính xác và chính thống nên chúng tôi phải cố gắng để mau chóng cung cấp thông tin cho độc giả”, anh Hiệp chia sẻ.

covid-du-lieu-6156-1636598217.jpg

Bộ tứ xây trang web “Số liệu Covid-19 tại Việt Nam” của VnExpress.

Có lần do bất cẩn, nhóm anh Ngọc suýt bị mất dữ liệu nhưng may mắn đã sao lưu từ mã lập trình (code) nên không bị ảnh hưởng. Kể từ lần đó, để “hờ” trường hợp như lần trước, nhóm cứ sao lưu liên tục.

Google Sheet trở thành công cụ để nhóm giải quyết các vấn đề khó nhằn khi tổ chức và xây dựng dữ liệu. Sheet sai thì tổ chức dữ liệu qua sheet mới, trình bày thử các biểu đồ xem có sai sót hay điều chỉnh gì trước khi đưa lên trang chính thức…

Ngoài ra, nhóm còn áp dụng giải pháp “Auto Generate” cho phép tự điền số vào chỗ trống, tạo ra câu mẫu, số liệu được tự động đưa vào vị trí phù hợp trong câu…

auto-4996-1636538019.png

Auto Generate tự động điền số giúp tăng độ chính xác .

Hiện nay, Văn phòng Chính phủ cũng sử dụng nguồn dữ liệu này để cung cấp cho Thủ tướng. Từ khi ra mắt đến nay, sản phẩm đã phát huy tác dụng tối đa khi hút hơn 40 triệu lượt xem, hơn 15.000 lượt bình luận với gần 7 triệu người dùng. Hiện tại, có hơn 500 bài viết sử dụng dữ liệu (dạng biểu đồ) từ nguồn dữ liệu này.

Thanh Dung

Ý kiến

()