Skip to main content

Vì sao dữ liệu cũng cần hạ tầng?

· 4 min read

Những năm gần đây, bọn mình nghe được nhiều doanh nghiệp ở Việt Nam muốn xây dựng văn hóa “Data-Driven” cho doanh nghiệp của họ. Hiểu đơn giản, đây là quá trình đưa ra quyết định kinh doanh thông qua số liệu, thay vì dựa trên cảm tính và quan sát chủ quan.

Ví dụ, doanh số của một chuỗi nhà hàng đột nhiên sụt giảm khi bước vào mùa mưa. Khác với nhận định chủ quan vội vàng cho rằng nguyên nhân là do thời tiết, thì với văn hóa data-driven, bạn sẽ so sánh lượng khách vào ngày mưa với ngày nắng để thấy rõ khác biệt có đáng kể (significant) hay không, cũng như tính toán tác động của các yếu tố khác như đối thủ cạnh tranh, khuyến mãi, nguồn cung ứng v.v để hiểu được root-cause của sự sụt giảm.

Vấn đề

Nghe là khoái liền đó, nhưng để triển khai data-driven thì không hề dễ nha. Một trong những bước tiên quyết mà mình thấy các doanh nghiệp thường bỏ qua là xây dựng Hạ Tầng Dữ Liệu (Data Platform hay Data Infrastructure). Một quốc gia có cơ sở hạ tầng điện tầng, điện nước đầy đủ thì kinh tế phát triển ngon lành. Dữ liệu cũng vậy, nó cũng cần hạ tầng, nếu không có thì doanh nghiệp sẽ tiêu tốn nhiều thời gian, nguồn lực con người vào việc:

  • Trích xuất dữ liệu: Tải thủ công dữ liệu từ nhiều nguồn khác nhau, ví dụ: chi phí quảng cáo từ Facebook, đơn hàng từ phần mềm bán hàng, sàn thương mại điện tử …
  • Tổng hợp dữ liệu: Copy/Paste thủ công dữ liệu từ các file tải về vào cùng 1 file, để có được một phân tích tổng quan.
  • Tính toán dữ liệu: Tốc độ tính toán chậm khi dung lượng file Excel chạm đến một ngưỡng nhất định.

Tưởng tượng bạn mất trung bình 2-3h/ngày (hơn 25% thời lượng làm việc tiêu chuẩn 8h/ngày) cho các tay chân trên, thì quy ra bạn mất 60-90h/tháng. Với từng đó thời gian, bạn có thể dành cho các công việc khác có giá trị hơn cho doanh nghiệp. Giá trị cộng thêm của data-driven thì chưa thấy đâu, mà chỉ thấy bao việc khổ thêm 😞.

Giải pháp

Một Data Platform xịn sò sẽ giúp bạn giải quyết tất cả khó khăn trên. Tùy vào tình hình ở từng doanh nghiệp sẽ có cách tiếp cận phù hợp, nhưng thường thì có 2 hướng:

  1. Xây dựng đội ngũ Data Engineers (DE), aka Kỹ Sư Dữ Liệu: các bạn sẽ phụ trách xây dựng các đường dẫn dữ liệu (Data Pipeline) để tự động trích xuất, tổng hợp dữ liệu từ nhiều nguồn vào cùng 1 nơi, thường là nhà kho dữ liệu, aka Data Warehouse (DWH). Các bạn cũng sẽ thiết kế DWH để công đoạn tính toán tối ưu nhất về mặt tốc độ và chi phí hạ tầng.
  2. Sử dụng các công cụ no-code: thị trường hiện nay có nhiều công cụ trích xuất dữ liệu tự động mà không cần bạn phải có kiến thức về lập trình, coding như Elton Data, Supermetrics, Fivetrans,…

Bảng so sánh dưới đây sẽ so sánh ưu và nhược điểm của mỗi cách tiếp cận:

Data EngineersCông cụ
Chi Phí (Cost)Khá cao cho doanh nghiệp SME, không dưới $1000/tháng/DE cứng.Trả cố định dạng subscription (vd: Elton Data) hoặc dao động theo mức độ sử dụng (volume-based). Phù hợp hơn cho doanh nghiệp SME khi dữ liệu còn nhỏ. Tuy nhiên, nếu là volume-based, hãy cẩn thận với chi phí tăng vọt khi dữ liệu bạn “phình” to nhé!
Tiện Lợi (Convenience)Khi yêu cầu quá nhiều, có thể bị nút cổ chai (bottleneck) ở công đoạn chờ đợi các bạn DE xử lý.Một bạn dân business như marketing có thể chủ động tạo được các Data Pipeline bằng một vài thao tác đơn giản mà không cần phải chờ đợi đội DE xử lý.
Liên Tục (Continuity)Khi các bạn DE nghỉ việc, các Data Pipeline vẫn còn đó, dữ liệu của bạn vẫn “chạy”.Vendor lock-in: Với hầu hết các công cụ, khi bạn dừng subscribe, các pipeline sẽ tắt, và dữ liệu của bạn cũng sẽ dừng “chạy” theo.
Quản Lý (Governance)Do các pipeline đều được xây dựng bởi đội DE, nên nó sẽ được tổ chức hệ thống hơn, ít sự chồng chéo nhau.Do tính tiện lợi ai cũng có thể tự làm, nên các pipeline rất dễ bị chống chéo nhau, cùng 1 nhiệm vụ nhưng lại có nhiều pipeline được tạo ra.
Tùy Biến (Customization)Là “của nhà trồng”, nên bạn có thể yêu cầu các bạn DE xây dựng các pipeline với tính năng phù hợp theo nhu cầu riêng của mình.Khi cần 1 pipeline mới hoặc tùy biến cao theo nhu cầu, bạn có thể phải chờ một thời gian dài để nhà phát triển xây dựng.

Tóm lại và tiếp theo

  • Muốn xây dựng Data-Driven bền vững cho doanh nghiệp, việc xây dựng Hạ Tầng Dữ Liệu (Data Platform) tốt là tiên quyết.
  • Tùy theo tình hình của doanh nghiệp, có thể chọn cách xây dựng đội ngũ Data Engineers hoặc dùng công cụ có sẵn.
  • Ngoài Hạ Tầng Dữ Liệu, một trụ cột khác cũng quan trọng không kém đề xây dựng data-driven đó chính là Năng Lực Phân Tích (Analytics Talent), mình sẽ chia sẽ thêm ở bài tiếp theo. Cùng hóng tiếp nhé 😁.