Google Sheets / Lark Base vs Data warehouse để lưu trữ dữ liệu

Luan Nguyen
Data Engineer - Elton Data
05/02/2025 14:03

 

Mình viết bài viết này với mục đích rất “ngây thơ”, là để giải thích sự khác biệt vì sao Google Sheets hay Lark Base không phải là một nơi lý tưởng để lưu trữ và phân tích dữ liệu, nhất là trong dài hạn. Đặc biệt là với nhu cầu đồng bộ dữ liệu từ nhiều nguồn khác nhau lại 1 chỗ, mà lưu vào Sheets, Lark thì dễ gặp phải nhiều hạn chế và tạo thêm khó khăn không đáng có.

Chức năng, nhiệm vụ chính của Google Sheets, Lark Base

Với Google Sheets, nó tương đương với Excel, và đây là một ứng dụng bảng tính (spreadsheet). Chữ này có nghĩa là một bảng lớn rồi bạn có thể dùng nó để tính toán, thêm các công thức, vẽ biểu đồ, để tạo các phần tính toán tạm thời.

 

 

Lark Base thì hơi khác một chút, mình thích xem Lark Base như một “ứng dụng vận hành” hơn là một bảng tính. Tuy là Lark Base có thể tạo ra các công thức tính toán tự động không khác gì Excel nhưng Lark Base được tạo ra cho mục đích còn lớn hơn, đó là sử dụng như một hệ thống app đơn giản, không cần giao diện phức tạp mà vẫn đủ đáp ứng cho nhu cầu xử lý, ghi nhận thông tin của doanh nghiệp. Thật ra trong bộ Lark Suite cũng có Lark Sheets phục vụ riêng cho nhu cầu bảng tính rồi đấy chứ.

Điểm chung của Google Sheets và Lark Base đó là nó có giới hạn về khả năng lưu trữ, cũng như khả năng hiển thị của chúng phụ thuộc vào trình duyệt (app của Lark mà bạn đang xài trên máy tính thực ra cũng là một dạng trình duyệt thu nhỏ). Thế nên khi bạn lưu lượng data lớn, Sheets, Lark Base thường có xu hướng bị chậm đi khi bạn duyệt qua các dòng data, hoặc khi bạn thêm công thức càng nhiều thì chạy càng chậm. Nó cũng như Excel vậy, càng phức tạp thì càng chậm.

 

 

Ngoài ra Google Sheets, Lark Base hay Excel cũng có giới hạn về số dòng lưu trữ, ví dụ như Lark Base hiện tại đang là 50.000 dòng cho bản Pro, hoặc Excel thì bạn được 1 triệu dòng hơn một chút.

Với lượng dữ liệu hiện nay, việc đưa dữ liệu vào chỉ lưu trữ trong Sheets, Base, Excel không còn hợp lý nữa vì data size lớn, kể cả dữ liệu của các công ty nhỏ cũng đã… khá to so với sức chứa của các bảng tính này. Thế nên chỉ trong một thời gian ngắn, bạn sẽ phải loay hoay tìm giải pháp khác, hoặc phải ngắt dữ liệu ra thành nhiều file khác nhau, lại tăng thêm công sức trong việc quản lý, tổng hợp dữ liệu.

Thế nên lời khuyên của mình vẫn là hãy dùng ứng dụng cho đúng mục đích của nó. Trong bối cảnh hiện nay, thường Sheets, Base sẽ là nơi sinh ra dữ liệu, tính toán xong thì nó cũng là dữ liệu. Nó sẽ là data đầu vào một số quy trình sau đó.

 

1Bổ sung từ bạn Lương Cường: Dạ em bổ sung thêm ý không nên lưu dữ liệu bằng sheet (anh em xử lí data thường đau khổ với dữ liệu từ sheet ^^).
2Sheet dễ dàng thay đổi giá trị nên hay “lỡ tay” thêm, sửa, xoá dữ liệu không mong muốn. Đôi khi sai cấu trúc dẫn đến tính toán bị lỗi (cột dữ liệu số mà điền chữ)

Nó lại chẳng chuẩn quá các bạn ơi… Data mà chỉnh tay là mọi thứ loạn liền.

Dữ liệu từ các nguồn nên được lưu vào data warehouse / database

Đây là một khái niệm có thể là mới với bạn không làm trong lĩnh vực công nghệ. Bạn có thể hình dung database đúng nghĩa là một nơi lưu trữ lượng data gần như không có giới hạn (giới hạn nằm ở năng lực phần cứng của hệ thống, chứ không có một con số giới hạn như 50k dòng, 10k dòng… gì cả). Data warehouse là một dạng database đặc biệt để bạn có thể chạy các lệnh truy vấn, phân tích hiệu quả, dễ dàng và nhanh hơn.

Bạn có thể hiểu rằng database là một tập hợp của các bảng, mỗi bảng sẽ giống 1 sheets vậy đó. Nó cũng có cột, nó cũng có hàng. Tuy nhiên database thì được xây ra chuyên dùng cho lưu trữ và xử lý dữ liệu nên nó mạnh mẽ hơn Google Sheets, Lark Base cho đúng mục đích mà nó được sinh ra. Nhưng mà để tính toán dạng bảng tính thì nó lại không bằng Excel / Sheets. Đó, dùng công cụ đúng mục đích thì lúc nào cũng tốt hơn là xài tạm bợ.

Một vài cái tên database / data warehouse mà bạn có thể tham khảo thêm: Postgres, MySQL (database), BigQuery, AWS Redshift (datawarehouse). Còn để giải thích sâu thì mình thấy chưa cần thiết ở giai đoạn này.

 

 

Đây cũng là lý do vì sao khi tư vấn cho khách hàng, mình đều hướng việc lưu trữ dữ liệu vào database / datawarehouse tuy rằng hệ thống của Elton Data có hỗ trợ lưu data vào trong Google Sheets. Chỉ cần data chạy ads Facebook lấy mỗi ngày, trong vòng 3 tháng là đôi khi đã vượt qua mức giới hạn của một Sheets có thể chạy mượt. Hoặc như một số đơn vị bán lẻ khách hàng của Elton thì số đơn hàng của họ đã lên tới cả nghìn đơn hàng mỗi tháng, trong mỗi đơn mà có 2-3 sản phẩm thì con số 10k, 50k của Sheets, Base sẽ đụng giới hạn trong thời gian cực kỳ ngắn.

Ngoài ra, một điểm rất quan trọng nữa của việc lưu trữ dữ liệu bài bản đó là khi bạn cần dùng thì nó dễ dàng để cho bạn dùng. Thay vì phải đi cắt thành nhiều sheets, rồi phải tìm cách nối sheets lại khi cần phân tích số, thì database giúp bạn làm chuyện đó trong tích tắc. Thay vì phải ngồi viết hàm dài và phức tạp, có nhiều tool kéo thả giúp bạn phân tích số cực kì dễ dàng, ví dụ như PowerBI, Tableau hay Google Looker Studio chẳng hạn. Chưa kể nó còn đẹp, và khả năng tự động hóa cao.

Bên cạnh đó, database và data warehouse cũng có thêm nhiều ưu điểm như khả năng tính toán nhanh, nhiều công cụ tự động hóa, và có thể dùng ngược dữ liệu đó cho các hệ thống vận hành luôn. Một mũi tên bắn được nhiều con chim, một lần làm dùng cho nhiều mục đích.

Tất nhiên, Google Sheets hay Base vẫn có thể dùng để chứa dữ liệu nhỏ, dữ liệu tạm thời, hoặc dùng cho mục đích vận hành. Hẹn các bạn ở bài viết sau, mình chia sẻ thêm về cách mà một số khách hàng của mình đang dùng Base, Sheets cho vụ này, rất hay và mình nghĩ các bạn cũng có thể tham khảo cho doanh nghiệp của mình.