Hành trình dữ liệu: Từ kho dữ liệu đến quầy dữ liệu đến hồ dữ liệu


Hồ Kim Quyên
1 năm trước
Hữu ích 0 Chia sẻ Viết bình luận 0
Đã xem 2314

Với dữ liệu ngày càng được công nhận là tiền tệ của thời đại kỹ thuật số, các câu hỏi mới đang được đặt ra về cách dữ liệu đó nên được thu thập, quản lý và tận dụng như một phần của kiến ​​trúc dữ liệu doanh nghiệp tổng thể.

Kho dữ liệu: Mô hình lựa chọn

Trong vài thập kỷ qua, kho dữ liệu là mô hình được lựa chọn, được các doanh nghiệp sử dụng để trích xuất dữ liệu có cấu trúc từ các hệ thống hoạt động như lập kế hoạch nguồn lực doanh nghiệp (ERP) và quản lý chuỗi cung ứng (SCM). Các doanh nghiệp đã củng cố và tập trung dữ liệu, và đã tận dụng các công cụ hỗ trợ quyết định và thông minh trong kinh doanh để thực hiện chuyên sâu, báo cáo và phân tích lịch sử. Trong khi kho dữ liệu đóng vai trò là kho lưu trữ đa năng, tập trung dưới sự khóa và chăm sóc CNTT, các dữ liệu nổi lên như một tập hợp công nghệ được xây dựng để giải quyết các nhu cầu báo cáo cụ thể của một bộ phận hoặc chức năng kinh doanh cụ thể. Kho dữ liệu được xây dựng theo cách tiếp cận từ trên xuống và lưu trữ dữ liệu chi tiết, có cấu trúc và các dữ liệu thường xuất phát từ dưới lên với mục đích chứa một dạng dữ liệu được chọn tóm tắt.

Cả hai phương pháp đã cùng tồn tại và tận hưởng thành công trong nhiều năm. Nhưng sự xuất hiện của dữ liệu lớn hơn, đa dạng hơn - bao gồm thông tin phi cấu trúc như weblog, hình ảnh, video, tin nhắn trực tiếp và luồng dữ liệu Internet vạn vật (IoT) thời gian thực gần như vô tận - đưa ra những thách thức mà kho dữ liệu / dữ liệu truyền thống kiến trúc mart đơn giản là không được trang bị để xử lý. Ngoài ra, tầm nhìn tập trung cho một kho lưu trữ dữ liệu duy nhất không bao giờ được thực hiện đầy đủ, khiến hầu hết các tổ chức có một ít silo dữ liệu, có thể cản trở việc ra quyết định hiệu quả.

Chuyển sang Hồ dữ liệu

Nghiên cứu của Vanson Bourne phát hiện ra rằng dữ liệu bị ngắt kết nối, được truyền bá bởi các hệ thống cũ và kiến ​​trúc dữ liệu lỗi thời, đang khiến các công ty tốn kém thời gian. Theo khảo sát của các nhà lãnh đạo CNTT và người dùng doanh nghiệp, các tổ chức ở Hoa Kỳ và Vương quốc Anh đang mất 140 tỷ đô la hàng năm vì lãng phí thời gian và tài nguyên, mất nhân đôi nỗ lực và bỏ lỡ cơ hội vì dữ liệu bị ngắt kết nối. Hơn một nửa số người được hỏi (56 phần trăm) nói rằng silo dữ liệu là một rào cản để đáp ứng các mục tiêu kinh doanh của tổ chức của họ.

Nhập hồ dữ liệu, phiên bản mới nhất của một nền tảng tập trung để thu thập và xử lý dữ liệu, lần này với kiến ​​trúc phẳng, không có lược đồ thường được xây dựng xung quanh Hadoop và được điều chỉnh để xử lý dữ liệu cho mục đích chung. Giống như kho dữ liệu, hồ dữ liệu có thể lưu trữ các nguồn dữ liệu khác nhau, nhưng ngược lại, dữ liệu không cần phải được làm sạch và chuyển đổi trong quá trình thu thập. Việc thiếu cấu trúc và lược đồ được xác định trước giúp hồ dữ liệu linh hoạt hơn, làm cho nó phù hợp để khám phá dữ liệu và một loạt các trường hợp sử dụng phân tích rộng hơn. Hơn nữa, một hồ dữ liệu có khả năng nhập và xử lý dữ liệu trong thời gian thực, phù hợp hơn với tính trực tiếp của các ứng dụng kinh doanh kỹ thuật số ngày nay.

Bổ sung, không thay thế

Trong khi một số hồ dữ liệu thay thế cho kho dữ liệu, nhiều chuyên gia quản lý dữ liệu không thấy nó như vậy. Thay vào đó, họ thấy hai công nghệ là bổ sung, mỗi công nghệ phục vụ trường hợp sử dụng riêng của họ. Ví dụ: kho dữ liệu rất phù hợp cho người dùng doanh nghiệp, những người cần làm việc với thông tin tổng hợp và tích hợp sẵn được nhắm mục tiêu cho các ứng dụng phân tích lịch sử. Mặt khác, hồ dữ liệu tốt cho các nhà khoa học dữ liệu và những người khác muốn làm việc với dữ liệu thô, có lẽ để xây dựng các mô hình dựa trên máy học và cần khám phá, khám phá và thử nghiệm nhanh chóng - các quá trình liên quan đến thế hệ mới của quy định và phân tích dự đoán.

Khi lập kế hoạch cho một hồ dữ liệu, có một điều rõ ràng: các tổ chức cần vạch ra một kiến ​​trúc mới và đầu tư vào các công cụ cho phép tích hợp và hỗ trợ xử lý từ đầu đến cuối, bao gồm thu thập dữ liệu, chuyển đổi dữ liệu và truy cập dữ liệu. Với cơ sở hạ tầng như vậy, các tổ chức có thể tiến lên phía trước với các ứng dụng dựa trên dữ liệu thế hệ tiếp theo sẽ là động lực cho thành công kinh doanh kỹ thuật số.

Hữu ích 0 Chia sẻ Viết bình luận 0
Đã xem 2314