Giá trị thu được từ Hồ dữ liệu


Hoàng Hùng Ngọc
3 năm trước
Hữu ích 1 Chia sẻ Viết bình luận 0
Đã xem 9461

Trích từ ebook, Architecting Data Lakes: Data Management Architect for Advanced Business Case, của Ben Sharma và Alice LaPlante.

Mục đích của hồ dữ liệu là cung cấp giá trị cho doanh nghiệp bằng cách phục vụ người dùng. Từ góc độ người dùng, đây là những câu hỏi quan trọng nhất để hỏi về dữ liệu:

  • Có gì trong hồ dữ liệu (danh mục)?
  • Chất lượng của dữ liệu là gì?
  • Hồ sơ của dữ liệu là gì?
  • Siêu dữ liệu của dữ liệu là gì?
  • Làm thế nào người dùng có thể làm giàu, dọn dẹp, cải tiến và tổng hợp mà không cần đến CNTT (làm thế nào để sử dụng hồ dữ liệu theo cách tự phục vụ)?
  • Làm thế nào người dùng có thể chú thích và gắn thẻ dữ liệu?

Trả lời những câu hỏi này đòi hỏi phải có kiến ​​trúc, quản trị và quy tắc bảo mật thích hợp và được tuân thủ, để đúng người có thể truy cập đúng dữ liệu kịp thời. Cũng cần phải có sự quản trị chặt chẽ trong việc đưa lên các bộ dữ liệu, các quy ước đặt tên phải được thiết lập và thi hành, và các chính sách bảo mật phải được áp dụng để đảm bảo kiểm soát truy cập dựa trên vai trò. 

Tự phục vụ

Đối với mục đích của chúng tôi, tự phục vụ có nghĩa là người dùng doanh nghiệp phi kỹ thuật có thể truy cập và phân tích dữ liệu mà không liên quan đến CNTT.

Trong mô hình tự phục vụ, người dùng sẽ có thể thấy siêu dữ liệu và cấu hình và hiểu các thuộc tính của từng bộ dữ liệu có ý nghĩa gì. Siêu dữ liệu phải cung cấp đủ thông tin cho người dùng để tạo các định dạng dữ liệu mới từ các định dạng dữ liệu hiện có, sử dụng làm giàu và phân tích.

Ngoài ra, trong mô hình tự phục vụ, danh mục sẽ là nền tảng để người dùng đăng ký tất cả các bộ dữ liệu khác nhau trong hồ dữ liệu. Điều này có nghĩa là người dùng có thể đi đến hồ dữ liệu và tìm kiếm để tìm các bộ dữ liệu họ cần. Chẳng hạn, họ cũng có thể tìm kiếm trên bất kỳ loại thuộc tính nào, ví dụ, trên cửa sổ thời gian như ngày 1 tháng 1 đến ngày 1 tháng 2 hoặc dựa trên một lĩnh vực chủ đề, chẳng hạn như tiếp thị so với tài chính. Người dùng cũng có thể tìm thấy các tập dữ liệu dựa trên các thuộc tính, ví dụ, họ có thể nhập, Cung cấp cho tôi tất cả các tập dữ liệu có trường được gọi là chiết khấu hoặc tỷ lệ phần trăm.

Đó là trong khả năng tự phục vụ, các thực tiễn tốt nhất cho các loại siêu dữ liệu khác nhau được sử dụng. Người dùng doanh nghiệp quan tâm đến siêu dữ liệu kinh doanh, chẳng hạn như hệ thống nguồn, tần suất xuất hiện dữ liệu và mô tả của bộ dữ liệu hoặc thuộc tính. Người dùng cũng quan tâm đến việc biết siêu dữ liệu kỹ thuật: cấu trúc và định dạng và lược đồ của dữ liệu.

Khi nói đến dữ liệu vận hành , người dùng muốn xem thông tin về dòng dõi , bao gồm cả khi dữ liệu được đưa vào hồ dữ liệu và liệu nó có còn nguyên tại thời điểm nhập liệu hay không. Nếu dữ liệu không còn thô khi được nhập, người dùng sẽ có thể thấy nó được tạo như thế nào và những bộ dữ liệu nào khác được sử dụng để tạo ra nó. Cũng quan trọng đối với dữ liệu hoạt động là chất lượng của dữ liệu. Người dùng có thể xác định các quy tắc nhất định về chất lượng dữ liệu và sử dụng chúng để thực hiện kiểm tra trên các bộ dữ liệu.

Người dùng cũng có thể muốn xem lịch sử ăn vào. Ví dụ: nếu người dùng đang xem dữ liệu phát trực tuyến, họ có thể tìm kiếm những ngày không có dữ liệu đến, như một cách đảm bảo rằng những ngày đó không được bao gồm trong bộ dữ liệu đại diện cho phân tích chiến dịch. Nhìn chung, việc truy cập vào thông tin dòng dõi, khả năng thực hiện kiểm tra chất lượng và lịch sử nhập dữ liệu cung cấp cho người dùng doanh nghiệp cảm giác tốt về dữ liệu, do đó họ có thể nhanh chóng bắt đầu phân tích.

Kiểm soát và cho phép truy cập

Khi cung cấp cho nhiều người dùng khác nhau, cho dù các giám đốc điều hành cấp C, nhà phân tích kinh doanh hoặc nhà khoa học dữ liệu với các công cụ họ cần, bảo mật là rất quan trọng. Thiết lập và thi hành các chính sách bảo mật, nhất quán, là điều cần thiết để sử dụng thành công một hồ dữ liệu. Các công nghệ trong bộ nhớ nên hỗ trợ các mẫu truy cập khác nhau cho từng nhóm người dùng, tùy thuộc vào nhu cầu của họ. Ví dụ: một báo cáo được tạo cho một giám đốc điều hành cấp C có thể rất nhạy cảm và không nên có sẵn cho những người khác không có cùng đặc quyền truy cập. Ngoài ra, bạn có thể có người dùng doanh nghiệp muốn sử dụng dữ liệu theo độ trễ thấp vì họ đang tương tác với dữ liệu trong thời gian thực, bằng công cụ BI; trong trường hợp này, họ cần một phản ứng nhanh chóng. Các nhà khoa học dữ liệu có thể cần linh hoạt hơn, với số lượng quản trị ít hơn; cho nhóm này, bạn có thể tạo một hộp cát cho công việc khám phá. Cùng một mã thông báo, người dùng trong bộ phận tiếp thị của công ty không nên có quyền truy cập vào cùng dữ liệu như người dùng trong bộ phận tài chính. Với các chính sách bảo mật tại chỗ, người dùng chỉ có quyền truy cập vào các tập dữ liệu được gán cho cấp đặc quyền của họ.

Bạn cũng có thể sử dụng các tính năng bảo mật để cho phép người dùng tương tác với dữ liệu và góp phần chuẩn bị và làm giàu dữ liệu. Ví dụ: khi người dùng tìm thấy dữ liệu trong hồ dữ liệu thông qua danh mục, họ có thể được phép dọn sạch dữ liệu và làm phong phú các trường trong một tập dữ liệu, theo cách tự phục vụ.

Kiểm soát truy cập cũng có thể cho phép một cách tiếp cận hợp tác để truy cập và tiêu thụ dữ liệu. Ví dụ: nếu một người dùng tìm thấy một tập dữ liệu mà cô ấy cảm thấy quan trọng đối với một dự án và có ba thành viên khác trong cùng dự án đó, cô ấy có thể tạo một không gian làm việc với dữ liệu đó để chia sẻ và nhóm có thể cộng tác về làm giàu.

Sử dụng phương pháp tiếp cận từ dưới lên để quản trị dữ liệu để xếp hạng các tập dữ liệu

Cách tiếp cận từ dưới lên để quản trị dữ liệu, được thảo luận trong Chương 2 , cho phép bạn xếp hạng mức độ hữu ích của các bộ dữ liệu bằng cách cung cấp dịch vụ đám đông. Bằng cách yêu cầu người dùng xếp hạng bộ dữ liệu nào có giá trị nhất, từ này có thể lan truyền đến người dùng khác để họ có thể sử dụng hiệu quả dữ liệu đó. Bằng cách này, bạn đang tạo ra một nguồn sự thật duy nhất từ ​​dưới lên, thay vì từ trên xuống.

Để làm điều này, bạn cần một cơ chế xếp hạng và xếp hạng như là một phần của nền tảng quản lý hồ dữ liệu tích hợp của bạn. Vị trí rõ ràng cho mô hình quản trị dựa trên hình mờ, từ dưới lên này sẽ là danh mục. Do đó, danh mục phải có chức năng đánh giá.

Nhưng nó không đủ để cho thấy những gì người khác nghĩ về một tập dữ liệu. Một giải pháp quản trị và quản lý hồ dữ liệu tích hợp sẽ hiển thị cho người dùng thứ hạng của các tập dữ liệu từ tất cả người dùng. Nó cũng cung cấp xếp hạng dữ liệu được cá nhân hóa để mỗi cá nhân có thể thấy những gì họ thấy hữu ích mỗi khi họ vào danh mục.

Người dùng cũng cần các công cụ để tạo các mô hình dữ liệu mới trong số các tập dữ liệu hiện có. Ví dụ: người dùng sẽ có thể lấy bộ dữ liệu khách hàng và bộ dữ liệu giao dịch và tạo bộ dữ liệu khách hàng có giá trị nhất của bộ dữ liệu bằng cách nhóm khách hàng theo giao dịch và tìm ra khi nào khách hàng tạo ra nhiều doanh thu nhất. Có thể thực hiện các loại làm giàu và biến đổi này là quan trọng từ quan điểm từ đầu đến cuối.

Hữu ích 1 Chia sẻ Viết bình luận 0
Đã xem 9461