6

Nước, nước ở khắp mọi nơi, Cũng không có giọt nào để uống

Những dòng này từ Hồi The Rime of the Ancient Mariner , bởi tác giả Samuel Taylor Coleridge cũng mô tả chính xác các công ty đang cố gắng biến mình thành một công ty điều khiển dữ liệu. Các tổ chức này có khối lượng dữ liệu thô thiên văn theo ý của họ, nhưng làm thế nào họ tìm thấy kim châm ngôn đó trong đống cỏ khô khi không có bản đồ chỉ cho họ đến vị trí mà họ có thể tìm kiếm thông tin đầy hứa hẹn này hoặc thậm chí biết những gì có sẵn. Được trang bị một kho dữ liệu, làm thế nào họ có thể điều hướng những vùng nước không thông minh này và tìm thấy hòn đảo kho báu của mình mà không có bản đồ rõ ràng để hướng dẫn họ?

Thông tin từ các nguồn dữ liệu được quản lý và các biến đổi đã được áp dụng thường là một quy trình bí mật và bí truyền trong tổ chức lớn với IT, nhân viên an ninh và vận hành thường giữ các khóa bí mật. Thêm vào kiến ​​thức bộ lạc này về xuất xứ dữ liệu, khối lượng và tốc độ của dữ liệu ăn vào các hồ Dữ liệu lớn khiến việc quản trị dữ liệu và quản lý dữ liệu khá khó khăn.

Khi các dự án dữ liệu lớn trưởng thành từ nguyên mẫu đến giải pháp sản xuất, cần có một danh mục kinh doanh cho phép các kỹ sư dữ liệu tìm thấy dữ liệu họ đang tìm kiếm giữa hàng triệu thực thể dữ liệu và cung cấp cho các nhà khoa học dữ liệu và nhà phân tích kinh doanh. Khả năng phân loại dữ liệu hiệu quả có thể rút ngắn đáng kể dữ liệu về chu kỳ hiểu biết. Theo một số ước tính nhất định, các nhà khoa học dữ liệu hiện dành 50 phần trăm đến 80 phần trăm thời gian của họ chỉ để tìm kiếm các bộ dữ liệu có liên quan trước khi họ trích xuất giá trị từ dữ liệu này.

Các tổ chức cần khả năng quản trị dữ liệu để hiểu thông tin của họ và trả lời các câu hỏi như vậy về dữ liệu của công ty như:

1. Chúng ta có dữ liệu gì và chúng ta biết gì về nó?

2. Dữ liệu này được lấy từ đâu và được sử dụng như thế nào?

3. Dữ liệu này có tuân thủ các chính sách của công ty và tuân thủ các quy định quốc gia không?

Những thách thức quản trị dữ liệu chung trong dữ liệu lớn

Phân mảnh dữ liệu

Với khối lượng dữ liệu bùng nổ trong các hồ dữ liệu, các thuật ngữ kinh doanh như khách hàng, sản phẩm, địa điểm và các thứ khác trở nên trôi chảy và thiếu chính xác trong định nghĩa với nhiều phiên bản liên quan đến chúng. Nếu không có một danh mục kinh doanh toàn diện và linh hoạt, người dùng doanh nghiệp sẽ rất khó xác định dữ liệu được làm sạch và quản lý, dẫn đến mất tính toàn vẹn và làm giảm niềm tin của doanh nghiệp vào dữ liệu của mình.

Công cụ không linh hoạt

Phần lớn các giải pháp thương mại được sử dụng để phân loại dữ liệu như các công cụ MDM / RDM bị hạn chế và cứng nhắc về chức năng, vì chúng chỉ quản lý siêu dữ liệu ở cấp ứng dụng và yêu cầu dữ liệu phải được quản lý độc quyền từ một đường dẫn duy nhất từ ​​đầu đến cuối theo dõi. Các công cụ này mặc dù giàu các quy định và mô hình tuân thủ cụ thể trong ngành, cung cấp khả năng hiển thị mức độ nền tảng kém vào Hadoop. Hầu hết các công cụ MDM thương mại không hỗ trợ quy trình công việc IoT Hadoop hoặc có chức năng điều khiển các chính sách bảo mật động dựa trên phân loại dữ liệu và siêu dữ liệu.

Dữ liệu không chính xác hoặc trùng lặp

Xem xét có bao nhiêu doanh nghiệp phụ thuộc vào dữ liệu chính xác cho trí tuệ kinh doanh và cải thiện việc ra quyết định, việc phân loại và sao chép dữ liệu không chính xác tiếp tục cản trở một số công ty. Theo một nghiên cứu được thực hiện bởi Experian, trung bình, các công ty Mỹ tin rằng 25% dữ liệu của họ là không chính xác và các lỗi dữ liệu phổ biến ảnh hưởng xấu đến 91% các tổ chức. Mối quan tâm là nếu một phần đáng kể của dữ liệu doanh nghiệp là không chính xác và các công ty không thể xác định được thì họ đang đưa ra quyết định kinh doanh quan trọng dựa trên dữ liệu sai lầm.

Định nghĩa phân loại kinh doanh (Catalogue)

Dữ liệu lớn mang lại sự dân chủ hóa truy cập thông tin và giảm bớt cách thức thông tin có thể được chia sẻ trên toàn doanh nghiệp. Tuy nhiên, tăng trưởng không có kế hoạch có thể dẫn đến 'đầm lầy dữ liệu' với nội dung không được gắn thẻ hoặc phân loại đầy đủ. Phân loại kinh doanh có thể cung cấp các liên kết còn thiếu trong việc thu hẹp khoảng cách này. Từ tiếng Hy Lạp, 'taxi,' nghĩa là 'sắp xếp' và 'sắp xếp,' các phân loại sử dụng một hệ thống phân loại các thuật ngữ để phân loại và sắp xếp các khái niệm hoặc đối tượng vật lý / logic làm cho chúng trở thành phương tiện lý tưởng để nắm bắt cấu trúc của toàn bộ nội dung của doanh nghiệp .

Phân loại và gắn thẻ nhất quán trên toàn doanh nghiệp bằng cách sử dụng các nguyên tắc phân loại hỗ trợ khả năng tương tác hệ thống / nền tảng và tạo giá trị từ các nguồn dữ liệu có cấu trúc và không cấu trúc bằng cách ánh xạ chúng vào từ vựng chung. Phân loại tham chiếu có thẩm quyền này cải thiện cả độ tin cậy dữ liệu và thời gian để hiểu sâu hơn.

Yêu cầu cho một danh mục kinh doanh dữ liệu lớn

Giải pháp nền tảng được xây dựng có mục đích

Để hiểu được dữ liệu lớn và cung cấp cho người dùng khả năng tìm kiếm thông tin phù hợp, doanh nghiệp cần một giải pháp quản trị dữ liệu được thiết kế cho Hadoop và hoạt động ở cấp nền tảng, để nó phân loại dữ liệu nhất quán trên tất cả các công cụ được sử dụng bởi tổ chức để di chuyển và phân tích dữ liệu.

Một giải pháp nền tảng được xây dựng có mục đích có thể đóng vai trò là nguồn duy nhất của siêu dữ liệu trong Hadoop bằng cách tự động theo dõi hoạt động đa người dùng, đa ứng dụng trong các thành phần Hadoop bằng các trình kết nối gốc, trong khi các giải pháp quản trị dữ liệu hoạt động ở cấp ứng dụng yêu cầu một giải pháp độc quyền duy nhất đường dẫn kết thúc các silo dữ liệu tăng sinh.

Khám phá dữ liệu nhanh hơn

Danh mục doanh nghiệp cho phép nhân viên dữ liệu và người quản lý tìm kiếm dữ liệu và siêu dữ liệu một cách nhanh chóng và theo một số cách khác nhau để giảm thời gian về giá trị. Điều này bao gồm khả năng tìm kiếm theo:

Loại tài sản: Tìm kiếm bảng Hive, Cấu trúc liên kết bão hoặc bất kỳ thành phần nào được kết nối
Thẻ: Tìm kiếm tất cả các cột hoặc bảng có thẻ cụ thể như PII
Business Language: Phù hợp với các tiêu chuẩn & chính sách tuân thủ

Sự kết hợp của các khả năng tìm kiếm này trao quyền cho người quản lý dữ liệu để xây dựng mô hình tổ chức của họ và cách thức tổ chức kinh doanh. Chúng bao gồm khả năng mô hình hóa một doanh nghiệp bằng cách kết hợp cả hai thực thể dữ liệu logic và vật lý để phát triển sự hiểu biết đầy đủ hơn.

Bảo vệ động dựa trên phân loại

Danh mục kinh doanh hiệu quả không thể thụ động hoặc đơn giản là pháp y. Phân loại dữ liệu nhất quán phải thúc đẩy các chính sách truy cập có thể chịu được thử nghiệm kiểm toán và tuân thủ. Cụ thể, siêu dữ liệu và phân loại có thể được sử dụng để đưa ra các chính sách truy cập động tập trung vào thời gian chạy mà chủ động ngăn chặn các vi phạm xảy ra.

Nhanh nhẹn và thích nghi: Đảm bảo thông tin là hiện tại bởi các kết nối gốc

Apache Hadoop tồn tại trong một hệ sinh thái rộng lớn hơn của các gói phân tích doanh nghiệp. Điều này bao gồm các công cụ ETL, hệ thống ERP và CRM, kho dữ liệu doanh nghiệp, siêu dữ liệu và các công cụ khác. Khối lượng công việc hiện đại chảy từ các nguồn phân tích truyền thống khác nhau vào Hadoop và sau đó thường xuyên quay trở lại. Danh mục doanh nghiệp dữ liệu lớn phải có khả năng thích ứng với các nỗ lực tuân thủ bằng cách cho phép các công ty nhập cấu trúc siêu dữ liệu hiện có thông qua API dựa trên REST từ các nguồn khác để thúc đẩy đầu tư kế thừa hoặc tải trước kết hợp quy tắc phân loại cho một ngành hoặc ngành kinh doanh cụ thể .

Dữ liệu có độ tin cậy cao trong Hadoop cho ngành dọc được điều chỉnh

Nhiều tổ chức hoạt động trong một mớ yêu cầu tuân thủ. Dữ liệu nhạy cảm phải được bảo vệ bởi cả chế độ quản trị, cũng như các công nghệ cụ thể. Sắp xếp dữ liệu để phù hợp với không chỉ ngôn ngữ kinh doanh mà với các thuật ngữ / khái niệm cụ thể được sử dụng cho các tiêu chuẩn ngành như Hiệp định BASEL I & II và các điều khoản khác cho phép độ chính xác và dễ dàng áp dụng các biện pháp bảo vệ chính xác cho toàn bộ quy trình phân tích. Dữ liệu cư trú, thông tin thanh toán, lưu giữ và quy tắc thông tin nhận dạng cá nhân khác nhau tùy theo từng ngành và theo địa lý. Một phân loại kinh doanh phù hợp tạo điều kiện cho chế độ quản trị nhanh nhẹn, là điều kiện tiên quyết cho bất kỳ nền tảng phân tích nào, cũng như để trích xuất cái nhìn sâu sắc từ dữ liệu. Một danh mục kinh doanh trao quyền cho những người ra quyết định có sự tự tin để nhanh chóng đưa ra quyết định kinh doanh dựa trên dữ liệu.

|