Thêm lược đồ khi cần thiết, không cần trước


Bùi Tùng Châu
2 năm trước
Hữu ích 0 Chia sẻ Viết bình luận 0
Đã xem 1455

Ba bước đầu tiên của việc xây dựng kho dữ liệu truyền thống là 1) thu thập các yêu cầu báo cáo, 2) xác định dữ liệu nguồn và 3) thiết kế mô hình dữ liệu, còn được gọi là lược đồ, để giữ dữ liệu trong cấu trúc dự đoán để phân tích.

Các cuộc cách mạng hồ dữ liệu và dữ liệu lớn đã thay đổi hoàn toàn cách tiếp cận đó. Bây giờ mọi người đang thu thập dữ liệu trước tiên và sử dụng một cách xuất hiện khi bạn đang tiếp cận với mô hình dữ liệu. Về cơ bản tìm nguồn cung ứng và đổ dữ liệu có khả năng thú vị, như là, vào một kho lưu trữ dữ liệu lớn hoặc kho lưu trữ tệp đám mây. Các yêu cầu phân tích và báo cáo sau đó thường xuất hiện tiếp theo, khi mọi người (hoặc máy móc) cố gắng tìm thứ gì đó hữu ích để làm với dữ liệu mà họ đã lắp ráp hoặc cố gắng sử dụng nó để trả lời các câu hỏi kinh doanh thực tế. Trong thế giới mới này, bước mô hình hóa dữ liệu của Wikipedia phần lớn bị bỏ qua hoặc bị trì hoãn cho đến sau này, bằng cách sử dụng một lược đồ nghiến trên phương pháp đọc đọc.

Đôi khi điều này hoạt động. Thông thường các bảng dữ liệu trong các hồ dữ liệu hiện đại rất rộng, có nghĩa là chúng có rất nhiều cột trong mỗi bảng - có khả năng mỗi cột bạn cần thực hiện một loại phân tích nhất định. Với thiết lập như vậy, người dùng có thể khám phá rất nhiều dữ liệu từ một bảng duy nhất, điều này giúp loại bỏ nhu cầu thực hiện nhiều hoặc bất kỳ mô hình dữ liệu nào, vì không cần tham gia giữa các bảng.

Nhưng phân tích thường cần phải vượt ra ngoài một bảng duy nhất, điều đó có nghĩa là chúng ta cần hiểu mối quan hệ giữa các cột dữ liệu trên các bảng khác nhau trong một cơ sở dữ liệu hoặc hồ dữ liệu hoặc trên các bộ dữ liệu trong các kho dữ liệu hoàn toàn khác nhau. Trong trường hợp này, công cụ phân tích cần có một số hiểu biết về lược đồ của dữ liệu.

Trong BI truyền thống, lược đồ là một cấu trúc tương đối cứng thường được xác định trước khi bất kỳ báo cáo hoặc bảng điều khiển nào được tạo. Việc tạo và thay đổi lược đồ thường đòi hỏi một bộ kỹ năng cấp kiến ​​trúc sư và có thể là chỉnh sửa các tệp giống như XML phức tạp. Những nhiệm vụ này vượt quá khả năng của hầu hết người dùng doanh nghiệp điển hình.

Triết lý của chúng tôi tại Zoomdata là thoát khỏi cách của người dùng - chỉ cần cho họ xem và tương tác với dữ liệu. Khi dữ liệu đã được thông qua các bước chất lượng dữ liệu và ETL, để đảm bảo tính sạch và tính nhất quán ban đầu, chúng tôi tin rằng nó đã sẵn sàng để người dùng bắt đầu khám phá. Ngoài ra, rất nhiều dữ liệu ngày nay là do máy tạo ra (trái ngược với việc mọi người nhập vào hệ thống một cách thủ công) và không có gì chắc chắn rằng tất cả dữ liệu do máy tạo ra nhất thiết phải có giá trị lớn để phân tích. Vì vậy, chỉ bằng cách hiển thị cho mọi người dữ liệu của họ, ban đầu trong một lưới đơn giản hoặc một vài biểu đồ, người dùng có thể hiểu được những gì họ phải làm việc với. Khi họ xác định các phần có khả năng có giá trị, sau đó họ có thể bắt đầu điêu khắc dữ liệu thô đơn giản thành một sản phẩm tinh tế hơn để trình bày và trả lời các câu hỏi mới và để hiểu rõ hơn về doanh nghiệp của họ.

Quá trình điêu khắc đó thường bao gồm ba bước, có thể xảy ra theo bất kỳ thứ tự nào và có thể xảy ra nhiều lần ở các cấp độ khác nhau. Bước điêu khắc đầu tiên là lướt giữa các thuộc tính dữ liệu, xem xét dữ liệu từ các khía cạnh hoặc kích thước khác nhau, chẳng hạn như địa lý, loại khách hàng hoặc bất kỳ thuộc tính hoặc bộ sưu tập thuộc tính nào trong dữ liệu được quan tâm. Thứ hai là lọc dữ liệu, loại bỏ các phần dữ liệu không đáng quan tâm và không tham gia vào các khía cạnh quan trọng. Thứ ba là khám phá dữ liệu theo thời gian. Để xem xét dữ liệu được lọc theo thời gian, để xem mọi thứ khác nhau như thế nào và xác định mức độ chi tiết của thời gian và so sánh giữa các giai đoạn có thể giải quyết vấn đề hoặc hiểu biết sâu sắc nhất.

Không có lược đồ nào được xác định trước. Bước nhảy vọt đầu tiên đối với một thứ giống với lược đồ kho dữ liệu truyền thống là khi chúng ta bắt đầu xem xét dữ liệu cần được nối hoặc kết hợp trên các nguồn khác nhau. Zoomdata coi một nguồn là một bảng dữ liệu trong cơ sở dữ liệu, một chỉ mục trong một hệ thống tìm kiếm như Elaticsearch hoặc Solr hoặc một bộ sưu tập trong kho lưu trữ tài liệu như MongoDB. Khi chúng tôi bắt đầu phân tích dữ liệu từ nhiều nguồn, chúng tôi cần hiểu mối quan hệ giữa các nguồn.

Đây không chỉ là cơ sở dữ liệu tham gia hoặc các mối quan hệ khóa nước ngoài. Chúng tôi không cho rằng các nguồn nằm trong cùng một kho dữ liệu cơ bản. Họ có thể, và khi họ, chúng ta có thể đẩy một số công việc nữa xuống cửa hàng đó, nhưng chúng ta đã học được rằng những ngày này những gì được phơi bày qua một cơ sở dữ liệu một ngày nào đó có thể bị phơi bày bởi các phương tiện khác vào ngày mai. Một số phân tích dữ liệu mạnh nhất liên quan đến việc bao gồm dữ liệu từ các hệ thống dữ liệu và động cơ hoàn toàn khác nhau sẽ không bao giờ được đặt cùng vị trí do các hạn chế về kỹ thuật, tổ chức hoặc quy định.

Chúng tôi muốn tìm hiểu làm thế nào các nguồn này liên quan đến nhau từ người dùng cuối. Người dùng cuối có động lực muốn phân tích dữ liệu qua các nguồn là người hoàn hảo để dạy chúng tôi cách sắp xếp dữ liệu. Chúng tôi không muốn phải có một kiến ​​trúc sư xác định trước như hầu hết các hệ thống ảo hóa dữ liệu và các công cụ BI yêu cầu. Chúng tôi muốn người dùng cuối nói với chúng tôi vì họ có động lực. Họ có một vấn đề cần giải quyết và có thể cho chúng tôi biết họ muốn giải quyết như thế nào. Chúng ta có thể học hỏi từ họ, khi họ dạy hệ thống cách dữ liệu nguồn chéo sắp xếp.

Và nếu bạn có đủ người dùng làm điều này, bạn có thể học được rất nhiều, thực sự nhanh chóng. Và bạn có thể tự động áp dụng những bài học đó cho những người dùng khác. Những gì chúng tôi học được từ một người dùng về cách hai hoặc nhiều nguồn liên kết có thể được sử dụng ngay lập tức để giúp hàng trăm người khác. Chúng ta có thể trực giác và rút ra lược đồ chỉ bằng cách học hỏi từ hành động của người dùng cuối. Đó là một lớp học tự học, phát triển liên tục, từ dưới lên trái ngược với lớp siêu dữ liệu BI từ trên xuống.

Cho biết dữ liệu đang thay đổi nhanh như thế nào, các nguồn mới xuất hiện, các lược đồ dữ liệu đang thay đổi, các trường được thêm và xóa, cách tiếp cận mà chúng ta đang thảo luận là cách khả thi duy nhất để luôn đứng đầu. Các nguồn dữ liệu và cấu trúc của dữ liệu đang thay đổi gần như nhanh chóng như chính dữ liệu. Hãy nghĩ về nó như là dẫn xuất đầu tiên của dữ liệu.

Vì vậy, chúng tôi có thể học hỏi từ người dùng. Chúng ta có thể tìm hiểu lược đồ như đã thảo luận ở trên. Nhưng chúng ta có thể tìm hiểu về người dùng và sở thích của họ. Chúng ta có thể tìm hiểu những loại người dùng nhất định thấy thú vị. Và từ chính dữ liệu, chúng ta có thể tìm hiểu điều gì là bình thường và điều gì là bất thường. Chén thánh của thế hệ BI tiếp theo là sử dụng các kỹ thuật AI học sâu để phù hợp với những hiểu biết thú vị từ chính dữ liệu với những người dùng có khả năng quan tâm và hành động dựa trên những hiểu biết đó. Chúng ta cần nói với đúng người vào đúng thời điểm những điều mà họ sẽ thấy thú vị và có thể hành động. Chúng ta cần nói với họ tại sao chúng lại xảy ra. Và cuối cùng, một khi đủ các hiểu biết lịch sử và các cặp hành động có sẵn cho các thuật toán học máy nâng cao để học hỏi từ,

Trong các bài viết trong tương lai, chúng tôi sẽ suy nghĩ thêm về cách quá trình học tập này hoạt động. Chúng tôi sẽ nói nhiều hơn về việc chủ động tạo ra những hiểu biết và đưa chúng đến đúng người dùng. Và chúng tôi sẽ nói về việc đưa ra các khuyến nghị và khả năng hành động - để cuối cùng có thể nói cho người dùng biết họ nên làm gì và cung cấp cho họ các công cụ phù hợp để ngay lập tức hành động. Mặc dù điều đầu tiên chúng tôi tự động học hỏi từ người dùng của mình là về lược đồ dữ liệu của họ, đó mới chỉ là khởi đầu.

Hữu ích 0 Chia sẻ Viết bình luận 0
Đã xem 1455