Đề xuất giá trị của dữ liệu lớn sau một thập kỷ


Đỗ Hải Yến
3 năm trước
Hữu ích 6 Chia sẻ Viết bình luận 0
Đã xem 9763

Dữ liệu lớn là một thuật ngữ bị hiểu lầm, áp dụng rộng rãi và mặc dù vậy, rất quan trọng đối với tăng trưởng kinh doanh. Nhưng tại sao là Dữ liệu lớn, và loại kết quả nào chúng ta có thể mong đợi về nó? 

Thành công dữ liệu lớn 

  1. Dự đoán của Nate Silver về 49 trong số 50 ứng cử viên được chọn trong 50 cuộc bầu cử Tổng thống Mỹ năm 2008.
  2. Money Ball (Bản nháp bóng chày)
  3. Phát hiện ung thư từ các tế bào sinh thiết . (Dữ liệu lớn xác định 12 mẫu câu chuyện trong khi các bác sĩ chỉ biết khoảng chín.) 
  4. Bristol-Myers Squibb giảm 98% thời gian chạy mô phỏng thử nghiệm lâm sàng
  5. Xerox đã sử dụng Dữ liệu lớn để giảm 20% tỷ lệ tiêu hao của trung tâm cuộc gọi.
  6. Các chương trình lòng trung thành của Kroger đã tăng lên trong 45 quý liên tiếp.

Như những ví dụ này cho thấy, Big Data thực sự có thể hoạt động. Nó có thể cho bạn?

Tiền đề của dữ liệu lớn

Nếu bạn thu thập dữ liệu về doanh nghiệp của mình và cung cấp dữ liệu đó cho hệ thống Dữ liệu lớn, bạn sẽ tìm thấy những hiểu biết hữu ích mang lại lợi thế cạnh tranh - (ví dụ: Phân tích bộ dữ liệu có thể tìm thấy mối tương quan mới với xu hướng kinh doanh tại chỗ, ngăn ngừa bệnh tật, chống tội phạm và v.v., trên Wikipedia. [Wikipedia])

Khi chúng tôi nói Big Data sẽ tạo ra sự khác biệt, giả định cơ bản là cách chúng tôi và các tổ chức hoạt động không hiệu quả.

Điều này có nghĩa là Dữ liệu lớn là một kỹ thuật tối ưu hóa. Do đó, bạn phải biết những gì đáng tối ưu hóa. Nếu sếp của bạn yêu cầu bạn đảm bảo rằng tổ chức đang sử dụng Dữ liệu lớn, thì việc thực hiện Rửa dữ liệu lớn sẽ dễ dàng.

  1. Xuất bản hoặc thu thập dữ liệu bạn có thể với một nỗ lực tối thiểu.
  2. Làm rất nhiều tập hợp đơn giản.
  3. Chỉ ra những kết hợp dữ liệu làm cho hình ảnh đẹp nhất.
  4. Ném vào một số thuật toán học máy, dự đoán một cái gì đó nhưng không so sánh.
  5. Tạo một bảng điều khiển thú vị và làm một bản demo tuyệt vời. Yêu cầu rằng bạn chỉ đang trầy xước bề mặt!

Tuy nhiên, việc thêm giá trị cho tổ chức của bạn thông qua dữ liệu lớn không phải là điều dễ dàng. Điều này là do hiểu biết không phải là tự động. Thông tin chi tiết chỉ có thể nếu chúng ta có dữ liệu phù hợp, chúng ta nhìn vào đúng nơi, những hiểu biết như vậy tồn tại và chúng ta tìm thấy những hiểu biết sâu sắc.

Tạo sự khác biệt sẽ cần bạn hiểu những gì có thể với dữ liệu lớn, công cụ của nó là gì, cũng như các điểm đau trong miền và tổ chức của bạn? Hình ảnh sau đây cho thấy một số ứng dụng của dữ liệu lớn trong một tổ chức.

Bước đầu tiên là hỏi, một số ứng dụng có thể tạo ra sự khác biệt cho tổ chức của bạn là gì.

Bước tiếp theo là tìm hiểu các công cụ trong hộp công cụ Big Data Data. Chúng có nhiều dạng.

KPI (Các chỉ số hiệu suất chính)

Người ta thường đưa chim hoàng yến vào các mỏ than. Vì những con chim nhỏ đó rất nhạy cảm với mức oxy trong không khí, nếu chúng bị đánh bật ra, bạn cần phải chạy ra khỏi mỏ. KPI là hoàng yến cho tổ chức của bạn. Chúng là những con số có thể cho bạn ý tưởng về hiệu suất của một thứ gì đó - Ví dụ GDP, Thu nhập bình quân đầu người, chỉ số HDI, v.v. cho một quốc gia, Doanh thu công ty, Giá trị trọn đời của khách hàng, Doanh thu trên mỗi feet vuông (trong ngành bán lẻ). Có thể tổ chức của bạn hoặc tên miền của bạn đã xác định chúng. Ý tưởng là sử dụng Dữ liệu lớn để theo dõi KPI.

bảng điều khiển

Hãy nghĩ về một bảng điều khiển xe. Nó cung cấp cho bạn một ý tưởng về hệ thống tổng thể trong nháy mắt. Thật nhàm chán khi tất cả đều tốt, nhưng nó thu hút sự chú ý khi có gì đó không ổn. Tuy nhiên, không giống như bảng điều khiển xe hơi, bảng điều khiển dữ liệu lớn có hỗ trợ truy sâu và tìm nguyên nhân gốc.

Cảnh báo

Cảnh báo là Thông báo (được gửi qua email, SMS, Máy nhắn tin, v.v.). Mục tiêu của họ là mang đến cho bạn sự an tâm bằng cách không phải kiểm tra mọi lúc. Chúng phải cụ thể, không thường xuyên và có giá trị sai rất thấp.

Cảm biến

Các cảm biến thu thập dữ liệu và làm cho chúng có sẵn cho phần còn lại của hệ thống. Chúng rất tốn kém và mất thời gian để cài đặt.

phân tích

Phân tích đưa ra quyết định. Chúng có bốn dạng: lô thời gian thực, tương tác, dự đoán.

  • Batch Analytics - xử lý dữ liệu nằm trong đĩa. Nếu bạn có thể đợi (ví dụ hơn một giờ) để có sẵn dữ liệu, đây là những gì bạn sử dụng.
  • Phân tích tương tác - Nó được con người sử dụng để đưa ra các truy vấn đặc biệt và để hiểu một bộ dữ liệu. Hãy nghĩ về nó như có một cuộc trò chuyện với dữ liệu.
  • Phân tích thời gian thực - Nó được sử dụng để phát hiện một cái gì đó nhanh chóng trong vòng vài mili giây đến vài giây. Phân tích thời gian thực rất mạnh mẽ trong việc phát hiện các điều kiện theo thời gian (ví dụ: Phân tích bóng đá ). Cảnh báo được thực hiện thông qua phân tích thời gian thực
  • Phân tích dự đoán - Nó học một giải pháp từ các ví dụ. Ví dụ, rất khó để viết một chương trình lái xe. Điều này là do có quá nhiều điều kiện cạnh. Chúng tôi giải quyết loại vấn đề đó bằng cách đưa ra nhiều ví dụ và yêu cầu máy tính tìm ra một chương trình giải quyết vấn đề (mà chúng tôi gọi là mô hình). Hai hình thức phổ biến là dự đoán giá trị tiếp theo (ví dụ dự đoán phụ tải điện) và dự đoán danh mục (ví dụ: email này có phải là SPAM không?).

Khoan xuống

Để đưa ra quyết định, các nhà khai thác cần phải xem dữ liệu trong ngữ cảnh và đi sâu vào chi tiết để hiểu nguyên nhân gốc. Mô hình điển hình là bắt đầu từ một cảnh báo hoặc bảng điều khiển, xem dữ liệu theo ngữ cảnh (các giao dịch khác cùng thời gian, cùng một người dùng đã làm gì trước và sau, v.v.) và sau đó cho phép người dùng đi sâu vào. Ví dụ, xem Trình diễn giải pháp phát hiện gian lận WSO2 .

Quá trình thu được cái nhìn sâu sắc từ dữ liệu, sử dụng các công cụ trên, trông giống như sau.

Ở đây các vai trò khác nhau làm việc cùng nhau để khám phá dữ liệu, hiểu dữ liệu, để xác định KPI, tạo bảng điều khiển, cảnh báo, v.v.

Trong quá trình này, giữ cho hệ thống chạy là một thách thức quan trọng. Điều này bao gồm các thách thức DevOps, Tích hợp dữ liệu liên tục, cập nhật các mô hình và nhận phản hồi về hiệu quả của các quyết định (ví dụ: Độ chính xác của gian lận). Do đó làm những việc trong sản xuất là tốn kém.

Mặt khác, người dùng làm điều đó một khi có giá rẻ. Do đó, trước tiên bạn phải thử các kịch bản của mình theo cách đặc biệt (thuê một số chuyên gia nếu bạn phải) và đảm bảo rằng nó có thể tăng giá trị cho tổ chức trước khi thiết lập một hệ thống thực hiện nó mỗi ngày.

Thông tin chi tiết có thể hành động là chìa khóa!

Thông tin chi tiết mà bạn tạo ra phải có thể hành động. Điều đó có nghĩa là một số điều.

  1. Thông tin bạn chia sẻ rất quan trọng và được bảo đảm, và chúng được trình bày với sự phân nhánh của chúng (ví dụ: nhiều hơn hai vấn đề kỹ thuật sẽ khiến khách hàng phải bối rối)
  2. Người ra quyết định có thể xác định bối cảnh liên quan đến cái nhìn sâu sắc (ví dụ: nhà điều hành có thể nhìn xuyên qua lịch sử của khách hàng đủ điều kiện)
  3. Người ra quyết định có thể làm điều gì đó về cái nhìn sâu sắc (ví dụ: có thể làm việc với khách hàng để trấn an và khắc phục)

Đối với mỗi thông tin bạn hiển thị cho người dùng, hãy suy nghĩ kỹ về lý do tại sao tôi chỉ cho anh ta biết điều này?, Anh, anh ta có thể làm gì với thông tin này?

Bắt đầu từ đâu?

Các dự án Big Data có thể có nhiều hình thức.

  1. Sử dụng Bộ dữ liệu hiện có: Tôi đã có bộ dữ liệu và danh sách các sự cố tiềm ẩn. Tôi sẽ sử dụng Dữ liệu lớn để giải quyết một số vấn đề.
  2. ** Khắc phục sự cố đã biết: Tìm sự cố, thu thập dữ liệu về vấn đề đó, phân tích, trực quan hóa, xây dựng mô hình và cải thiện. Sau đó xây dựng một bảng điều khiển để theo dõi.
  3. Cải thiện quy trình tổng thể: Các quy trình công cụ (bắt đầu với hầu hết các phần quan trọng), tìm KPI, phân tích và trực quan hóa các quy trình và cải thiện
  4. Tìm mối tương quan: Thu thập tất cả dữ liệu có sẵn, dữ liệu khai thác dữ liệu hoặc trực quan hóa, tìm mối tương quan thú vị.

Hy vọng điều này là hữu ích. Nếu bạn thích bài đăng này, bạn cũng có thể thích Xử lý luồng 101: Từ SQL đến Truyền SQL  và các  mẫu cho Phân tích thời gian thực truyền phát

Tôi viết tại https://medium.com/@srinathperera .

Hữu ích 6 Chia sẻ Viết bình luận 0
Đã xem 9763