9

Dành thời gian ở London và Paris trong tuần này cho Hội nghị Biến đổi của TIBCO là một lời nhắc nhở tuyệt vời rằng vẫn còn một vùng rộng lớn của thế giới chúng ta không  có được Dữ liệu lớn.

Không có gì khác hơn là sự rò rỉ của dự án giám sát dữ liệu PRISM của NSA và bạn sẽ thấy rằng các quan chức bị buộc tội giám sát không hiểu điều đó khi họ coi đó là siêu dữ liệu. Nói chuyện với một tài xế taxi ở Luân Đôn nói Những gì ồn ào? Tôi  không có gì để che giấu . Và bạn sẽ nhận ra ngay lập tức anh ấy không  hiểu được  (đọc liên kết, điều đó thật khiêu khích). Hãy xem BBC đánh đòn người Anh một cách điên cuồng rằng các công ty Mỹ có thể rình mò các cuộc trò chuyện của họ và bạn sẽ thấy họ không hiểu điều đó.

Một quan chức được bầu của Anh nghĩ rằng câu trả lời là tạo ra một phiên bản Facebook và Google của Anh. Chắc chắn rằng sẽ giải quyết được nó. Chúc may mắn với điều đó. 

Không chỉ giáo dân

Sự hiểu lầm không giới hạn trong Quốc hội Hoa Kỳ, các bản tin và tin tặc ở Luân Đôn. Giống như một số người đang tạo ra âm thanh Big Data đáng ngại, những người kinh doanh bối rối trước các thông điệp của các nhà cung cấp phần mềm và phương tiện truyền thông, những người rất thích làm cho Big Data nghe có vẻ lớn và vô tổ chức nhất có thể. Điều này dẫn đến một nhận thức rằng nếu dữ liệu có thể quản lý được (và nó thường có thể có cơ sở hạ tầng phù hợp), thì đó không thể là điều mà thế giới đang xôn xao.

Dưới đây là một số hiểu lầm phổ biến:

  • Nhiều dữ liệu tốt hơn - Nhiều dữ liệu chắc chắn không tốt hơn và nếu dữ liệu đó không bị chi phối (kiểm soát), đó thực sự là một trách nhiệm pháp lý. Bảo mật, làm sạch và làm mới dữ liệu có chi phí hữu hình.
  • Chúng ta cần các nhà khoa học dữ liệu - Giống như sự xuất hiện của Web, nơi mà một nhóm từ một công ty tư vấn tạo ra một trang web công ty, nhu cầu về các nhà khoa học dữ liệu đang dần được khắc phục bằng các công cụ giúp tìm kiếm, hình dung và hành động dễ dàng hơn trên tập dữ liệu khổng lồ. Điều đó không có nghĩa là dinks dữ liệu sẽ không có giá trị, bạn sẽ không chết trong nước nếu không có chúng.
  • Mọi người đều có một vấn đề dữ liệu lớn - Thậm chí không đúng sự thật. Nhiều ngành công nghiệp, hàng thập kỷ vào tin học hóa, vẫn thiếu cơ sở hạ tầng cơ bản để tận dụng những gì họ có, ít tìm cách giải quyết vấn đề với Hadoop. Phần lớn các câu chuyện thành công về Dữ liệu lớn cho đến nay đến từ các công ty bán lẻ và web nhưng chúng tôi có thể hy vọng điều đó sẽ phát triển.

Có nhiều việc phải làm để có thể giúp bạn không bị mắc kẹt trên tảng đá của Dữ liệu lớn. Dưới đây là một số thực tế cần được tiếp thu cũng cung cấp cho bạn một nơi để bắt đầu:

  • Trước tiên, hãy sắp xếp nhà dữ liệu của bạn theo thứ tự  - Trước khi nghĩ về những hiểu biết đáng kinh ngạc của Hadoop và, hãy nghĩ về việc sắp xếp cơ sở hạ tầng dữ liệu hiện tại của bạn. Mặc dù có nhiều năm để Gartner và Forrester tư vấn để hội nhập, hầu hết các doanh nghiệp lớn vẫn thiếu thuyền.
  • Yêu cầu trước tiên  - Mặc dù các thử nghiệm trong phòng thí nghiệm của công ty nghe có vẻ thú vị nếu bạn tham gia dự án và học hỏi nhanh, nhưng có lẽ bạn sẽ không mang lại giá trị cao nhất cho tổ chức của mình nếu bạn không có các yêu cầu kinh doanh có thể đo lường và giám sát
  • Thuê những gì bạn cần - Các công ty như GoodData cung cấp các giải pháp SaaS cho phép bạn thanh toán khi bạn đi và nhận được lợi nhuận nhanh chóng trên dữ liệu của công ty bạn. Tại sao chi tiêu lớn cho một dự án trong một khu vực mới đối với bạn?

Dữ liệu lớn cuối cùng sẽ sống theo sự cường điệu. Đơn giản là có quá nhiều sức mạnh trong việc tổng hợp dữ liệu và điều chỉnh nhỏ dựa trên các mẫu được tìm thấy rất lớn.

Một ví dụ tuyệt vời sẽ là công việc được thực hiện bởi UPS được nêu bật trong một câu chuyện có dây Toán học thiên văn đằng sau công cụ mới của UPS để cung cấp các gói nhanh hơn. Hãy nhớ rằng có rất ít công ty hoạt động theo quy mô của UPS (nếu có) và những con số này sẽ không nhất thiết phải có ý nghĩa bên ngoài bối cảnh của UPS:

30 triệu đô la Chi phí cho UPS mỗi năm nếu mỗi tài xế lái xe chỉ một dặm mỗi ngày hơn mức cần thiết. Theo cùng logic đó, công ty tiết kiệm được 30 triệu đô la nếu mỗi tài xế tìm được cách lái xe ít hơn một dặm.

15 nghìn tỷ nghìn tỷ Số lượng các tuyến có thể có mà một tài xế chỉ cần 25 gói để giao có thể chọn. Như được minh họa bởi vấn đề nhân viên bán hàng du lịch cổ điển, hiện tượng toán học khiến việc tìm ra các tuyến giao hàng tốt nhất trở nên khó khăn được gọi là  vụ nổ tổ hợp .

55.000 Xe số lượng xe ô tô trọn gói trên xe lửa (xe tải màu nâu) trong đội tàu Mỹ của UPS. Nếu các số liệu liên quan đến việc xác định tuyến đường hiệu quả nhất cho một người lái xe có quy mô thiên văn, hãy tưởng tượng những con số đó tìm kiếm cho toàn bộ hạm đội.

85 triệu -Các số dặm Levis nói UPS' công cụ phân tích đang tiết kiệm trình điều khiển UPS mỗi năm.

16 triệu mũi số lượng giao hàng mà UPS thực hiện hàng ngày.

30 Tập hợp Số lượng tối đa inch UPS chỉ định người lái xe phải di chuyển để chọn gói tiếp theo. Điều này được thực hiện thông qua một hệ thống tỉ mỉ để tải các gói vào xe tải theo thứ tự mà chúng sẽ được giao.

200 triệu người Số lượng địa chỉ được ánh xạ bởi các trình điều khiển của UPS trên mặt đất.

74 Số lượng trang trong sách hướng dẫn dành cho trình điều khiển UPS nêu chi tiết các thực tiễn tốt nhất để tối đa hóa hiệu quả phân phối.

100 triệu người Giảm số phút mà xe tải UPS dành không hoạt động, một phần, công ty nói, với các cảm biến trên tàu giúp tìm ra khi nào trong quá trình giao hàng để bật và tắt xe tải.

200 Số lượng các điểm dữ liệu được theo dõi trên mỗi xe tải giao hàng để dự đoán các vấn đề bảo trì và xác định các cách hiệu quả nhất để vận hành các phương tiện.

|