8

Dữ liệu lớn là bất kỳ dữ liệu nào mà khi bạn chồng nó lên tới đám mây. Đây là tuyên bố mở đầu cho Jack Norris, CMO của MapR tại Hội nghị Cloud Connect ở Santa Clara hôm nay. Ông đã diễn giải các nhà phân tích nhưng đó là khung lý tưởng cho Đường đua dữ liệu lớn tại một hội nghị trên đám mây.

Một mô hình mới

Theo Norris, dữ liệu lớn và Cloud là một sự thay đổi mô hình và thay đổi kiến ​​trúc liên quan đến việc đưa dữ liệu và sức mạnh tính toán thành một đơn vị xử lý lớn.

Norris đã đào sâu vào vấn đề này bằng cách mô tả thách thức đối với doanh nghiệp ngày nay: Việc tách dữ liệu và tính toán khi dữ liệu phát triển ngày càng mất nhiều thời gian hơn. Ngày càng nhiều, các tổ chức cần phải

  • Xử lý nhanh hơn - Mọi thứ đang diễn ra nhanh hơn mỗi ngày và các doanh nghiệp cạnh tranh cần theo kịp
  • Kết hợp nhiều nguồn dữ liệu - Các tổ chức cần trộn dữ liệu để hiểu rõ hơn. Dữ liệu đó không thể được lưu trữ ở một nơi và thậm chí có thể ở bên ngoài tổ chức (chẳng hạn như trên đám mây)
  • Mở rộng phân tích - Có các giới hạn đối với các hệ thống và tổ chức truyền thống cần vượt ra ngoài phân tích dựa trên SQL truyền thống trong quá khứ

Những nhu cầu này đã khiến các tổ chức như Google và các tổ chức khác phát triển các công cụ của riêng họ hiện là một hệ sinh thái dữ liệu lớn. Norris đã sử dụng hình ảnh bên phải để mô tả hệ sinh thái này.

Hadoop trong đám mây

Phần thú vị nhất của câu chuyện dữ liệu lớn cho cài đặt này là cách Hadoop và dữ liệu lớn được sử dụng trong Đám mây. Đối với nhiều công ty đi theo hướng này, Hadoop trong đám mây là một cơ sở hạ tầng rất linh hoạt. Mặc dù chúng ta thường nghe về các câu hỏi về hiệu suất với Cloud, Norris đã đưa ra  bản ghi MinuteSort hiện tại  là 1,5 TB, được thiết lập bởi Google làm việc với MapR như một bằng chứng cho thấy hiệu suất của Cloud ngày càng ít hơn.

Nó cần nhiều dữ liệu hơn

Trường hợp Norris đưa ra một số điểm mạnh nhất của mình đi kèm với sự tranh cãi rằng dữ liệu lớn hơn hiện đang lấp đầy những khoảng trống nơi chúng ta thường sử dụng các thuật toán phức tạp. Nhiều điều, giống như hành vi của con người, đã được coi là quá phức tạp để hiểu hoàn toàn. Norris chỉ ra việc sử dụng các trường hợp sử dụng như phát hiện gian lận, xu hướng cúm và công cụ đề xuất Netflix để chỉ ra rằng ngay cả hành vi phức tạp nhất cũng có thể dự đoán được khi có đủ dữ liệu vào bảng.

Nếu khái niệm này là đúng, thì khả năng thêm dữ liệu bổ sung theo cách hiệu quả về chi phí sẽ trở thành một trong những chiến lược doanh nghiệp quan trọng nhất hiện có. Thật dễ dàng để thấy nơi Cloud đóng vai trò quan trọng trong việc cung cấp một nơi để dữ liệu đó được tìm kiếm, tiếp cận và kết hợp hiệu quả.

Norris đã cung cấp các ví dụ sau về nơi Hadoop đang được sử dụng trong Đám mây:

  • Quảng cáo nhắm mục tiêu / phân tích nhấp chuột
  • Bảo mật chống vi-rút, phát hiện gian lận và nhận dạng hình ảnh
  • Khớp mẫu / đề xuất
  • Kho dữ liệu / BI
  • Tin học sinh học như phân tích bộ gen
  • Mô phỏng tài chính như Monte Carlo
  • Xử lý tệp như thay đổi kích thước hình ảnh và mã hóa video
  • Lập chỉ mục web

Bài học dữ liệu lớn

Đây là một cuộc nói chuyện rất toàn diện và thu hút một đám đông khá lớn cho ngày cuối cùng của sự kiện. Norris đã đóng cửa với những bài học về dữ liệu lớn của Cloud từ Đám mây:

  • Dữ liệu lớn đòi hỏi một cách tiếp cận mới
  • Hadoop là một sự thay đổi mô hình
  • Dễ dàng bắt đầu với Hadoop trong Đám mây
  • Quy mô cụm lên xuống trong Đám mây
  • Chỉ trả tiền cho những gì bạn sử dụng
  • Mở rộng dữ liệu để phân tích
  • Kết hợp các nguồn dữ liệu
  • Ứng dụng mới từ nguồn dữ liệu mới
  • Phân tích mới
  • Nhiều ứng dụng phù hợp với Hadoop

|