Hiểu biết sâu sắc về dữ liệu lớn


Nguyễn Hương Xuân
3 năm trước
Hữu ích 5 Chia sẻ Viết bình luận 0
Đã xem 1366

Bài viết này được giới thiệu trong Hướng dẫn DZone mới về Xử lý dữ liệu lớn, Tập III. Nhận bản sao miễn phí của bạn cho các bài viết sâu sắc hơn, số liệu thống kê ngành và nhiều hơn nữa. 

Để thu thập những hiểu biết về tình trạng của Dữ liệu lớn ngày hôm nay, chúng tôi đã nói chuyện với 15 giám đốc điều hành cung cấp các sản phẩm và dịch vụ của Dữ liệu lớn cho khách hàng. Cụ thể, chúng tôi đã nói chuyện với:

  • Uri Maoz, Trưởng phòng Bán hàng và Tiếp thị Hoa Kỳ, Anodot
  • Dave McCrory, CTO, Basho
  • Carl Tsukahara, CMO, Birst
  • Bob Vaillancourt, Phó Chủ tịch, CFB Strategies
  • Mikko Jarva, CTO Dữ liệu thông minh, Comptel
  • Sham Mustafa, đồng sáng lập và CEO, Correlation One
  • Andrew Brust, Giám đốc chiến lược tiếp thị cao cấp, Datameer
  • Tarun Thakur, CEO / Đồng sáng lập, Datos IO
  • Guy Yehiav, Giám đốc điều hành, Giáo sư
  • Hjalmar Gislason, Phó chủ tịch dữ liệu, Qlik
  • Guy Levy-Yurista, Trưởng phòng Sản phẩm, Sisense
  • Girish Pancha, CEO, StreamSets
  • Ciaran Dynes, Phó chủ tịch sản phẩm, Talend
  • Kim Hanmark, Giám đốc, Dịch vụ chuyên nghiệp, TARGIT
  • Dennis Duckworth, Giám đốc Tiếp thị Sản phẩm, VoltDB .

Những phát hiện chính

01 Các phím để làm việc với Dữ liệu lớn phải được chuẩn bị cho:

  1. số lượng nguồn mà dữ liệu đang đến;
  2. khối lượng dữ liệu cao;
  3. Các dạng dữ liệu khác nhau;
  4. tốc độ mà dữ liệu đang đến; và,
  5. độ co giãn của cơ sở dữ liệu, doanh nghiệp và ứng dụng.

Các giải pháp sáng tạo đang trở nên có sẵn để giải quyết khối lượng và độ co giãn của dữ liệu, cũng như tích hợp các loại dữ liệu khác nhau (không cấu trúc, bán cấu trúc và cấu trúc) từ các nguồn khác nhau. Điều quan trọng là tìm hiểu trước những gì bạn muốn nhận được từ dữ liệu và sau đó lên kế hoạch phù hợp để đảm bảo dữ liệu được vận hành để cung cấp giá trị cho người dùng cuối thông thường trong môi trường công ty.

02 Những thay đổi quan trọng nhất đối với các công cụ và công nghệ Dữ liệu lớn trong năm qua là:

  1. Spark thay thế MapReduce và Hadoop;
  2. học máy và điện toán phân cụm đi đầu;
  3. đám mây cho phép các bộ dữ liệu lớn hơn với giá thấp hơn bao giờ hết; và,
  4. các công cụ mới giúp phân tích các bộ dữ liệu lớn, khác nhau thậm chí nhanh hơn.

Spark đã hút năng lượng ra khỏi một số khuôn khổ mới hơn trong khi đám mây của Google đã giúp cho việc học máy và học nhân tạo có thể truy cập được. Rất nhiều công ty đang sử dụng Apache Spark làm nền tảng Dữ liệu lớn của họ vì nó phân tích và xử lý các bộ dữ liệu nhanh hơn. Đám mây đã cung cấp các tùy chọn triển khai nổi bật cho các công ty không thuộc ngành kinh doanh CNTT. Dữ liệu lớn là chi phí hoạt động thay vì chi phí vốn để có được tài trợ dễ dàng hơn. Cloud và BigData song hành cùng nhau và các nhà cung cấp đám mây đang đảm bảo điều này bằng cách phát triển các công cụ giúp Big Data có thể truy cập được cho các chuyên gia kinh doanh thay vì chỉ các nhà khoa học dữ liệu.

03 15 người được hỏi của chúng tôi đã đề cập đến 29 giải pháp kỹ thuật khác nhau mà họ sử dụng cho các dự án Dữ liệu lớn. Các giải pháp kỹ thuật được nhắc đến nhiều nhất là:

  1. Mã nguồn mở;
  2. ApacheSpark;
  3. Hadoop;
  4. Kafka; và,
  5. Con trăn

04 Người trả lời của chúng tôi đã cung cấp một loạt các trường hợp sử dụng và ví dụ về cách Big Data đang được sử dụng để giải quyết các vấn đề trong thế giới thực. Các trường hợp sử dụng được đề cập thường xuyên nhất liên quan đến:

  1. phân tích thời gian thực;
  2. IoT; và,
  3. phân tích dự đoán.

Phân tích thời gian thực đang được sử dụng bởi thương mại điện tử và công ty viễn thông để cung cấp các dịch vụ được cá nhân hóa hơn, giá cả năng động và trải nghiệm của khách hàng. Dữ liệu thời gian thực rõ ràng có giá trị hơn đối với khách hàng và người dùng cuối và do đó tốc độ nhập và phân tích là chính. IoT là phổ biến nhất trong ngành công nghiệp và tiện ích để theo dõi việc sử dụng, sản xuất, bảo trì dự đoán và ngừng hoạt động để tối ưu hóa hiệu suất, năng suất và hiệu quả. Các phân tích dự đoán đang được sử dụng để bảo trì nhằm giảm thời gian chết trong các hãng hàng không, tua-bin và các cơ chế phức tạp khác, cũng như Phố Wall để dự đoán giá hàng hóa dựa trên dữ liệu IoT được thu thập từ nông dân kết hợp ở Trung Tây. Cái sau là một ví dụ tuyệt vời về cách cùng một dữ liệu được tích hợp và phân tích để đáp ứng nhu cầu của một số người dùng cuối.

05 Vấn đề phổ biến nhất ảnh hưởng đến các dự án Dữ liệu lớn là thiếu tầm nhìn,mặc dù điều này đã được thể hiện theo nhiều cách bởi người trả lời. Thiếu tài năng và an ninh cũng được đề cập bởi nhiều người trả lời. Các công ty chậm chạp trong việc xem Big Data có thể cung cấp cho họ lợi thế kinh doanh như thế nào và họ có xu hướng mơ hồ về những gì họ muốn đạt được. Các công ty được phỏng vấn thường xuyên làm tư vấn viên, giúp khách hàng của họ hiểu những gì họ có thể và không thể làm với Big Data để giải quyết các vấn đề kinh doanh cụ thể và cách làm cho dữ liệu họ có thể thực hiện được cho doanh nghiệp của họ. Các mục tiêu và kỳ vọng về chất lượng dữ liệu có thể không thực tế do sự không nhất quán của dữ liệu và sự chuẩn bị cần thiết để phân tích. Các công ty không biết những gì họ không biết, và thiếu tài năng có trình độ trên thị trường và trong doanh nghiệp. Sự thiếu hụt kỹ năng sẽ không biến mất. Ngoài ra, di chuyển dữ liệu xung quanh là không an toàn. Bạn cần một người hiểu cơ sở hạ tầng và các giao thức bảo mật; tuy nhiên, những người này gần như ít và xa giữa các chuyên gia Dữ liệu lớn.

06 Có một câu trả lời nhất quán về tương lai của Big Data, dữ liệu nhiều hơn, nhanh hơn, ở nhiều định dạng hơn, từ nhiều nguồn hơn, với phân tích nhanh hơn, cũng như tích hợp và ra quyết định theo thời gian thực để giải quyết vấn đề trước khi chúng xảy ra . Dữ liệu là dầu của thế kỷ 21. Khoảng cách đổi mới đang thu hẹp. Nhiều doanh nghiệp sẽ tập trung vào những gì bạn cần đạt được để xem ROI trên các sáng kiến ​​Dữ liệu lớn của họ. IoT sẽ thúc đẩy một lượng lớn dữ liệu được thu thập và lưu trữ. Như vậy, chúng ta sẽ cần quyết định nhanh chóng phân tích dữ liệu nào, lưu trữ và vứt bỏ. Mặc dù dữ liệu ngày càng lớn hơn và nhanh hơn, chúng tôi cần đảm bảo an ninh, quản trị, giám sát và chính sách được áp dụng để bảo vệ dữ liệu và thông tin nhận dạng cá nhân (PII).

07 Mối quan tâm lớn nhất xung quanh tình trạng Dữ liệu lớn hiện nay là:

  1. quyền riêng tư và bảo mật;
  2. thiếu sự hợp tác và một tâm lý hệ sinh thái; và,
  3. sự cần thiết phải cung cấp giá trị kinh doanh và giải quyết vấn đề.

Chúng ta cần thiết lập các tiêu chuẩn để mọi người tham gia là một phần của hệ sinh thái Dữ liệu lớn giải quyết các xung đột giữa các giao thức, truyền dữ liệu và các nguồn dữ liệu khác nhau. Khi chúng tôi kết nối dữ liệu giữa các thực thể khác nhau, chúng tôi cần đảm bảo các kết nối được an toàn ở cả hai đầu.

08 Có rất ít sự liên kết liên quan đến những gì các nhà phát triển cần biết để thành công khi làm việc trên các dự án Big Data. Nhìn chung, các nhà phát triển cần phải có các nguyên tắc và kỹ năng lập trình truyền thống dẫn đến việc tạo ra các ứng dụng cứng đá cứng, trong khi vẫn nhanh nhẹn và chuẩn bị thay đổi, vì điều đó là không thể tránh khỏi.Các công cụ và ngôn ngữ được khuyên dùng nhất là Java, SQL, Scala, Spark, C, R và Python. Tìm hiểu hệ sinh thái cho các gói bạn kiểm soát. Phân tách nhập từ phân tích dữ liệu và thoải mái hơn với khoa học dữ liệu. Tăng cường số liệu thống kê và áp dụng các kỹ năng mã hóa toán học. Chọn mã hóa thống kê vì đó là nền tảng của khoa học dữ liệu. Hiểu kiến ​​trúc và cách xây dựng một hệ thống từ cơ sở lên quy mô và xử lý lượng lớn dữ liệu. Cuối cùng, đi đến ban công và xem những người khác đang sử dụng các công cụ theo cách không thiên vị. Đảm bảo người dùng cuối của bạn đang nhận được giá trị từ dữ liệu bạn đang cung cấp.

09 Hỏi người trả lời những gì họ có trong đầu về Big Data đã đưa ra một bộ câu hỏi và suy nghĩ đa dạng:

  • Khi thế hệ công cụ tiếp theo xuất hiện, chúng ta cần lưu ý điều gì từ góc độ ứng dụng liên quan đến đám mây, quy mô, mã hóa và bảo mật ?
  • Một số trường hợp sử dụng mới được cung cấp khả năng của các nền tảng và công cụ là gì? Cung cấp cho các nhà phát triển cơ hội sử dụng tất cả các tiện ích mở rộng mới và xem những gì họ có thể đưa ra.
  • Làm thế nào tinh vi và người mua được trong các nhà phát triển của Big Data?
  • Trường hợp thế giới khoa học dữ liệu / phân tích dự đoán phù hợp với trí tuệ kinh doanh ?
  • Các hệ thống sẽ có thể xử lý kích thước, loại và tốc độ của dữ liệu. Nếu các công cụ phân tích không theo kịp các thay đổi, chúng sẽ rơi bên lề.
  • Dữ liệu của Big Big trực tiếp được thay thế bằng dữ liệu.
  • Mọi người đang đặt Dữ liệu lớn của họ ở đâu để thực hiện phân tích trên đám mây, tại chỗ, lai, cục bộ, toàn cầu?
  • Blockchain thì sao?  Đó là trên radar của chúng tôi vì nó sẽ dẫn đến một sự thay đổi trên biển cho các giao dịch kinh tế. Đây là chủ đề lớn tiếp theo được thổi phồng.

Để biết thêm thông tin chi tiết về học máy, mạng lưới thần kinh, sức khỏe dữ liệu và hơn thế nữa, hãy lấy bản sao miễn phí Hướng dẫn DZone mới về Xử lý dữ liệu lớn, Tập III!

Hữu ích 5 Chia sẻ Viết bình luận 0
Đã xem 1366