Apache Hadoop 3.1: Bước nhảy vọt về dữ liệu lớn


Nguyễn Khánh Vân
1 năm trước
Hữu ích 4 Chia sẻ Viết bình luận 0
Đã xem 5808

Nguồn: Nvidia Blog Into the Woods: Drone này đi đâu khi không có GPS

Trường hợp sử dụng

Khi chúng ta ở ngoài trời, nhiều người trong chúng ta thường cảm thấy cần một chiếc máy ảnh - một chiếc đủ thông minh để theo dõi chúng ta, điều chỉnh độ cao địa hình và điều hướng trực quan qua các chướng ngại vật, trong khi quay video toàn cảnh. Ở đây, tôi đang nói về máy bay không người lái tự hành, rất giống với những chiếc xe tự lái. Sự khác biệt là chúng ta đang bắt đầu thấy sự phát triển của trí tuệ nhân tạo vào các trường hợp sử dụng hàng ngày, giá cả phải chăng, so với những chiếc xe tương đối đắt tiền. Những trường hợp sử dụng mới này có nghĩa là:

  • Họ sẽ cần xử lý tính toán song song để xử lý một lượng dữ liệu điên rồ (trực quan hoặc khác) trong thời gian thực để suy luận và đào tạo các thuật toán mạng thần kinh học sâu. Điều này giúp họ phân biệt giữa các đối tượng và trở nên tốt hơn với nhiều dữ liệu hơn. Hãy suy nghĩ như một bước nhảy vọt của việc xử lý tính toán gấp 100 lần do tính chất thời gian thực của các trường hợp sử dụng.
  • Họ sẽ cần các khung phần mềm học sâu để các nhà khoa học dữ liệu và kỹ sư dữ liệu có thể triển khai chúng dưới dạng các dịch vụ siêu nhỏ được đóng gói gần dữ liệu hơn và nhanh hơn - nghĩ như một bước nhảy vọt từ mất vài tuần đến mất vài phút để triển khai.
  • Họ sẽ tạo ra vô số dữ liệu để phân tích - suy nghĩ như một bước nhảy vọt từ quy mô petabyte sang quy mô exabyte.

Bước nhảy vọt

Gần đây, Roni Fontaine tại Hortonworks đã xuất bản một bài viết có tiêu đề Làm thế nào Apache Hadoop 3 tăng giá trị so với Apache Hadoop 2 , nắm bắt các chủ đề cấp cao. Bây giờ, chúng tôi vui mừng thông báo về tính khả dụng chung chính thức của Apache Hadoop 3.1 . Điều này có vẻ như là một bước nhỏ, nhưng đây là một bước nhảy vọt cho hệ sinh thái dữ liệu lớn. Apache Hadoop 3.1 , xây dựng trên Apache Hadoop 3.0 , là cốt lõi cho phép công nghệ dữ liệu lớn khi chúng ta tiến vào cuộc cách mạng công nghiệp lần thứ tư. Loạt blog này xuất hiện từ loạt Data Lake 3.0 năm ngoái và trong loạt bài này, chúng tôi sẽ nắm bắt công nghệ của chúng tôi, kết quả hoạt động và các blog chung với các đối tác có giá trị trong hệ sinh thái.

Kiến trúc cấp cao

Sơ đồ dưới đây chụp các khối xây dựng với nhau ở mức cao. Nếu bạn phải buộc nó trở lại một công ty máy bay không người lái tự chế hư cấu, công ty sẽ thu thập hàng tấn hình ảnh thô từ máy ảnh tích hợp của máy bay không người lái thử nghiệm cho thị giác máy tính. Những hình ảnh này có thể được lưu trữ trong hồ dữ liệu Apache Hadoop theo cách tiết kiệm chi phí (với mã hóa xóa) nhưng tính khả dụng cao (nhiều nút tên chờ). Thay vì cung cấp máy GPU cho mỗi nhà khoa học dữ liệu, thẻ GPU được tập hợp trên toàn cụm để nhiều nhà khoa học dữ liệu truy cập. Thẻ GPU trong mỗi máy chủ có thể được cách ly để chia sẻ giữa nhiều người dùng.

Hỗ trợ khối lượng công việc được chứa trong Docker có nghĩa là các nhà khoa học dữ liệu / kỹ sư dữ liệu có thể mang các khung học tập sâu đến hồ dữ liệu Apache Hadoop và không cần phải có một cụm tính toán / GPU riêng biệt. GPU pooling cho phép ứng dụng các thuật toán mạng nơ-ron học sâu và đào tạo các mô hình sử dụng nhiều dữ liệu bằng cách sử dụng dữ liệu được thu thập trong hồ dữ liệu với tốc độ nhanh hơn gần 100 lần so với CPU thông thường.

Nếu khách hàng muốn tập hợp các tài nguyên của GPU (mảng cổng lập trình trường) thay vì GPU, điều này cũng có thể có trong Apache Hadoop 3.1. Ngoài ra, việc sử dụng nhãn ái lực và chống ái lực cho phép chúng tôi kiểm soát cách chúng tôi triển khai các dịch vụ siêu nhỏ trong cụm - một số thành phần có thể được đặt thành chống ái lực để chúng luôn được triển khai trong các máy chủ vật lý riêng biệt.

Bây giờ, các mô hình học sâu được đào tạo có thể được triển khai trong máy bay không người lái ngoài trời, sau đó sẽ đưa dữ liệu trở lại hồ dữ liệu. Ngoài ra, API dịch vụ gốc YARN trưng bày khung YARN mạnh mẽ theo chương trình và theo cách thức templatized. Đây là chìa khóa để xây dựng một hệ sinh thái các dịch vụ siêu nhỏ trên hồ dữ liệu Apache Hadoop do YARN cung cấp.

Chìa khóa chính

Tóm lại, kiến ​​trúc Apache Hadoop 3.x cho phép các trường hợp sử dụng khác nhau:

  • Nhanh nhẹn : Hỗ trợ container cung cấp sự cô lập và đóng gói khối lượng công việc và cho phép chúng tôi nâng / chuyển các khối lượng công việc mới cũng như các khung học tập sâu (TensorFlow, Caffe, v.v.). Điều này cho phép kiến ​​trúc microservice chuyên sâu dữ liệu thông qua API dịch vụ YARN nguyên gốc và đưa các dịch vụ micros micros đến gần hơn với nơi có dữ liệu. Điều này cũng tránh tạo ra một cụm khác để lưu trữ các dịch vụ siêu nhỏ khỏi dữ liệu.
  • Các trường hợp sử dụng mới, chẳng hạn như gộp / tách đơn vị xử lý đồ họa (GPU) : GPU là tài nguyên đắt tiền và chúng tôi muốn cho phép các nhà khoa học dữ liệu của chúng tôi chia sẻ chúng nhanh chóng để chứng minh các khái niệm. Việc gộp chung GPU và cách ly giúp dân chủ hóa việc truy cập trên toàn công ty hoặc bộ phận.
  • Tổng chi phí sở hữu thấp : Mã hóa xóa giúp giảm chi phí lưu trữ từ 200% đến 50% khi khối lượng dữ liệu tăng lên.

Hãy theo dõi loạt blog này - chúng tôi sẽ mang lại nhiều nội dung thú vị! Bạn cũng có thể đọc thêm về Hadoop 3.1 tại đây.

Hữu ích 4 Chia sẻ Viết bình luận 0
Đã xem 5808