Một ít HDFS


Bùi Nhã Trang
2 năm trước
Hữu ích 4 Chia sẻ Viết bình luận 0
Đã xem 1123

Hadoop là một khung công tác nguồn mở cho phép chúng tôi lưu trữ và xử lý Dữ liệu lớn trong một môi trường phân tán trên các cụm máy tính. Nó có nhiều điểm tương đồng với các hệ thống tệp phân tán hiện có. Tuy nhiên, sự khác biệt từ các hệ thống tệp phân tán khác là rất đáng kể, vì nó cung cấp quyền truy cập hiệu suất cao vào dữ liệu trên các cụm Hadoop. Giống như các công nghệ khác liên quan đến Hadoop, HDFS đã trở thành một công cụ chính để quản lý các nhóm Dữ liệu lớn và hỗ trợ các ứng dụng phân tích Dữ liệu lớn. Đây là hệ thống lưu trữ chính được sử dụng bởi các ứng dụng Hadoop.

HDFS có khả năng chịu lỗi cao và được thiết kế để triển khai trên phần cứng giá rẻ. Nó cung cấp quyền truy cập thông lượng cao vào dữ liệu ứng dụng và phù hợp với các ứng dụng có tập dữ liệu lớn. HDFS sử dụng kiến ​​trúc chính / phụ trong đó bản gốc bao gồm một NameNode duy nhất quản lý siêu dữ liệu hệ thống tệp và một hoặc nhiều DataNodes nô lệ lưu trữ dữ liệu thực tế.

NameNodes và DataNodes là gì?

NameNode là trung tâm của hệ thống tệp HDFS. Nó giữ cây thư mục của tất cả các tệp trong hệ thống tệp và theo dõi nơi lưu trữ dữ liệu tệp trên toàn cụm. Nó không lưu trữ dữ liệu của các tập tin này. NameNode là một điểm thất bại duy nhất cho cụm HDFS. Khi NameNode ngừng hoạt động, hệ thống tệp sẽ ngoại tuyến.

DataNode chịu trách nhiệm lưu trữ các tệp trong HDFS. Nó quản lý các khối tập tin trong nút. Nó gửi thông tin đến NameNode về các tệp và khối được lưu trữ trong nút đó và trả lời NameNode cho tất cả các hoạt động của hệ thống tệp. Một hệ thống tệp chức năng có nhiều DataNode, với dữ liệu được sao chép trên chúng.

Trong HDFS, một nút tên đã cho quản lý các hoạt động không gian tên hệ thống tệp như mở, đóng và đổi tên tệp và thư mục. Một nút tên cũng ánh xạ các khối dữ liệu thành các nút dữ liệu, xử lý các yêu cầu đọc và ghi từ các máy khách HDFS. Các nút dữ liệu cũng tạo, xóa và sao chép các khối dữ liệu theo hướng dẫn từ nút tên quản trị.

Kiến trúc HDFS

HDFS bao gồm các cụm nút được kết nối với nhau, nơi các tệp và thư mục cư trú. Một cụm HDFS có NameNode quản lý không gian tên hệ thống tệp và điều chỉnh quyền truy cập của khách hàng vào các tệp. Ngoài ra, DataNodes lưu trữ dữ liệu dưới dạng các khối trong tệp.

Mục tiêu của HDFS

  • Phát hiện lỗi và phục hồi . Phát hiện lỗi và phục hồi nhanh chóng, tự động từ chúng là mục tiêu kiến ​​trúc cốt lõi.
  • Bộ dữ liệu khổng lồ . HDFS nên có hàng trăm nút trên mỗi cụm để quản lý các ứng dụng có bộ dữ liệu khổng lồ.
  • Mô hình mạch lạc đơn giản . Các ứng dụng HDFS cần một mô hình truy cập ghi một lần đọc cho nhiều tệp. Một tập tin một khi được tạo, viết và đóng không cần phải thay đổi ngoại trừ các phần phụ.
  • Bộ dữ liệu lớn . Vì HDFS được điều chỉnh để hỗ trợ các tệp lớn, nên nó sẽ hỗ trợ hàng chục triệu tệp trong một trường hợp.
Hữu ích 4 Chia sẻ Viết bình luận 0
Đã xem 1123