Helpex - Trao đổi & giúp đỡ Đăng nhập

Bảo vệ khoản đầu tư Hadoop của bạn

Phan Minh Nhân
· 02:00 28/08/2013
4 giờ trước
Sự cường điệu và ồn ào xung quanh Dữ liệu lớn trong ngành công nghệ là ở cấp độ thiên văn. Có nhiều yếu tố thúc đẩy điều này (cả về kỹ thuật và con người), nhưng tôi sẽ không đề cập đến vấn đề này ở đây. Thực tế là Big Data (xác định nó là bạn muốn) vẫn ở đây và nhiều tổ chức cần tìm đường đến xứ sở lưu trữ dữ liệu không đáy và máy tính phân tích vô biên trong đó không có byte dữ liệu nào bị vứt đi và mọi câu hỏi đều có thể hỏi và trả lời về dữ liệu của bạn Chà, ít nhất nếu bạn là Facebook hay Google.

Hadoop là ứng cử viên hàng đầu cho phép các tổ chức tận dụng kinh tế và tăng dần lợi thế của lưu trữ phân tán và xử lý phân tán có thể mở rộng để giải quyết các thách thức về Dữ liệu lớn phía trước. Những ngày mua máy chủ quy mô theo chiều dọc đắt tiền và hệ thống lưu trữ đắt tiền đã qua. Hadoop bắt đầu từ sự khởi đầu khiêm tốn của Map Giảm và lưu trữ phân tán (HDFS) và giờ đây nó đã mở rộng để chạm và tích hợp với tất cả các góc của kết cấu máy tính doanh nghiệp từ trí tuệ kinh doanh thời gian thực đến ETL và lưu trữ dữ liệu. Ngày nay, hầu hết mọi công ty có một số loại giải pháp phân tích cơ sở dữ liệu hoặc phần mềm hiện đã đặt từ "Lớn" trong tiêu đề của họ và cung cấp một số mức độ tích hợp Hadoop. Không có gì thực sự xấu về điều đó,

Hadoop thể hiện rất nhiều tiềm năng để giải quyết các vấn đề mà trước đây đòi hỏi các hệ thống độc quyền và đắt tiền hơn nhiều. Lưu ý rằng Hadoop ở nhiều khía cạnh không kém phần phức tạp (và hoàn toàn không phải là miễn phí) từ các nền tảng Big Data sở hữu trước đây và hiện tại, vì Hadoop có những thách thức phức tạp của riêng mình như nhiều bộ phận chuyển động phần cứng phân tán và ít nhiều bị lỏng lẻo bộ sưu tập của nhiều dự án nguồn mở. Hadoop có rất nhiều bộ óc sáng tạo và các công ty thúc đẩy sự phát triển nhanh chóng của nó. Nhưng nó không phải là một giải pháp cắm và chơi cũng không phải là một kích thước phù hợp với tất cả các giải pháp bởi bất kỳ sự tưởng tượng nào. Hadoop không hề rẻ bằng bất kỳ biện pháp nào, nhưng với Hadoop, bạn có nhiều cơ hội hơn để phát triển hệ thống Dữ liệu lớn của mình khi bạn đi và với tiềm năng có ít nhà cung cấp khóa hơn và linh hoạt hơn so với số tiền bạn trả (lưu ý, Tôi sử dụng tiềm năng thế giới ở đây). Giá trị bạn nhận được từ Hadoop phụ thuộc vào kỳ vọng của bạn và vào khoản đầu tư của bạn vào con người và đào tạo cùng với các quyết định chính mà bạn đưa ra trên đường đi.

Vậy làm thế nào để một tổ chức bắt đầu con đường tìm ra cách Hadoop phù hợp với hệ sinh thái hiện tại của họ và đầu tư vào Hadoop bao nhiêu và nhanh như thế nào? Hãy xem liệu chúng ta có thể vượt qua một số câu hỏi, thử thách và trải nghiệm phổ biến mà người ta sẽ trải qua khi họ bắt đầu nhiệm vụ Hadoop không.

Trước tiên, bạn cần hiểu những gì làm cho Hadoop đánh dấu.
Điều quan trọng là phải hiểu rằng ngoài cổng Hadoop không nhất thiết phải phát minh ra bất cứ thứ gì chưa tồn tại trước đây trong các sản phẩm khác. Có một số khái niệm mới trong Hadoop, nhưng nói chung Hadoop không cung cấp gì hoàn toàn mới. Có một số đổi mới thú vị trong Hadoop, nhưng về cơ bản Hadoop là về một vài khái niệm chính. Nó được thành lập dựa trên khái niệm điện toán phân tán và lưu trữ phân tán sử dụng phần cứng hàng hóa. Nhưng cuối cùng, Hadoop là về việc phát triển lưu trữ và xử lý dữ liệu của bạn theo cách tăng dần và tiết kiệm bằng cách sử dụng công nghệ nguồn mở phần lớn và ngoài phần cứng. Lưu ý, tất nhiên nguồn mở không có nghĩa là miễn phí.

Được rồi, vậy vấn đề nào chúng ta muốn giải quyết với Hadoop? Xin đừng nói tất cả.
Một trong những điều tốt đẹp về Hadoop là các tổ chức thuộc mọi quy mô đều có thể áp dụng nó. Bạn có thể là một người khởi nghiệp nhỏ với ý tưởng đơn giản và chạy Hadoop của bạn trên một cụm nhỏ trên Amazon hoặc bạn có thể là một doanh nghiệp lớn hơn và có một cụm lớn thực hiện xử lý cao cấp, như thu thập dữ liệu và lập chỉ mục toàn bộ web. Hadoop có thể được sử dụng trong nhiều tình huống như lưu trữ khối lượng dữ liệu lớn trên kho lưu trữ hàng hóa hoặc nó có thể được sử dụng để tính toán phức tạp hơn nhiều, ETL, NoQuery và xử lý phân tích.

Đối với các tổ chức lớn hơn đang bắt đầu với Dữ liệu lớn, điều quan trọng là xác định một số vấn đề chính bạn muốn giải quyết với Hadoop và điều đó có thể phù hợp và tích hợp tốt với các hệ thống cũ. Hadoop đặc biệt giỏi trong việc nắm giữ dữ liệu phi cấu trúc như nhật ký web hoặc người dùng mà bạn có thể muốn giữ ở định dạng thô để phân tích và kiểm toán sau này, ví dụ. Điều quan trọng thường là bắt đầu nhỏ và giải quyết một số vấn đề cụ thể trên các tập dữ liệu cụ thể và sau đó mở rộng ứng dụng Hadoop của bạn khi bạn đi. Điều này bao gồm việc làm quen với nhiều gói lập trình và DSL có thể được sử dụng để xử lý dữ liệu Hadoop.

Này, trong một vũ trụ Dữ liệu lớn, chúng ta không bao giờ vứt bỏ bất cứ thứ gì.
Một số cuộc nói chuyện xoay quanh Big Data thường đề cập đến cách ứng dụng điển hình của Hadoop là luôn lưu trữ mọi thứ mãi mãi. Rõ ràng điều này là không thực tế. Bây giờ, nhiều nhà cung cấp đang cung cấp phần mềm và phần cứng cho Hadoop rất thích bạn thử làm điều này, nhưng thực tế là bạn vẫn cần hiểu giới hạn dữ liệu của mình và có chính sách rõ ràng và thời gian để sống. Hadoop có thể cho phép bạn mở rộng quy mô lưu trữ của bạn thành petabyte, nhưng không có bữa trưa miễn phí ở đây. Ngoài ra, một khía cạnh quan trọng trong vấn đề này là hiểu định dạng bạn lưu trữ dữ liệu của mình trong Hadoop. Một lần nữa ở đây, bạn nghe thấy rất nhiều cuộc nói chuyện về việc lưu trữ tất cả dữ liệu của bạn ở "định dạng thô" để bạn có thể có tất cả các chi tiết để trích xuất thông tin sâu từ dữ liệu của bạn trong tương lai. Trong khi điều này nghe có vẻ tuyệt vời trong lý thuyết, một lần nữa điều này không thực tế trong hầu hết các trường hợp. Trong thực tế, bạn có thể giữ một số dữ liệu ở định dạng thô, nhưng thông thường bạn phải chuyển đổi dữ liệu Hadoop của mình sang các định dạng khác bên cạnh các tệp trình tự HDFS không có cấu trúc, chẳng hạn. Cấu trúc không thành vấn đề khi bạn tham gia vào các phân tích phức tạp hơn trong Hadoop. Lưu trữ dữ liệu của bạn trong HDFS cũng thường có nghĩa là chuyển đổi nó thành các cửa hàng cột bán cấu trúc để sử dụng bởi các công cụ như Hive và HBase và các công cụ truy vấn khác, để có hiệu suất tốt hơn. Vì vậy, cấu trúc có vấn đề và mong muốn dữ liệu của bạn được lưu trữ trong Hadoop ở nhiều định dạng hoặc ít nhất là được chuyển đổi thông qua ETL dựa trên Hadoop thành các định dạng khác với định dạng thu thập "thô". Tất cả điều này thêm vào ngày càng nhiều yêu cầu lưu trữ. Vì vậy, hãy chắc chắn rằng bạn hiểu toán để kích thước đúng nhu cầu lưu trữ Hadoop của bạn. nhưng thông thường bạn phải chuyển đổi dữ liệu Hadoop của mình sang các định dạng khác ngoài các tệp trình tự HDFS không có cấu trúc, chẳng hạn. Cấu trúc không thành vấn đề khi bạn tham gia vào các phân tích phức tạp hơn trong Hadoop. Lưu trữ dữ liệu của bạn trong HDFS cũng thường có nghĩa là chuyển đổi nó thành các cửa hàng cột bán cấu trúc để sử dụng bởi các công cụ như Hive và HBase và các công cụ truy vấn khác, để có hiệu suất tốt hơn. Vì vậy, cấu trúc có vấn đề và mong muốn dữ liệu của bạn được lưu trữ trong Hadoop ở nhiều định dạng hoặc ít nhất là được chuyển đổi thông qua ETL dựa trên Hadoop thành các định dạng khác với định dạng thu thập "thô". Tất cả điều này thêm vào ngày càng nhiều yêu cầu lưu trữ. Vì vậy, hãy chắc chắn rằng bạn hiểu toán để kích thước đúng nhu cầu lưu trữ Hadoop của bạn. nhưng thông thường bạn phải chuyển đổi dữ liệu Hadoop của mình sang các định dạng khác ngoài các tệp trình tự HDFS không có cấu trúc, chẳng hạn. Cấu trúc không thành vấn đề khi bạn tham gia vào các phân tích phức tạp hơn trong Hadoop. Lưu trữ dữ liệu của bạn trong HDFS cũng thường có nghĩa là chuyển đổi nó thành các cửa hàng cột bán cấu trúc để sử dụng bởi các công cụ như Hive và HBase và các công cụ truy vấn khác, để có hiệu suất tốt hơn. Vì vậy, cấu trúc có vấn đề và mong muốn dữ liệu của bạn được lưu trữ trong Hadoop ở nhiều định dạng hoặc ít nhất là được chuyển đổi thông qua ETL dựa trên Hadoop thành các định dạng khác với định dạng thu thập "thô". Tất cả điều này thêm vào ngày càng nhiều yêu cầu lưu trữ. Vì vậy, hãy chắc chắn rằng bạn hiểu toán để kích thước đúng nhu cầu lưu trữ Hadoop của bạn. Cấu trúc không thành vấn đề khi bạn tham gia vào các phân tích phức tạp hơn trong Hadoop. Lưu trữ dữ liệu của bạn trong HDFS cũng thường có nghĩa là chuyển đổi nó thành các cửa hàng cột bán cấu trúc để sử dụng bởi các công cụ như Hive và HBase và các công cụ truy vấn khác, để có hiệu suất tốt hơn. Vì vậy, cấu trúc có vấn đề và mong muốn dữ liệu của bạn được lưu trữ trong Hadoop ở nhiều định dạng hoặc ít nhất là được chuyển đổi thông qua ETL dựa trên Hadoop thành các định dạng khác với định dạng thu thập "thô". Tất cả điều này thêm vào ngày càng nhiều yêu cầu lưu trữ. Vì vậy, hãy chắc chắn rằng bạn hiểu toán để kích thước đúng nhu cầu lưu trữ Hadoop của bạn. Cấu trúc không thành vấn đề khi bạn tham gia vào các phân tích phức tạp hơn trong Hadoop. Lưu trữ dữ liệu của bạn trong HDFS cũng thường có nghĩa là chuyển đổi nó thành các cửa hàng cột bán cấu trúc để sử dụng bởi các công cụ như Hive và HBase và các công cụ truy vấn khác, để có hiệu suất tốt hơn. Vì vậy, cấu trúc có vấn đề và mong muốn dữ liệu của bạn được lưu trữ trong Hadoop ở nhiều định dạng hoặc ít nhất là được chuyển đổi thông qua ETL dựa trên Hadoop thành các định dạng khác với định dạng thu thập "thô". Tất cả điều này thêm vào ngày càng nhiều yêu cầu lưu trữ. Vì vậy, hãy chắc chắn rằng bạn hiểu toán để kích thước đúng nhu cầu lưu trữ Hadoop của bạn. Vì vậy, cấu trúc có vấn đề và mong muốn dữ liệu của bạn được lưu trữ trong Hadoop ở nhiều định dạng hoặc ít nhất là được chuyển đổi thông qua ETL dựa trên Hadoop thành các định dạng khác với định dạng thu thập "thô". Tất cả điều này thêm vào ngày càng nhiều yêu cầu lưu trữ. Vì vậy, hãy chắc chắn rằng bạn hiểu toán để kích thước đúng nhu cầu lưu trữ Hadoop của bạn. Vì vậy, cấu trúc có vấn đề và mong muốn dữ liệu của bạn được lưu trữ trong Hadoop ở nhiều định dạng hoặc ít nhất là được chuyển đổi thông qua ETL dựa trên Hadoop thành các định dạng khác với định dạng thu thập "thô". Tất cả điều này thêm vào ngày càng nhiều yêu cầu lưu trữ. Vì vậy, hãy chắc chắn rằng bạn hiểu toán để kích thước đúng nhu cầu lưu trữ Hadoop của bạn.

Bây giờ phần mềm này là nguồn mở có nghĩa là hầu hết miễn phí, phải không?
Rõ ràng bây giờ chúng ta đã học được rằng nguồn mở không cần thiết có nghĩa là miễn phí. Red Hat, là một ví dụ, có một doanh nghiệp khá tốt xung quanh nguồn mở và họ khá thành công trong việc kiếm lợi nhuận. Các nhà cung cấp Hadoop không khác nhau. Có một số công ty khởi nghiệp được tài trợ tốt có Red Hat như các mô hình kinh doanh xung quanh Hadoop, chưa kể tất cả các ông lớn đang cố gắng trang bị thêm các giải pháp Dữ liệu lớn hiện có của họ để thân thiện với Hadoop. Không ai trong số họ là miễn phí, nhưng tất cả đều khác nhau. Và điều quan trọng là phải hiểu được điểm mạnh và điểm yếu của mỗi nhà cung cấp Hadoop và họ đến từ đâu. Lịch sử của nhà cung cấp có vấn đề vì rất nhiều lý do mà tôi sẽ thảo luận trong một bài sau.

Bây giờ, về mặt lý thuyết bạn có thể đi một mình và sử dụng Hadoop hoàn toàn miễn phí - chỉ cần tải xuống hầu hết các gói Hadoop từ Apache (và một vài nơi khác). Ví dụ, tôi đã tải xuống và cài đặt các phiên bản Hadoop từ Quỹ Apache và đã cố gắng chạy các công việc Map Giảm và HDFS cơ bản chạy trên các cụm nhỏ - tất cả đều miễn phí và không phải thông qua bất kỳ nhà cung cấp Hadoop nào. Bạn cũng có thể sử dụng các phiên bản cộng đồng từ các bản phân phối Hadoop khác nhau từ các nhà cung cấp Hadoop chính. Điều này có thể làm việc, nhưng bạn tự mình làm và cách tiếp cận này khả thi phụ thuộc vào bạn là ai và nhân viên kỹ thuật của bạn hiểu biết như thế nào. Điều quan trọng là phải hiểu các bản phân phối và người chơi Hadoop khác nhau như thế nào và mức độ bạn bị "khóa" với mỗi nhà cung cấp Hadoop. Các nhà cung cấp Hadoop được trang bị theo phong cách retro (như tôi gọi họ) có nhiều đánh bóng và hiểu biết hơn khi họ giao Hadoop cho bạn trong khi một số nhà cung cấp khởi nghiệp Hadoop có các phần mềm độc quyền khác nhau được nhúng trong các bản phân phối Hadoop của họ. Điều quan trọng là phải hiểu những sự thật này và điều quan trọng là phải xem xét mức độ bạn sẵn sàng xây dựng trên đỉnh Hadoop so với việc phụ thuộc 100% vào đối tác Hadoop của bạn. Đây là những cân nhắc quan trọng đôi khi có thể bị lạc trong quản lý nội bộ đang đấu tranh xem ai sẽ là ông chủ của Dữ liệu lớn. Khóa nhà cung cấp là rất quan trọng để hiểu cùng với việc lập kế hoạch rõ ràng về kích thước, công suất và tăng trưởng dài hạn của cụm của bạn. s của phần mềm độc quyền được nhúng trong các bản phân phối Hadoop của họ. Điều quan trọng là phải hiểu những sự thật này và điều quan trọng là phải xem xét mức độ bạn sẵn sàng xây dựng trên đỉnh Hadoop so với việc phụ thuộc 100% vào đối tác Hadoop của bạn. Đây là những cân nhắc quan trọng đôi khi có thể bị lạc trong quản lý nội bộ đang đấu tranh xem ai sẽ là ông chủ của Dữ liệu lớn. Khóa nhà cung cấp là rất quan trọng để hiểu cùng với việc lập kế hoạch rõ ràng về kích thước, công suất và tăng trưởng dài hạn của cụm của bạn. s của phần mềm độc quyền được nhúng trong các bản phân phối Hadoop của họ. Điều quan trọng là phải hiểu những sự thật này và điều quan trọng là phải xem xét mức độ bạn sẵn sàng xây dựng trên đỉnh Hadoop so với việc phụ thuộc 100% vào đối tác Hadoop của bạn. Đây là những cân nhắc quan trọng đôi khi có thể bị lạc trong quản lý nội bộ đang đấu tranh xem ai sẽ là ông chủ của Dữ liệu lớn. Khóa nhà cung cấp là rất quan trọng để hiểu cùng với việc lập kế hoạch rõ ràng về kích thước, công suất và tăng trưởng dài hạn của cụm của bạn.

Tất cả điều này dẫn đến việc hiểu chi phí của Hadoop khi bạn đặt kỳ vọng về những vấn đề bạn muốn cụm Hadoop của bạn giải quyết từ ngày đầu tiên. Kích thước cụm Hadoop của bạn để lưu trữ, tính toán hàng loạt, phân tích / phát trực tuyến thời gian thực và lưu trữ dữ liệu phải được xem xét. Cách bạn dung lượng lập kế hoạch lưu trữ, trục chính ổ cứng và lõi cpu là những quyết định quan trọng khi bạn lập kế hoạch các đai ốc và bu lông của cụm Hadoop. Đối tác / nhà cung cấp Hadoop của bạn có thể giúp bạn định cỡ và lập kế hoạch này, nhưng một lần nữa ở đây, mỗi nhà cung cấp sẽ tiếp cận nó khác nhau tùy thuộc vào họ là ai và bạn là ai (túi của bạn sâu bao nhiêu). Bạn phải thông minh ở đây và biết những gì là lợi ích tốt nhất của bạn lâu dài.

Cụm Hadoop của bạn không phải là một hòn đảo.
Điều quan trọng là phải xem xét cách cụm Hadoop của bạn sẽ phù hợp với môi trường CNTT hiện tại của bạn và kho dữ liệu hiện có và môi trường BI. Hadoop thường sẽ không hoàn toàn thay thế ETL, kho dữ liệu và hệ thống BI hiện tại của bạn. Trong nhiều trường hợp, nó sẽ sống cùng với các hệ thống BI hiện có. Điều quan trọng là phải hiểu cách bạn sẽ di chuyển dữ liệu hiệu quả vào cụm Hadoop của mình và cần bao nhiêu xử lý và lưu trữ để đưa dữ liệu vào các định dạng trung gian để có hiệu suất tối ưu và tiêu thụ hiệu quả bởi các ứng dụng. Đây là những câu hỏi quan trọng cần trả lời để giúp cụm Hadoop của bạn hoạt động hiệu quả để cung cấp hiệu quả cho các hệ thống hạ nguồn.

Ý bạn là cụm Hadoop của tôi không tự chạy?
Một khu vực được ước tính liên quan đến Hadoop, đang lên kế hoạch cho các hoạt động và quản lý liên tục của cụm Hadoop của bạn. Hadoop là công nghệ tốt, nhưng phát triển nhanh và có nhiều bộ phận chuyển động ở cả cấp độ cơ sở hạ tầng (nhiều nút và ổ cứng) và từ góc độ gói phần mềm (rất nhiều gói phần mềm phát triển nhanh). Điều này làm cho việc chạy, giám sát và nâng cấp / vá lỗi Hadoop trở thành một nhiệm vụ không hề nhỏ. Ví dụ, nhiều nhà cung cấp Hadoop cung cấp cả giải pháp nguồn mở và độc quyền để quản lý và chạy các cụm của bạn. Điều này rõ ràng đòi hỏi các hoạt động và nhân viên CNTT sản xuất của bạn phải được đưa vào kế hoạch và quản lý các cụm của bạn.

Một số câu hỏi và cân nhắc quan trọng khác khi bạn bắt đầu với Hadoop.
  • Nhiều người thuê nhà và chia sẻ sẽ hoạt động như thế nào nếu có nhiều nhóm sẽ sử dụng cụm của bạn.
  • Tôi nên có một hoặc một vài cụm Hadoop lớn, hoặc nhiều cụm nhỏ
  • Hiểu nhu cầu lưu trữ, xử lý và đồng thời của bạn. Không phải tất cả các lịch trình Hadoop được tạo ra bằng nhau cho tất cả các tình huống.
  • Bạn có cần hoặc muốn tận dụng ảo hóa và hoặc đám mây bùng nổ?
  •  
  • Chọn phần cứng của bạn một cách cẩn thận để giữ chi phí cho mỗi TB thấp. Làm thế nào để mange TB vs cpu / core là quan trọng.
  • Hiểu những gì bạn cần trong các nút cạnh của bạn cho tiện ích và phần mềm bổ trợ.
  • Lập kế hoạch thu thập dữ liệu và nhu cầu xuất khẩu giữa cụm Hadoop của bạn và phần còn lại của hệ sinh thái.
  • Hiểu nhu cầu bảo mật của bạn ở cấp độ dữ liệu và chức năng.
  • Yêu cầu thời gian lên của bạn là gì? Lập kế hoạch cho các bản vá và nâng cấp.

Có lẽ tôi nên nói điều này ngay từ đầu, nhưng lý do tôi gọi blog này là Bảo vệ Đầu tư Hadoop của bạn , là vì nhiều tổ chức tham gia vào cam kết này mà không hiểu rõ về: 
  1. Tại sao họ lại theo đuổi Dữ liệu lớn (ngoài việc đó là điều nóng bỏng).
  2. Làm thế nào Hadoop khác với các giải pháp Big Data sở hữu trước đây.
  3. Làm thế nào nó có thể phù hợp với các hệ thống di sản hiện có.
  4. Làm thế nào để cuối cùng quản lý chi phí và kỳ vọng ở cả cấp độ quản lý và kỹ thuật.
Nếu bạn không hiểu những điểm này, thì bạn sẽ lãng phí rất nhiều thời gian và tiền bạc và không tận dụng được lợi thế hiệu quả của Hadoop. Vì vậy, hãy tham gia và tận hưởng cuộc phiêu lưu Hadoop và Big Data của bạn. Đó sẽ là một hành trình nhiều như một đích đến và nó sẽ biến đổi tổ chức của bạn trở nên tốt hơn nếu bạn lên kế hoạch phù hợp và tham gia vào đó với đôi mắt mở to.

Grand Logic cung cấp các giải pháp phần mềm tự động hóa các quy trình kinh doanh của bạn và chế ngự các hoạt động CNTT & phân tích Dữ liệu lớn của bạn. Grand Logic cung cấp dữ liệu và phần mềm tự động hóa công việc, dịch vụ tư vấn Hadoop và tối đa hóa khoản đầu tư Dữ liệu lớn của bạn.
3 hữu ích 0 bình luận 3.0k xem chia sẻ

Có thể bạn quan tâm