Helpex - Trao đổi & giúp đỡ Đăng nhập

Bài học rút ra từ sự cố AWS tháng 11

Bối cảnh, phân tích và tác động

 • Dịch vụ cơ sở hạ tầng internet của Amazon đã trải qua sự cố ngừng hoạt động nhiều giờ vào thứ Tư, ngày 25 tháng 11, điều này đã ảnh hưởng đến một phần lớn mạng internet.
 • Hơn 50 công ty bị ảnh hưởng, bao gồm Roku, Adobe, Flickr, Twilio, Tribune Publishing và bộ phận bảo mật thông minh của Amazon, Ring, trong khu vực của nó bao gồm miền đông Hoa Kỳ
 • Các tác động kinh doanh, theo báo cáo của The Washington Post , bao gồm:
  • Việc kích hoạt tài khoản mới và ứng dụng di động cho dịch vụ truyền thông trực tuyến Roku đã bị cản trở.
  • Dịch vụ giao hàng Shipt thuộc sở hữu của Target có thể nhận và xử lý một số đơn đặt hàng, mặc dù nó tuyên bố rằng họ đang thực hiện các bước để quản lý năng lực do ngừng hoạt động.
  • Dịch vụ lưu trữ ảnh Flickr đã tweet rằng khách hàng không thể đăng nhập hoặc tạo tài khoản do AWS ngừng hoạt động.

Bài học rút ra từ sự cố AWS tháng 11

 • Phân tích nguyên nhân gốc rễ của AWS: Nó bắt đầu với Amazon Kinesis nhưng bắt đầu ảnh hưởng đến một danh sách dài các dịch vụ. Bạn có thể đọc tài liệu RCA của AWS, cũng được tóm tắt bên dưới:
  Bài học rút ra từ sự cố AWS tháng 11

Bài học kinh nghiệm

# 1: Đừng bỏ tất cả trứng vào một giỏ

 • Sử dụng một Nhà cung cấp dịch vụ đám mây  duy nhất có thể phản tác dụng trong những trường hợp này.
 • Suy nghĩ và lập chiến lược cho Hybrid-Cloud hoặc Private Cloud ; hoặc Đa đám mây,  đặc biệt là trong mùa cao điểm.

# 2: Hy vọng điều tốt nhất và lên kế hoạch cho điều tồi tệ nhất

 • Đừng chỉ dựa vào tính khả dụng của nhà cung cấp đám mây và chiến lược xử lý sự cố đa khu vực ; xây dựng khả năng phục hồi và cách tiếp cận phục hồi sau thảm họa của riêng bạn.
 • Thực hành khắc phục thảm họa trong sản xuất hoặc các hệ thống tương tự bằng cách sử dụng các phương pháp tiếp cận sáng tạo trong thiết lập tích cực hoạt động trên các kịch bản đa đám mây hoặc đám mây lai.

# 3: Giám sát và khả năng quan sát không tĩnh

 • Sáng tạo trong việc khám phá các mô hình giám sát và khả năng quan sát . Ví dụ: nếu AWS đang báo cáo sự cố ngừng hoạt động trên trang trạng thái của họ , hệ thống giám sát của bạn phải bắt đầu hoạt động và thông báo cho nhóm giải quyết sự cố để bắt đầu phân tích tác động.
 • Chuẩn bị sẵn sàng đồ thị phụ thuộc dịch vụ ; mặc dù hầu hết được hỗ trợ bởi các công cụ, bạn nên giữ cho nó hoạt động và chuẩn bị để đánh giá tác động khi nó xảy ra và ánh xạ nó đến các chức năng kinh doanh để báo cáo chính xác cho nhóm kinh doanh của bạn.

# 4: Đầu tư vào các Kỹ thuật mới nổi, như Kỹ thuật hỗn loạn

 • Sự thất bại này chỉ ra rằng ngay cả những gã khổng lồ internet như AWS vẫn đang trưởng thành trong việc triển khai các hoạt động như kỹ thuật hỗn loạn. Vì vậy, hãy bắt đầu đưa các phương pháp kỹ thuật hỗn loạn vào lộ trình.
 • Ví dụ: nếu một mẫu vách ngăn có thể được sử dụng trong trường hợp AWS ngừng hoạt động, thì việc ngừng hoạt động sẽ chỉ giới hạn ở các dịch vụ Kinesis.

Để kết luận, là  chủ động khi cúp xảy ra, có một đội ngũ đáp ứng được trang bị cho thiếu điện bất ngờ, và cải thiện liên tục từ bài học kinh nghiệm trên đường đi  là những kỹ thuật cần thiết để giúp giữ cho các tác động hạn chế. Ngoài ra, có một chiến lược đa đám mây hoặc đám mây lai là thức ăn để suy nghĩ để duy trì hoạt động kinh doanh.

Bài viết này ban đầu được đăng trên trang blog của tôi:

https://vedcraft.com/tech-trends/lessons-learned-from-aws-outage-nov-2020/

Tuyên bố từ chối trách nhiệm:
Tất cả dữ liệu và thông tin được cung cấp trên trang web này chỉ dành cho mục đích thông tin. Trang web này không tuyên bố về tính chính xác, đầy đủ, đúng đắn, phù hợp hoặc hợp lệ của bất kỳ thông tin nào trên trang web này và sẽ không chịu trách nhiệm đối với bất kỳ sai sót, thiếu sót hoặc chậm trễ nào trong thông tin này hoặc bất kỳ tổn thất, thương tích hoặc thiệt hại nào phát sinh từ hiển thị hoặc sử dụng. Tất cả thông tin được cung cấp trên cơ sở nguyên trạng. Đây là một trang web cá nhân. Các ý kiến ​​được trình bày ở đây đại diện cho chính tôi chứ không phải ý kiến ​​của chủ lao động của tôi hoặc bất kỳ tổ chức nào khác.


6 hữu ích 0 bình luận 13k xem chia sẻ

Có thể bạn quan tâm

loading