9

Thời kỳ đầu, có những người điều khiển chuyến bay. Đây là một giống chó kỳ lạ. Trong những ngày đầu của  Chương trình Không gian có người lái của Hoa Kỳ , hầu hết các hộ gia đình Hoa Kỳ, không phân biệt tầng lớp hay chủng tộc, đều biết tên của các phi hành gia. John Glen, Alan Shepard, Neil Armstrong. Chương trình không gian có người lái là một lực lượng thống nhất của niềm tự hào dân tộc.

Nhưng không ai biết tên của những người đàn ông vô danh và sau đó là phụ nữ, những người đã đưa các phi hành gia lên quỹ đạo, lên mặt trăng, và quan trọng nhất là đưa họ trở lại trái đất. Sứ mệnh Apollo 13 đã thay đổi tất cả những điều đó, không phải vì nó thành công mà vì nó là một thất bại thành công ; không ai chết. 

SRE2AUX: Bộ điều khiển máy bay trở thành SRE đầu tiên như thế nào

Nó đã bất tử trong một  bộ phim cùng tên . Giám đốc chuyến bay Gene Kranz (do Ed Harris thủ vai) được biết đến với cái  tên Người đàn ông tên lửa có mắt nhìn , người đã đưa ra câu nói hấp dẫn đã đi vào lịch sử. Nó khắc sâu trong tâm trí của mỗi người chỉ huy sự cố: "Thất bại không phải là một lựa chọn."

Nhưng xui xẻo như Apollo 13, sứ mệnh lên mặt trăng thứ hai, ngay trước Apollo 13, gần như không thể bay vào quỹ đạo. Đây là câu chuyện về 10 phút đầu tiên của sứ mệnh đó, Apollo 12. Bây giờ bạn có thể tự hỏi, tất cả truyền thuyết không gian cổ điển này có liên quan gì đến kỹ thuật độ tin cậy của trang web trong thế kỷ 21? Vâng, tôi mời bạn đọc tiếp và tìm hiểu.

Câu chuyện về Apollo 12

Apollo 12 là sứ mệnh thứ hai trên mặt trăng. Nhiệm vụ này, được thực hiện 4 tháng sau Apollo 11, sẽ tập trung vào khoa học hơn. Phi hành đoàn bao gồm Chỉ huy Pete Conrad, Phi công Mô-đun Chỉ huy Richard Gordon và Phi công Mô-đun Mặt trăng Alan Bean. Giám đốc chuyến bay sẽ chỉ huy Mission Control là Gerry Griffin. Đây là lần đầu tiên anh ấy đảm nhiệm vai trò đó, thăng cấp từ người điều khiển chuyến bay.

Thời tiết tại Cape Kennedy vào sáng ngày 14 tháng 11 năm 1969 hoàn toàn u ám với mưa thường xuyên. NASA có một quy tắc không được phóng vào bất kỳ đám mây vũ tích nào. Trong khi có một số vũ tích trong khu vực, đã có một số cuộc tranh luận về việc liệu quy tắc có thực sự được áp dụng hay không, vì vậy cuối cùng nó đã được từ bỏ. Đồng hồ đếm ngược diễn ra hoàn hảo và Apollo 12 cất cánh lúc 11:22:00, ngay khi bắt đầu cửa sổ phóng kéo dài ba giờ.

Không biết với các phi hành gia hoặc Mission Control vào thời điểm đó,  sét đánh trúng tên lửa , không phải một lần mà hai lần. Lần đầu tiên ở 37 giây sau khi cất cánh và lần nữa ở giây thứ 52. Cuộc tấn công đầu tiên đã khiến các mạch bảo vệ trên các pin nhiên liệu trong Mô-đun dịch vụ bị ngắt, làm mất cả ba pin nhiên liệu ngoại tuyến cùng với hầu hết các thiết bị đo của Mô-đun lệnh. Cuộc tấn công thứ hai, 15 giây sau đã đánh bật chỉ báo độ cao “8 quả bóng” và chuyển luồng đo từ xa trở lại Mission Control. Phi hành đoàn và Mission Control bay mù mịt.

Tuy nhiên, Saturn V vẫn tiếp tục bay bình thường vì Tiến sĩ Werner von Braun, kiến ​​trúc sư trưởng của tên lửa, không tin tưởng con người giao nhiệm vụ đưa một trong những tên lửa của ông ta vào quỹ đạo. Ông nhấn mạnh vào một hệ thống hướng dẫn cho Saturn V tách biệt khỏi bất kỳ điều khiển nào trong CSM (Mô-đun Dịch vụ Chỉ huy) nơi các phi hành gia cư trú trong quá trình cất cánh và tái nhập cảnh. Quyết định này có lẽ đã cứu được sứ mệnh và có lẽ là mạng sống của các phi hành gia. 

SRE2AUX: Bộ điều khiển máy bay trở thành SRE đầu tiên như thế nào

Không ai vào thời điểm đó biết chuyện gì đã xảy ra, nhưng họ biết điều đó thật tồi tệ. Nếu họ không thể tìm ra vấn đề và khắc phục nó một cách vội vàng, họ sẽ phải thực hiện hủy khởi chạy có nghĩa là sử dụng LES (Launch Escape System) ở trên cùng của mô-đun lệnh. Điều này sẽ kéo Mô-đun chỉ huy (CM) ra khỏi phần còn lại của Saturn V trước khi điều khiển sứ mệnh làm nổ tung phần còn lại của tên lửa. Điều này không chỉ gây mất tinh thần mà còn rất nguy hiểm đối với thủy thủ đoàn và vùng bờ biển Florida xung quanh.

SRE2AUX: Bộ điều khiển máy bay trở thành SRE đầu tiên như thế nào

Đây là nơi John Aaron, một Kiểm soát viên chuyến bay 24 tuổi đến. Aaron không chỉ là một người điều khiển chuyến bay, anh ấy còn là một EECOM (quản lý điện, môi trường và vật tư tiêu hao). EECOMs là những người điều khiển chuyến bay thể hiện tác phong chuyên nghiệp ở mức độ cao, hiểu biết gần như lỗi và có tâm lý “làm chủ”. Họ đã trải qua một chặng đường học tập khó khăn để giành được vai trò đó. Mọi người đều mong đợi rằng Aaron sẽ đề nghị hủy bỏ việc ra mắt, nhưng anh ấy đã không làm vậy. Anh ấy đã gửi chỉ thị cho Giám đốc chuyến bay Gerry Griffin, “ Hãy thử SCE tới AUX ” (phụ trợ).

Không ai biết điều này ban đầu có nghĩa là gì, nhưng Lunar Module Pilot Al Bean đã làm được. Anh nhớ đó là một công tắc qua vai trái của mình. Anh ta lật nó ra và tất cả máy đo từ xa hoạt động trở lại. Apollo 12 tiếp tục quay quanh quỹ đạo mà không xảy ra sự cố gì thêm.  

“Đặt SCE thành AUX” dường như không xuất hiện, nhưng đó không phải là một phỏng đoán. Có lẽ là một canh bạc, nhưng là một canh bạc dựa trên nhiều năm rèn luyện, khả năng và quan trọng nhất là sự nhận biết khuôn mẫu. Trước khi chúng ta đi vào so sánh giữa bộ điều khiển chuyến bay với SRE, chúng ta hãy tìm hiểu một chút về bộ điều khiển chuyến bay thông qua cuộc đời của một bộ điều khiển chuyến bay cụ thể đang thay đổi trong quá trình phóng Apollo 12, John Aaron.

SRE2AUX: Bộ điều khiển máy bay trở thành SRE đầu tiên như thế nào

John Aaron đã tốt nghiệp Đại học Tây Nam Oklahoma State. Aaron cho biết: “Bố mẹ tôi mong rằng tất cả chúng tôi sẽ vào đại học và gia đình đã cam kết tìm cách biến điều đó thành hiện thực. "Nếu đó không phải là môi trường tôi đã lớn lên, tôi có thể đã không đi."

Anh ta tốt nghiệp với bằng kép Vật lý và Toán học và khi NASA đến tuyển dụng, anh ta đã đăng ký làm việc trong Ban Giám đốc Điều hành Chuyến bay tại Trung tâm Sứ mệnh có Người lái ở Houston. Anh nghĩ rằng anh sẽ kiếm được một ít tiền, giúp đỡ đất nước của mình và cuối cùng quay trở lại Oklahoma để tiếp tục làm nông nghiệp. Nhưng, như Aaron đã nói, “Khám phá không gian vũ trụ đã trở thành niềm đam mê mới của tôi và tôi không bao giờ quay trở lại việc chăn nuôi”.

Một ứng cử viên sáng giá cho vị trí điều khiển chuyến bay là một nhà khoa học nói chung có chuyên môn về một ngành khoa học cụ thể. Bề ngoài, một bộ điều khiển bay hoạt động trước một bảng điều khiển xem, xử lý và giám sát dữ liệu đo từ xa đến từ các hệ thống khác nhau của một phương tiện vũ trụ trong thời gian thực.

Thông tin này, trong những ngày xưa, sẽ đến ào ạt trên CRT (Ống tia âm cực). Các nhân viên điều khiển chuyến bay cũng đeo tai nghe để theo dõi 12 vòng âm thanh đồng thời. Đây rõ ràng là một tình trạng quá tải thông tin. Nhưng như Marshall McLuhan đã viết, "Quá tải thông tin tương đương với nhận dạng mẫu."

Một bộ điều khiển máy bay dày dặn thích nghi để thu nhận tất cả đầu vào hình ảnh và âm thanh cũng như các mẫu sáng suốt. Họ rất thành thạo trong việc giải thích các mô hình này và chuyển chúng thành lời khuyên và khuyến nghị cho giám đốc chuyến bay, người sau đó đưa ra quyết định. Các quyết định dựa trên dữ liệu, nhưng dữ liệu được “cắt tỉa” theo kinh nghiệm và phán đoán .

SRE2AUX: Bộ điều khiển máy bay trở thành SRE đầu tiên như thế nào

Có một nhà ga được điều hành bởi “tốt nhất trong số những người tốt nhất” và đó là EECOM. Vai trò này đòi hỏi bạn phải có khả năng xử lý tình trạng “quá tải thông tin” và nhìn thấy “rừng VÀ cây”.

Quá trình đào tạo của Aaron và khả năng nhìn thấy những mẫu này đã cho phép anh thực hiện cuộc gọi “Đặt SCE thành AUX” mà anh đã thực hiện vào sáng tháng 11 đó. Làm thế nào anh ta biết để thử điều này và không chỉ báo hiệu phá thai? Nó quay trở lại quá trình không ngừng mô phỏng và khoan tìm những gì có thể xảy ra sai sót.

Khoảng một năm trước, anh ấy đã nhìn thấy chính mô hình đó khi giúp đỡ một nhóm điều khiển chuyến bay trong một mô phỏng. Nhóm nghiên cứu đã cố gắng vô hiệu hóa nguồn điện chính của Thiết bị Điều hòa Tín hiệu CSM, thiết bị này không phải là một phần của mô phỏng ban đầu. Trong mọi trường hợp, kết quả đo từ xa kỳ lạ, như anh ta nói “đã khắc sâu trong não anh ta”. Anh tò mò về những gì có thể được thực hiện để phục hồi sau điều này. Đó không phải là mũi khoan của anh ấy, nhưng sự tò mò tự nhiên của anh ấy đã giúp anh ấy tốt hơn. Ông xác định rằng việc cài đặt công tắc Thiết bị Điều hòa Tín hiệu để cho phép nguồn điện dự phòng khôi phục cho các hệ thống đo xa của mô phỏng.

Công tắc khá mù mờ, chỉ là một công tắc khác trong số hàng trăm công tắc trong Mô-đun lệnh. Không ai trong Kiểm soát sứ mệnh thực sự biết nó ở đâu, và Kiểm soát viên bay tự hào vì đã biết mọi thứ. Ngay cả Chỉ huy Sứ mệnh Phi hành gia Pete Conrad cũng không biết nó ở đâu, nhưng may mắn thay Alan Bean, Phi công Mô-đun Mặt trăng đã nhớ ra nó. Anh lật nó ra và máy đo từ xa quay trở lại. Họ không còn bay mù mịt nữa. Khi đã lên quỹ đạo, tất cả các hệ thống đã được kiểm tra và người ta xác định rằng không có thiệt hại nghiêm trọng nào đối với tàu vũ trụ

John Aaron và nhóm của anh ấy đã đặc biệt cẩn thận để chuẩn bị cho nhiệm vụ này. Lời kêu gọi sâu sắc và niềm tự hào được trở thành người điều khiển chuyến bay được thể hiện bằng tấm bảng trên cửa của Mission Control.

Tín điều điều khiển chuyến bay

1. Hãy thấm nhuần trong mình những phẩm chất cần thiết để đạt được sự xuất sắc trong nghề nghiệp: 

  • KỶ LUẬT - Đi sau cũng như đi đầu, biết phải làm chủ bản thân thì mới làm chủ được nhiệm vụ.
  • CẠNH TRANH - Không có gì thay thế cho sự chuẩn bị toàn diện và sự cống hiến hoàn toàn, vì không gian sẽ không dung thứ cho sự bất cẩn hoặc thờ ơ.
  • TỰ TIN - Tin tưởng vào bản thân cũng như những người khác, biết rằng chúng ta phải làm chủ nỗi sợ hãi và do dự trước khi chúng ta có thể thành công.
  • TRÁCH NHIỆM - Nhận ra rằng nó không thể được chuyển cho người khác, vì nó thuộc về mỗi chúng ta; chúng ta phải trả lời cho những gì chúng ta làm - hoặc không làm được.
  • TOUGHNESS - Lập trường khi chúng ta phải; để thử lại, ngay cả khi điều đó có nghĩa là đi theo một con đường khó khăn hơn.
  • TEAMWORK - Tôn trọng và tận dụng khả năng của người khác, nhận ra rằng chúng ta làm việc hướng tới một mục tiêu chung, để thành công phụ thuộc vào nỗ lực của tất cả mọi người.
  • VIGILANCE * - Luôn chú ý đến sự nguy hiểm của tàu vũ trụ; không bao giờ chấp nhận thành công để thay thế cho sự nghiêm khắc trong mọi việc chúng ta làm.

2. Luôn ý thức rằng chúng ta có thể bất ngờ và không mong đợi, chúng ta có thể thấy mình ở trong một vai trò mà hiệu suất của chúng ta có hậu quả cuối cùng

3. Nhận ra rằng lỗi lớn nhất không phải là đã cố gắng và thất bại, mà là trong quá trình cố gắng chúng ta không nỗ lực hết mình.

* Cảnh giác đã được thêm vào năm 2003 sau thảm họa Challenger. Sau khi điều tra, người ta thấy rằng một trong những yếu tố góp phần gây ra vụ tai nạn là “sự dựa vào thành công trong quá khứ để thay thế cho các hoạt động kỹ thuật âm thanh”.

Như bạn có thể thấy, có rất nhiều niềm tự hào và giá trị bản thân đi kèm với việc trở thành và trở thành Người điều khiển máy bay. Nhiều người cảm thấy rằng tín điều này cũng mở rộng ra cách họ tiến hành cuộc sống cá nhân của mình.

Và điều này liên quan như thế nào đến SRE?

Bây giờ bối cảnh đã được thiết lập. Điều này có liên quan gì đến kỹ thuật độ tin cậy của trang web? Chà, Google đã thấy cách SRE bám rễ vững chắc trong Bộ điều khiển Sứ mệnh của NASA. Điều này được tham chiếu bởi bản vá trên áo khoác được phát hành cùng một lúc cho tất cả các SRE của Google.

SRE2AUX: Bộ điều khiển máy bay trở thành SRE đầu tiên như thế nào

Tất cả các SRE có phải ở mức độ thành thạo của người điều khiển chuyến bay không? Chắc là không. Nhưng có rất nhiều điều mà nếu được lưu ý, có thể giúp chúng ta hoàn thành công việc của mình tốt hơn. Chúng ta hãy xem xét tín ngưỡng của Bộ điều khiển chuyến bay và cách nó áp dụng cho SRE hiện đại. Người thuê đầu tiên là một danh sách các đặc điểm. 

1. Hãy thấm nhuần trong mình những phẩm chất cần thiết để đạt được sự xuất sắc trong nghề nghiệp:

  • KỶ LUẬT - Đi sau cũng như đi đầu, biết phải làm chủ bản thân thì mới làm chủ được nhiệm vụ.
  • CẠNH TRANH - Không có gì thay thế cho sự chuẩn bị toàn diện và sự cống hiến hoàn toàn, vì không gian sẽ không dung thứ cho sự bất cẩn hoặc thờ ơ.
  • TỰ TIN - Tin tưởng vào bản thân cũng như những người khác, biết rằng chúng ta phải làm chủ nỗi sợ hãi và do dự trước khi chúng ta có thể thành công.
  • TRÁCH NHIỆM - Nhận ra rằng nó không thể được chuyển cho người khác, vì nó thuộc về mỗi chúng ta; chúng ta phải trả lời cho những gì chúng ta làm - hoặc không làm được.
  • TOUGHNESS - Lập trường khi chúng ta phải; để thử lại, ngay cả khi điều đó có nghĩa là đi theo một con đường khó khăn hơn.
  • TEAMWORK - Tôn trọng và tận dụng khả năng của người khác, nhận ra rằng chúng ta làm việc hướng tới một mục tiêu chung, để thành công phụ thuộc vào nỗ lực của tất cả mọi người.

Hãy phân tích từng đặc tính và cách nó liên quan đến SRE. 


KỶ LUẬT - Đi sau cũng như đi đầu, biết phải làm chủ bản thân thì mới làm chủ được nhiệm vụ.

Không phải ngẫu nhiên mà đặc điểm đầu tiên là tính kỷ luật. Và thật dễ hiểu khi nhiều người có hàm ý tiêu cực khi nói đến từ này. Một trong những nội hàm tiêu cực là  sự trừng phạt . Tuy nhiên, sẽ hữu ích hơn nếu nghĩ đến các ý nghĩa khác của kỷ luật liên quan đến SRE. Kỹ thuật độ tin cậy của trang web là một  ngành học (có nghĩa là một lĩnh vực nghiên cứu hoặc một hệ thống các quy tắc), nơi chúng tôi lấy kết quả của các  phép đo,  áp dụng các quy trình  đã thống nhất và hệ thống hóa  và đưa ra kết quả theo  thời gian thực  hoặc thông qua  các hành động tiếp theo. Chu kỳ này được lặp đi lặp lại nhiều lần. Kỷ luật là về sự chắc chắn. Rigor trong các vấn đề quy trình. Nếu bạn biết đồng đội của mình sẽ theo dõi và ghi lại, bạn có thể tự tin giải quyết các sự cố hơn.

Khi chúng tôi tự động hóa và mở rộng quy trình và đo lường, chúng tôi sẽ được phép hoàn thành các chu trình này nhanh hơn và chính xác hơn. Nếu chúng ta có thể hành động dựa trên các sản phẩm phụ của các quy trình (trong thời gian thực hoặc các hành động tiếp theo) theo cách hiệu quả nhất có thể, thì các quy trình sẽ tự tinh chỉnh, tự sửa chữa và quy trình làm việc theo dòng sẽ xuất hiện một cách tự nhiên. Phần này cần có  kỷ luật , cũng như trong hành vi tự chủ và có trật tự. Điều này trông như thế nào đối với các SRE và các tổ chức của họ? Chà, một số ví dụ có thể là:

  • Có một hệ thống bán vé VÀ mở vé cho công việc đang được hoàn thành hoặc sắp hoàn thành, tuy nhiên là việc nhỏ. Cập nhật tiến độ của vé (càng sát thời gian thực càng tốt để tránh mất thông tin) cũng quan trọng không kém.
  • Bám sát các SLO đã thiết lập và ngân sách lỗi và tinh chỉnh chúng theo thời gian. Nhưng hãy luôn nhớ rằng chỉ riêng các SLO tốt nhất, được điều chỉnh nhiều nhất và ngân sách lỗi chỉ trở thành “tiếng ồn trước khi thất bại” nếu bạn không thực hiện các vấn đề cơ bản. Những thứ này có thể đang ẩn náu trong công việc tồn đọng của bạn, làm cạn kiệt ngân sách lỗi của bạn một cách từ từ. Làm việc để cập nhật hệ thống giám sát và thiết bị đo đạc của bạn và thực hiện hành động để đạt được các mục tiêu của bạn.
  • Thực hiện, đọc và xem xét hồi cứu sự cố và theo dõi các hạng mục hành động. Điều này rất quan trọng vì đó là cách duy nhất bạn có thể thực sự cải thiện độ tin cậy của hoạt động của mình. Việc chỉ đưa các hành động tiếp theo vào công việc tồn đọng sẽ không chuyển vòng quay độ tin cậy về phía trước một cách đáng kể và có thể dẫn đến các sự cố lặp lại.

CẠNH TRANH - Không có gì thay thế cho sự chuẩn bị toàn diện và sự cống hiến hoàn toàn, vì không gian sẽ không dung thứ cho sự bất cẩn hoặc thờ ơ.

Một số sự cố “công việc không có kế hoạch” nằm ngoài tầm kiểm soát của chúng tôi như thời tiết xảy ra với Apollo 12. Trong những sự cố này, SREs chuyển từ chu trình phát triển sang chu trình vận hành, quản lý sự cố. Điều này tương tự như việc kiểm soát viên bay chuyển từ chu kỳ giám sát của họ sang chu kỳ điều khiển / chỉ huy sự cố nếu họ phát hiện ra những bất thường cần hành động khẩn cấp. Việc chuyển đổi ngữ cảnh này đòi hỏi năng lực.

Khi John Aaron đưa mức độ năng lực này vào trò chơi, làm thế nào chúng ta với tư cách là SRE có thể làm được như vậy? Đó là về  khả năng lãnh đạo . Các nhà lãnh đạo giỏi được chuẩn bị và tận tâm. Họ đối xử với đội của mình một cách quan tâm và tôn trọng. Họ là kiểu người mà bạn  muốn  lên tàu vũ trụ.

Dưới đây là một số ví dụ về khả năng lãnh đạo có năng lực trong hành động.

  • Không tự phụ. Những người đồng đội này ở đây để giúp đỡ, không phải vì vinh quang.
  • Mọi người đến với họ vì họ cảm thấy như họ sẽ được hướng dẫn.
  • Có thể được tin tưởng để giúp đỡ hoặc đưa ra các công cụ để đồng đội tự giúp mình.
  • Cảm thấy thoải mái khi nói "Tôi không biết."

Những nhà lãnh đạo này không cần phải chứng minh bất cứ điều gì với bất kỳ ai; họ nói bằng tay của họ. Họ được coi là dễ tiếp cận. 

TỰ TIN - Tin tưởng vào bản thân cũng như những người khác, biết rằng chúng ta phải làm chủ nỗi sợ hãi và do dự trước khi chúng ta có thể thành công.

Sự tự tin bắt nguồn từ năng lực. Một SRE tự tin không bị đe dọa bởi sự tự tin của các đồng nghiệp của họ. Họ tin vào điểm mạnh của đồng đội và nhận ra rằng đứng cạnh những người đó càng mang lại cho họ sự tự tin hơn. Các SRE tự tin cũng cố gắng nâng cao mức độ tin cậy của tất cả những người đóng góp.

Trên thực tế, điều này có thể giống như đưa ra phản hồi xuất sắc về một bài PR. Hoặc nó có thể giúp đồng đội phát triển một cuốn sổ tay hướng dẫn hữu ích cho một vấn đề khó lặp lại. Tuy nhiên, cấp độ lãnh đạo này luôn đòi hỏi hai điều:

  1. Các nhà lãnh đạo sẽ giúp đồng đội giải quyết các vấn đề, nhưng không giải quyết chúng cho cả nhóm.
  2. Các nhà lãnh đạo là một huấn luyện viên cũng như một cầu thủ và tìm cách nâng cấp toàn đội.

TRÁCH NHIỆM - Nhận ra rằng nó không thể được chuyển cho người khác, vì nó thuộc về mỗi chúng ta; chúng ta phải trả lời cho những gì chúng ta làm - hoặc không làm được.

Có quyền sở hữu đối với các quyết định và lệnh gọi mà bạn thực hiện, các hành động mà bạn thực hiện hoặc các hành động mà bạn yêu cầu người khác thực hiện. Nếu bạn phá vỡ nó, bạn sở hữu nó. Điều đó không phải lúc nào cũng có nghĩa là bạn có đủ kỹ năng để sửa chữa nó. Tuy nhiên, bạn có thể chỉ đạo các nỗ lực ứng phó sự cố và tập hợp nhóm của mình, cung cấp thông tin chi tiết về cách sự cố xảy ra và hỗ trợ điều phối các lực lượng để phục vụ nhanh chóng.

Điều này cũng có nghĩa là bạn phải chịu trách nhiệm về độ tin cậy của tổ chức và đóng vai trò là người quản lý cho sự hạnh phúc của khách hàng. SRE là những người ủng hộ khách hàng đảm bảo rằng người dùng hài lòng với trải nghiệm của họ. Đây là một trách nhiệm nặng nề, đòi hỏi sự giao tiếp giữa các nhóm rất lớn, sự thấu hiểu, sự đồng cảm và tầm nhìn về sự hài lòng của khách hàng.

TOUGHNESS - Lập trường khi chúng ta phải; để thử lại, ngay cả khi điều đó có nghĩa là đi theo một con đường khó khăn hơn.

Đôi khi bạn biết giải pháp. Đôi khi, đó là một cuộc chiến khó khăn để thuyết phục người khác về những gì bạn biết. Đó là một nghệ thuật để giữ vững lập trường của bạn trên một vị trí mà bạn biết là có giá trị đáng kể mà không chà đạp lên ý kiến ​​của người khác. Đây là một kiểu cứng rắn đòi hỏi sự xem xét nội tâm và khả năng thu hút người khác vào kiến ​​thức mà bạn đang trình bày.

Lần khác, bạn sắp tan ca 12 giờ và ăn tối đợi bạn ở nhà, và mọi thứ như vỡ òa. Nếu bạn đang mang máy nhắn tin và nhóm của bạn cần bạn, bữa tối nên đợi. Và sau khi sự cố kết thúc, bạn nên ghi lại vấn đề về độ tin cậy cơ bản dẫn đến sự cố này trong các hành động tiếp theo, để bạn có ít bữa tối bị gián đoạn hơn trong tương lai. Đây là một kiểu khó khăn mà bạn tận tâm để đảm bảo rằng các hoạt động tiếp theo không chỉ bị ném vào công việc tồn đọng và bị lãng quên.

TEAMWORK - Tôn trọng và tận dụng khả năng của người khác, nhận ra rằng chúng ta làm việc hướng tới một mục tiêu chung, để thành công phụ thuộc vào nỗ lực của tất cả mọi người.

Bạn có nhớ tên của người điều khiển chuyến bay, hoặc phi hành gia không? Trong khi các phi hành gia thường đi vào lịch sử, thì những người điều khiển chuyến bay lại có xu hướng bị coi thường. Tuy nhiên, có một điều chắc chắn là các  phi hành gia nhớ những người điều khiển chuyến bay đó. Làm thế nào khác mà nhiệm vụ sẽ thành công? Làm việc nhóm là chìa khóa quan trọng, ngay cả khi một số công việc có thể nhìn thấy rõ hơn hoặc sáng bóng hơn những công việc khác.

Trong chuyến bay không gian, các phi hành gia cũng như người điều khiển sứ mệnh đã thiết lập các đội cho các nhiệm vụ. Các phi hành gia huấn luyện như một đội để họ biết những gì mong đợi ở nhau không chỉ trong khủng hoảng mà còn trong nhịp độ công việc bình thường cần phải thực hiện trong sứ mệnh. Mission Control cũng có các đội kiểm soát viên bay huấn luyện cùng nhau vì lý do tương tự.

Có một lợi thế trong việc tiếp cận những thứ như cuộc gọi từ góc độ nhóm. Luôn luôn có một cuộc gọi chính và một cuộc gọi phụ. Nó phân tán lượng căng thẳng khi sự cố phát sinh. Nó cũng có thể giảm thời gian giải quyết và khôi phục dịch vụ vì có hai bộ não với quan điểm khác nhau đang tấn công vấn đề.

VIGILANCE - Luôn chú ý đến sự nguy hiểm của tàu vũ trụ; không bao giờ chấp nhận thành công để thay thế cho sự nghiêm khắc trong mọi việc chúng ta làm.

Điều này hơi khoa trương theo tiêu chuẩn ngày nay, vì tàu vũ trụ vào đầu những năm 70 rất khó khăn. Nó có thể ít khó khăn hơn bây giờ, nhưng cũng nguy hiểm. Những người trong chúng ta, những người không hoạt động trong ngành hàng không vũ trụ vẫn có thể bị ru ngủ trong sự bình thường của các hoạt động hàng ngày của chúng ta. Điều này bao gồm tính bình thường của việc đón nhận thất bại hàng ngày.

Những gì chúng ta vẫn phải cảnh giác là  The Black Swan . Sự kiện Thiên nga đen là sự kiện mà bạn không huấn luyện vì chúng không thể xảy ra. Cho đến khi họ làm. Họ sống trong không gian của những gì bạn không biết mà bạn không biết.

Set SCE2AUX không phải là sự kiện Black Swan. John Aaron đã nhìn thấy mô hình này trước đây trong một mô phỏng. Nhưng thùng chứa cryo phát nổ trên Apollo 13 là Thiên nga đen; không ai có thể lường trước một sự kiện như thế có thể xảy ra. Không có mô phỏng và không có cuộc tập trận nào. Thiên nga đen không thể được dự đoán bởi bản chất của chúng. Tất cả các giám sát trên thế giới sẽ không tìm thấy chúng. Một khi Thiên nga đen xảy ra, chúng ta nhìn lại và nói "Đáng lẽ chúng ta phải thấy nó đến." Nhận thức muộn luôn là 20/20. Nhưng những sự kiện này sẽ không còn là Thiên nga đen khi chúng ta giải quyết chúng.

Cách để tồn tại một Black Swan là phải kiên cường. Khả năng phục hồi giữ bạn trong trò chơi. Nó giúp bạn có thời gian để kỷ luật, năng lực và tinh thần đồng đội có thể phát huy và cho phép nhóm của bạn giải quyết tình huống đó. Bạn có thể trau dồi thêm khả năng phục hồi bằng cách huấn luyện mô phỏng như một đội. Trong khi sự kiện Thiên nga đen của Apollo 13 không xuất hiện trong một cuộc tập trận, giống như John Aaron đã thấy trong Apollo 12, các yếu tố khác nhau của giải pháp đã được thực hành. Điều mà các nhóm làm việc cần là khả năng tư duy bên ngoài và thời gian để kết hợp các giải pháp lại với nhau. Cộng với tinh thần đồng đội để thực hiện và hủy bỏ công việc vào ngõ cụt trong khi vẫn tập trung và vô tội vạ.

2. Luôn ý thức rằng chúng ta có thể bất ngờ và bất ngờ trong một vai trò mà việc thực hiện của chúng ta có hậu quả cuối cùng.

Trong những ngày đầu của du hành vũ trụ, việc thay đổi phần cứng sau khi phương tiện rời bệ phóng là rất nguy hiểm nếu không muốn nói là gần như không thể, đòi hỏi phải có EVA (Hoạt động ngoài phương tiện giao thông, một “chuyến đi bộ ngoài không gian”). Việc thay đổi phần mềm thực sự rất khó khăn vì phần lớn phần mềm được khắc trong bộ nhớ chỉ đọc, chỉ có vài trăm từ trong bộ nhớ lõi có thể ghi được có thể được sử dụng để "vá" mã hiện có một cách thận trọng. Một khi tên lửa rời đi, không có đường quay trở lại: hoặc nhiệm vụ tiếp tục hoặc sẽ có sự hủy bỏ.

Ngày nay chúng ta có rất nhiều thứ xa xỉ, nhưng chúng ta có thể học hỏi từ một số hoạt động mà các nhân viên điều hành chuyến bay đã thực hiện thường xuyên. Điều chính mà tôi muốn nhấn mạnh ở đây là các  cuộc tập trận và mô phỏng . Các nhân viên điều khiển máy bay, khi không hoạt động trong một nhiệm vụ, các nhiệm vụ mô phỏng liên tục. Họ không chỉ mô phỏng “con đường hạnh phúc” mà còn mô phỏng cả “con đường bất hạnh”.

Khả năng đưa lỗi vào mô phỏng là chìa khóa để chuẩn bị cho chuyến bay vũ trụ với phi hành đoàn trực tiếp hoặc trọng tải thực tế. Mặc dù có thể rùng rợn nhưng việc phi hành đoàn chết đi sống lại nhiều lần trong trình mô phỏng sẽ làm tăng khả năng họ sống sót nếu các tình huống tương tự xảy ra trong chuyến bay thực tế. Việc ghi nhớ một trong những mô phỏng này đã cho phép John Aaron thực hiện cuộc gọi “Đặt SCE2AUX”. Các SRE ngày nay có quyền truy cập vào các quy trình này thông qua các nền tảng và phương pháp của Chaos Engineering, cũng như thông qua các kỹ thuật đã được thử nghiệm như triển khai canary. 

3.  Nhận ra rằng lỗi lớn nhất không phải là đã cố gắng và thất bại, mà là trong quá trình cố gắng chúng ta không nỗ lực hết mình.

Các đội có thể thực hiện các cuộc tập trận dựa trên việc định cấu hình sai một cách có chủ ý. Tại một công ty trước đây, tôi đã lãnh đạo Kỹ thuật khách hàng. Tôi sẽ tổ chức các bài tập khắc phục sự cố chơi game Extravaganza hàng tuần. Đây là cách họ làm việc:

  1. Ngày trước, các thành viên của nhóm sẽ mất thời gian để cố ý tìm ra cách “phá vỡ” sản phẩm bằng một cấu hình sai tinh vi. Họ cũng sẽ phải tìm cách phục hồi. Họ sẽ viết ra kịch bản cùng với giải pháp và chuẩn bị sẵn sàng cho ngày hôm sau. 
  2. Ngày diễn ra lễ hội lộng lẫy, tất cả chúng tôi sẽ tập hợp thành một căn phòng chiến tranh với màn hình máy chiếu lớn. Những cá nhân đã nghĩ ra một kịch bản sẽ đặt tên của họ và một cụm từ nhận dạng vào một mảnh giấy sẽ được gắn vào mũ hoặc bát.
  3. Nội dung của bát sau đó sẽ được xáo trộn và một người ngẫu nhiên bên ngoài nhóm sẽ chọn một mục nhập. Bài dự thi sẽ được đọc to cho cả nhóm và người sở hữu bài dự thi sẽ có 15 phút để thiết lập sự thất bại với mọi người ra khỏi phòng.
  4. Khi họ đã sẵn sàng, chúng tôi sẽ vào lại phòng và người đó sẽ tuyên bố triệu chứng đó là gì và chứng minh nó, như thể một khách hàng đang gọi đến. Sau đó, những người còn lại trong nhóm đã cố gắng xác định vấn đề (có sự khác biệt giữa triệu chứng và vấn đề) và đưa ra chiến lược giảm thiểu. Họ chỉ được phép đặt những câu hỏi hời hợt cho người tạo kịch bản, chẳng hạn như "Đây có phải là thông số cấu hình mà bạn dự định không?" Giai đoạn này của trận đấu kéo dài đến 45 phút. 
  5. Vào cuối mô phỏng, nếu nhóm chưa tìm ra, người tạo sẽ xem xét lỗi và con đường để khôi phục / giảm thiểu.
  6. Vào cuối tháng, phần thưởng được trao cho người sáng tạo đưa ra kịch bản tốt nhất hoặc nhóm giải quyết vấn đề nhanh nhất. Thông thường, một trong những tình huống này xuất hiện trong sự cố thực tế của khách hàng vài ngày hoặc vài tuần sau đó.

Rõ ràng là những người mới hơn trong nhóm đã sớm thành thạo trong việc tạo ra các tình huống khó giải quyết hơn các thành viên cấp cao. Điều này dường như là do "sự thiên vị của chuyên gia" (các chuyên gia đã biết cách con đường hạnh phúc trông rất tốt và một số có thể đã thiết kế nó). Các thành viên cấp cao cũng mong muốn sản phẩm được sử dụng theo một cách nhất định và không bao giờ coi “những sai lầm ngớ ngẩn” hoặc những trường hợp phức tạp mà những người không quen thuộc với sản phẩm sẽ phơi bày. Các kỹ sư mới tiếp cận sản phẩm với tâm thế của một người mới bắt đầu và họ vẫn chưa biết sự khác biệt giữa “một sai lầm ngu ngốc” và một trường hợp sử dụng phổ biến (giống như những khách hàng mới).

Chim lông

Đây là một bảng ánh xạ của các hiệp hội. Nó hoạt động như một bản tóm tắt về những gì kiểm soát viên chuyến bay đã làm (và vẫn làm) và những gì một số SRE trong chúng tôi làm. Một số chức năng chắc chắn đã phát triển theo thời gian.

Như một ông chủ của công ty mà tôi đã làm việc vài năm trước đã nhắc nhở tôi rằng “Chúng tôi chỉ bán vé chứ không phải hạ cánh tàu con thoi”. Đúng là trong hầu hết các vai trò của chúng ta, tính mạng con người không bị đe dọa như trong phi cơ có người lái. Tuy nhiên, danh tiếng và doanh thu của công ty thường là như vậy. Chúng ta vẫn có thể tiếp cận công việc của mình với mức độ cống hiến tương đương cho các nhiệm vụ hiện có.

Kỹ thuật Độ tin cậy của Trang web trong thế kỷ 21 vẫn đang phát triển. Khi các hệ thống mà chúng tôi chịu trách nhiệm trở thành sứ mệnh quan trọng hơn đối với cơ sở hạ tầng hỗ trợ cuộc sống và truyền thông toàn cầu của chúng tôi, công việc của chúng tôi sẽ bắt đầu có sự cân bằng. Giống như những ngày đầu của tàu vũ trụ, ngoại trừ chúng tôi sẽ có những trách nhiệm này trên quy mô lớn.

Hãy xem Internet như một ví dụ cho tính mới đã trở nên quan trọng hơn theo cấp số nhân theo thời gian. Internet trên toàn thế giới đã phục hồi trước Thiên nga đen của Đại dịch toàn cầu (chúng ta có thể tranh luận xem nó là Thiên nga đen hay Thiên nga xám, nhưng đó là một bài luận khác về bản thân nó). Đối với nhiều doanh nghiệp, các hệ thống hội nghị từ xa như Zoom, Skype, và những hệ thống khác đã phải tiếp nhận giao tiếp giữa con người với con người khi các tòa nhà văn phòng đóng cửa. Các hệ thống này phải thích ứng với sự gia tăng lớn về lượng khách hàng và lưu lượng truy cập, thường là xây dựng cơ sở hạ tầng đã được lên kế hoạch trong vòng ba năm tới chỉ trong vài tuần.

Và tất cả những điều này, làm nền tảng cho tất cả là Cơ sở hạ tầng Internet toàn cầu mà hầu như không được chú ý và không được chú ý bởi vì nó rất kiên cường. Những người điều hành nó đã thực hành phiên bản Điều khiển chuyến bay của riêng họ trong nhiều thập kỷ. Và cũng giống như những bậc tiền bối, không ai biết tên của họ.

Tôi sẽ kết thúc bằng một lòng kính trọng nhỏ đối với ông bà SRE-cha mẹ vĩ đại của chúng ta, những người điều khiển chuyến bay của Mission Control. Tôi gửi cho bạn tín ngưỡng SRE, được lấy theo khuôn mẫu của Tín điều điều khiển máy bay, hy vọng sẽ giữ được tinh thần đó, nhưng điều chỉnh nó cho những thách thức của thế kỷ 21 trong tầm tay. Cầu mong chúng tôi sống theo di sản của bạn khi chúng tôi bước vào của riêng mình. Theo quy mô.

SRE's Creed 

  1. Hãy thấm nhuần trong mình những phẩm chất cần thiết để đạt được sự xuất sắc trong nghề nghiệp: 
  • KỶ LUẬT - Có thể được tin tưởng để làm những gì bạn đã đăng ký. Cũng hãy tưởng tượng những đặc điểm của sự kiên định và cống hiến.
  • CẠNH TRANH - Không có gì thay thế cho sự chuẩn bị toàn diện và sự cống hiến hoàn toàn, các hệ thống phức tạp không thể khám phá được.
  • SỰ TỰ TIN - Sự tự tin không giống như sự tự mãn. Hãy tin tưởng vào người khác cũng như bản thân và dẫn đầu bằng cách nâng tầm mọi người xung quanh bạn.
  • TRÁCH NHIỆM - Nhận ra rằng nó không thể được chuyển cho người khác, vì nó thuộc về mỗi chúng ta; chúng ta phải trả lời cho những gì chúng ta làm - hoặc không làm được.
  • BLAMELESS - Nhận ra rằng mọi người không xem thế giới hoặc tình huống như bạn làm và quan điểm của họ cũng hợp lệ và hữu ích. Hãy lưu ý đến điều đó trong các cuộc khủng hoảng và tôn trọng điều đó trong quá trình xem xét lại.
  • ĐỘI NGŨ - Nhận ra rằng mỗi thành viên trong nhóm của bạn có những kỹ năng riêng biệt có thể hoàn thành nhiệm vụ hiện có và dẫn đầu theo cách mà bạn có thể tối ưu hóa món quà đó.
  • VIGILANCE - Luôn chú ý đến Black Swan có thể; không bao giờ chấp nhận thành công để thay thế cho sự nghiêm khắc đối với Thiên nga đen đến khi bạn ít mong đợi nhất.
  • KHẢ NĂNG KHẢ NĂNG - Bạn không thể đoán trước được Thiên nga đen, nhưng nếu hệ thống và quy trình của bạn có khả năng phục hồi, bạn có thể tồn tại.

2. Luôn ý thức rằng bất ngờ và bất ngờ, chúng ta có thể thấy mình ở một vai trò mà kết quả của hành động của chúng ta có thể gây ra hậu quả cho mọi người xung quanh chúng ta, toàn bộ công ty và có thể là cả thế giới.

3. Nhận ra rằng lỗi lớn nhất không phải là đã cố gắng và thất bại, mà là trong quá trình cố gắng chúng ta không nỗ lực hết mình. Thất bại luôn là một lựa chọn, nhưng từ bỏ thì không.

|