8

Những thất bại trong việc phối hợp trong các dịch vụ an ninh của Mỹ đã được báo cáo rộng rãi sau hậu quả của các sự kiện như vụ tấn công 11/9. Kiến thức cần thiết để ngăn chặn các cuộc tấn công đã có sẵn cho nhân viên nhưng thiếu sự phối hợp dẫn đến việc này không đến được với những người cần có. Kết quả là, sự tàn bạo có thể phòng ngừa đã diễn ra.

Một bài báo gần đây được đặt ra để khám phá cách AI có thể được sử dụng để cải thiện các quy trình nội bộ trong Bộ Ngoại giao Hoa Kỳ. Công việc đặc biệt quan tâm đến việc bộ phận có thể trở nên tốt hơn trong việc phân loại chính xác khối lượng email khổng lồ được tạo ra mỗi năm trong nội bộ.

Phân loại

Bộ phận này được cho là tạo ra khoảng hai tỷ email mỗi năm, nhiều trong số đó chứa thông tin mật. Hiểu (và do đó gắn thẻ chính xác) nội dung cần phân loại là một công việc tốn nhiều công sức, tuy nhiên.

Các nhà nghiên cứu đã sử dụng máy học để cải thiện điều này. Họ bắt đầu bằng cách đào tạo các thuật toán của họ trên khoảng một triệu dây cáp được giải mật từ những năm 1970 giữa Bộ Ngoại giao và các nhà ngoại giao ở nước ngoài. Mỗi tin nhắn trước đây đã được gắn thẻ là bí mật, bí mật, sử dụng chính thức hạn chế hoặc không được phân loại.

Sau khi đào tạo hệ thống, họ thiết lập nó hoạt động để xem liệu nó có thể phân loại chính xác các tài liệu hay không và đặc biệt là liệu nó có thể gắn nhãn chính xác cho nội dung xứng đáng với trạng thái được phân loại hay không.

Thuật toán tỏ ra đặc biệt mạnh mẽ khi thực hiện điều này, với tỷ lệ thành công 90% trong việc phát hiện nội dung được phân loại và tỷ lệ dương tính giả chỉ là 11%. Hơn thế nữa, nhóm nghiên cứu tin rằng họ có thể làm tốt hơn nữa với dữ liệu tốt hơn một chút để làm việc.

Điều gì làm cho một cái gì đó phân loại?

Bên cạnh khả năng phân loại nội dung, tác phẩm cũng làm sáng tỏ những khía cạnh mới của thông điệp đóng góp nhiều nhất vào tình trạng bảo mật của nó. Ví dụ, nổi lên rằng tần suất của một số từ nhất định là chỉ báo tốt nhất về trạng thái bảo mật của tin nhắn tổng thể, với người gửi và người nhận ít đáng tin cậy hơn nhiều.

Thật thú vị, một số nhãn dương tính giả được gán bởi máy, thực sự đã được chứng minh là lỗi của con người. Nói cách khác, lẽ ra chúng phải được phân loại nhưng con người đã gắn thẻ chúng theo cách khác.

Nó cho thấy rằng máy móc có thể đóng vai trò ngày càng quan trọng trong việc đảm bảo nội dung được phân loại chính xác, nhưng để điều này có hiệu quả, chúng cần phải có dữ liệu chất lượng tốt để tự đào tạo.

Hơn nữa, công việc cũng có tiềm năng tiết lộ các mẫu trong chia sẻ dữ liệu và thực sự trong việc xóa dữ liệu trong các dịch vụ bảo mật của chúng tôi có thể có ý nghĩa bảo mật. Rốt cuộc, nổi lên rằng nội dung được phân loại có thói quen bị mất tích.

Mặc dù chắc chắn là thú vị, nhưng cũng rõ ràng rằng đây là giai đoạn rất sớm của quá trình như vậy. Tuy nhiên, được Bộ Ngoại giao chi hàng tỷ đô la mỗi năm cho việc phân loại tài liệu, công việc hy vọng sẽ phát triển hơn nữa.

|