Sử dụng Machine Learning để khai thác dữ liệu phức tạp


Hồ Ngọc Hoa
2 năm trước
Hữu ích 7 Chia sẻ Viết bình luận 0
Đã xem 5883

Nó được công nhận rộng rãi rằng sức mạnh gia tăng của AI chủ yếu được thúc đẩy bởi sự gia tăng dữ liệu có sẵn để đào tạo các thuật toán. Trong kỷ nguyên dữ liệu lớn, số lượng dữ liệu hiếm khi là vấn đề, nhưng để có thể phân tích thành công nó thường khó hơn nhiều.

Nghiên cứu mới từ Phòng thí nghiệm quốc gia Lawrence Berkeley của Phòng Năng lượng (Phòng thí nghiệm Berkeley) và UC Berkeley sử dụng học máy để cho phép các nhà khoa học rút ra những hiểu biết sâu sắc từ các bộ dữ liệu cực kỳ phức tạp trong thời gian kỷ lục.

"Lấy một tế bào người chẳng hạn. Có 10 170 tương tác phân tử có thể có trong một tế bào. Điều đó tạo ra những thách thức điện toán đáng kể trong việc tìm kiếm các mối quan hệ", các tác giả giải thích. "Phương pháp của chúng tôi cho phép xác định các tương tác có thứ tự cao với cùng chi phí tính toán như các hiệu ứng chính - ngay cả khi các tương tác đó là cục bộ với các hiệu ứng cận biên yếu."

Yêu cầu độc đáo

Nhóm nghiên cứu nhấn mạnh các yêu cầu độc đáo của các dự án máy học trong khoa học so với các dự án trong các lĩnh vực khác. Trong khi đó trong một số lĩnh vực, không thể hiểu làm thế nào thuật toán đi đến kết luận của nó là chấp nhận được, trong khoa học, đây không phải là trường hợp.

Một sự hiểu biết chi tiết về cách thức và lý do tại sao một cái gì đó xảy ra cho phép các nhà khoa học mô hình hóa quá trình và kiểm tra xem nó có thể được cải thiện hay không. Như vậy, khả năng giải thích là rất quan trọng đối với học máy khi được sử dụng trong các dự án khoa học.

Điều này đặc biệt khó khăn trong các hệ thống phức tạp, nơi thường có một số lượng lớn các biến cần lưu ý - và thực tế, các biến hoạt động theo cách phi tuyến tính. Điều này làm cho việc xây dựng một mô hình cho thấy nhân quả rất khó khăn.

"Thật không may, trong sinh học, bạn bắt gặp các tương tác của thứ tự 30, 40, 60 mọi lúc", các tác giả giải thích. "Nó hoàn toàn khó hiểu với các phương pháp truyền thống để học thống kê."

Rừng ngẫu nhiên

Nhóm nghiên cứu đã sử dụng các khu rừng ngẫu nhiên để dịch trạng thái bên trong của thuật toán sang một cách giải thích dễ đọc hơn cho con người. Họ tin rằng phương pháp của họ sẽ cho phép các nhà nghiên cứu tìm kiếm một cách an toàn các tương tác phức tạp mà không phải chịu chi phí tính toán lớn.

"Không có sự khác biệt trong chi phí tính toán để phát hiện sự tương tác của đơn hàng 30 so với tương tác của đơn hàng hai", họ nói. "Và đó là một sự thay đổi trên biển."

Thuật toán được đưa vào các bước đi của nó về một số vấn đề về bộ gen: một vấn đề liên quan đến vai trò của các chất tăng cường gen ở ruồi giấm và sự thay thế khác trong một dòng tế bào có nguồn gốc từ người. Trong cả hai thí nghiệm, thuật toán có thể xác nhận những phát hiện trước đó đồng thời khám phá ra một số tương tác bậc cao hơn để nhóm theo dõi trong công việc tiếp theo.

Nhóm nghiên cứu hiện đang thử nghiệm thuật toán trên một số vấn đề khác, trong nhiều lĩnh vực khác, nhưng tự tin rằng công việc của họ thể hiện sự thay đổi cơ bản trong cách khoa học có thể được thực hiện.

"Chúng tôi dự đoán, nhưng chúng tôi đưa ra sự ổn định dựa trên dự đoán trong iRF để tìm hiểu cấu trúc cơ bản trong các dự đoán một cách đáng tin cậy hơn", họ nói. "Điều này cho phép chúng tôi tìm hiểu cách thiết kế các hệ thống để tối ưu hóa theo mục tiêu và mô phỏng nhắm mục tiêu chính xác hơn và các thử nghiệm tiếp theo."
Hữu ích 7 Chia sẻ Viết bình luận 0
Đã xem 5883