Sử dụng AI để tạo cảm giác về bộ gen của con người


Đặng Tuấn Hải
2 năm trước
Hữu ích 2 Chia sẻ Viết bình luận 0
Đã xem 5825

Trong khi bộ gen người đầu tiên tiêu tốn hàng tỷ đô la và khối lượng thời gian khổng lồ, giờ đây ngày càng có khả năng sắp xếp chuỗi DNA của bạn với giá khoảng 1.000 đô la. Trong khi lượng dữ liệu có sẵn đã tăng vọt, khả năng chúng tôi rút ra những hiểu biết sâu sắc từ nó đã bị tụt lại phía sau. Điều này có nghĩa là cuộc cách mạng di truyền mà chúng tôi hy vọng khi bộ gen được giải trình tự lần đầu tiên đã không thành hiện thực.

Đó là một vấn đề mà Google đang giải quyết trực tiếp thông qua một công cụ mới có tên DeepVariant , sử dụng AI để thử và phát triển sự hiểu biết tốt hơn về bộ gen của chúng tôi. Hệ thống nhằm mục đích đột biến tự động trong dữ liệu giải trình tự và đặc biệt là phân biệt chúng với các lỗi ngẫu nhiên. Đó là một nhiệm vụ khiến các nhà khoa học vấp ngã nhưng học máy là lý tưởng.

Đó là một phần của một loạt các công cụ đang tồn tại để hiểu ý nghĩa của dữ liệu di truyền, với VarDict và GATK trong số các công cụ hàng đầu trong không gian. Tuy nhiên, có thể công bằng khi nói rằng DeepVariant sẽ là người tinh vi nhất trong nhóm.

Dự án đã được đưa ra khỏi các sáng kiến ​​của Google Brain và Verily, với cả hai đều sử dụng AI để hiểu được sự mở rộng nhanh chóng của dữ liệu y tế. Nó đã thấy các trình tự bộ gen được thu hoạch từ dự án Genome in a Bottle (GIAB) và được sử dụng để huấn luyện thuật toán AI của họ cho đến khi nó có khả năng diễn giải dữ liệu với độ chính xác cao.

Dữ liệu lớn

Đây là loại dự án mà Google đã hình thành. Đầu năm nay, công ty Verily của họ đã ra mắt một liên doanh mới để áp dụng phân tích dữ liệu lớn vào chăm sóc sức khỏe hơn bao giờ hết.

Liên doanh này, được gọi là Dự án cơ bản, đang nhắm đến việc tuyển dụng 10.000 người tham gia vào một nghiên cứu kéo dài nhiều năm để tìm ra các yếu tố dự đoán bệnh tim và ung thư. Những người tham gia sẽ phải chịu sự giám sát và thử nghiệm rộng rãi thông qua đồng hồ nghiên cứu sẽ ghi lại mức độ hoạt động của họ trong thời gian thực. Ngoài các bài đọc từ đồng hồ, những người tham gia cũng sẽ được chụp X-quang và quét tim và cũng sẽ được kiểm tra bộ gen và máu của họ trong khoảng thời gian đều đặn trong khoảng thời gian bốn năm.

"Không ai đã thực hiện kiểu lặn sâu này trên nhiều cá nhân. Độ sâu này chưa bao giờ được thử", nhóm nghiên cứu cho biết. "Đó là để cho phép các thế hệ đến khai thác nó, đặt câu hỏi, mà không đoán trước được câu hỏi là gì."

Tôi đã viết nhiều lần về vai trò ngày càng tăng của dữ liệu trong nghiên cứu chăm sóc sức khỏe và Google đang phát triển cơ sở hạ tầng để tận dụng và hỗ trợ việc này. Nghiên cứu sẽ cố gắng và nắm bắt càng nhiều thông tin càng tốt, với những người tham gia tình nguyện phân, nước bọt và thậm chí là xé mẫu trong một dự án có khả năng có giá lên tới 100 triệu đô la.

Cái nhìn sâu sắc về bộ gen

Tuy nhiên, họ không phải là những người duy nhất sử dụng cách tiếp cận như vậy để cố gắng cung cấp cho chúng tôi hiểu rõ hơn về dữ liệu di truyền. Năm ngoái đã chứng kiến ​​một công cụ tìm kiếm mới được phát hành bởi Đại học California San Diego nhằm mục đích giúp chúng tôi dễ dàng tìm kiếm các bản ghi dữ liệu gen của chúng tôi.

Công cụ tìm kiếm, được gọi là GeNemo , đã được ghi nhận trong một bài báo được xuất bản gần đây và nhằm mục đích giúp tìm kiếm dữ liệu gen chức năng dễ dàng hơn.

Dữ liệu genomics chức năng là có giá trị, vì nó giúp ghi lại phạm vi hoạt động của từng phần của bộ gen. Công cụ tìm kiếm mới hy vọng sẽ giúp các nhà nghiên cứu khám phá các khía cạnh chức năng khác nhau của các bộ phận nhất định trong bộ gen mà chúng tôi tin là chịu trách nhiệm về bệnh tật.

Công cụ tìm kiếm cho phép người dùng truy vấn một loạt các cơ sở dữ liệu, bao gồm toàn bộ bộ dữ liệu ENCODE. Thuật toán tìm kiếm sử dụng kết hợp mẫu để cung cấp kết quả phong phú hơn so với tìm kiếm dựa trên văn bản truyền thống.

Công ty khởi nghiệp Thụy Sĩ Sophia Genetic được cho là những người dẫn đầu thị trường trong không gian này. Họ tuyên bố có cộng đồng genomics lâm sàng lớn nhất trên thế giới, với nền tảng được hỗ trợ bởi AI để giúp hiểu ý nghĩa của dữ liệu di truyền được thu thập.

Công ty, gần đây đã huy động được 30 triệu đô la trong vòng tài trợ do Balderton Capital dẫn đầu, đã triển khai nền tảng của họ tại 334 bệnh viện trên 53 quốc gia. Đến nay, họ đã phân tích được hơn 125.000 bệnh nhân từ khắp nơi trên thế giới.

Mối quan tâm riêng tư

Một trong những khía cạnh hấp dẫn của phương pháp Sophia là họ chỉ xử lý dữ liệu ẩn danh được thu thập bởi chính các bệnh viện. Đó là điều mà Verily không làm với Dự án cơ bản của họ, với quyền sở hữu dữ liệu nằm ngang với chính Google.

Một bài báo gần đây được xuất bản trên PLOS Biology bởi một cặp nhà nghiên cứu luật y tế từ Đại học Alberta lập luận rằng toàn bộ ngành công nghiệp thiếu các nguyên tắc đạo đức và pháp lý cơ bản tại thời điểm này xung quanh sự đồng ý, với điều này chỉ có khả năng tăng cường khi dữ liệu gen được tạo ra nhiều hơn.

Với các dự án như Biobank của Anh, các nhà nghiên cứu có thể bắt tay vào các dự án với hàng trăm ngàn người tham gia. Tuy nhiên, các vấn đề xung quanh quyền sở hữu của các mẫu đó và sự đồng ý của những người tham gia xung quanh việc sử dụng chúng vẫn tồn tại. Các tác giả cho rằng chúng ta cần sự chuyển động chính sách thực sự trong khu vực để giải quyết những lo ngại này, đặc biệt là khi ngành công nghiệp đang ngày càng liên quan.

"Cộng đồng nghiên cứu quốc tế đã xây dựng một cơ sở hạ tầng nghiên cứu rộng lớn và đa dạng trên nền tảng có khả năng sụp đổ - theo từng bit hoặc cùng nhau. Vấn đề này sẽ được hưởng lợi từ sự thừa nhận rõ ràng hơn về sự mất kết nối giữa thực tiễn hiện tại và thực tế của luật pháp, đạo đức nghiên cứu và nhận thức cộng đồng, "họ nói.

Đây là một chủ đề đã được đề cập rất nhiều trong một bài báo gần đây của Giáo sư Dame Sally Davies về tình trạng cung cấp dịch vụ gen hiện tại ở NHS England.

Báo cáo xem xét tiềm năng của bộ gen để cải thiện đáng kể sức khỏe của quốc gia. Nó cung cấp bằng chứng rõ ràng về tiềm năng của nó trong các lĩnh vực như sàng lọc, chẩn đoán bệnh và các dịch vụ phòng ngừa cá nhân hóa.

Bài viết tiếp tục nêu bật một số thiếu sót nghiêm trọng trong các lĩnh vực như cơ sở hạ tầng, sự tham gia của công chúng, tổ chức nghiên cứu và cung cấp dịch vụ trước khi đưa ra khuyến nghị rõ ràng về cách giải quyết từng lỗ hổng này và tiếp cận các dịch vụ genomic.

Rõ ràng rằng đây là một lĩnh vực đang trải qua một số thay đổi khá nhanh, và như vậy sẽ là một lĩnh vực cần được chú ý trong những năm tới.

Hữu ích 2 Chia sẻ Viết bình luận 0
Đã xem 5825