3

Sự sẵn có của thông tin di truyền và bộ gen đã bùng nổ trong thập kỷ qua sau khi giảm chi phí trong công nghệ giải trình tự; tuy nhiên, phần lớn thông tin này tồn tại rải rác trên nhiều tài nguyên khác nhau. Ví dụ, các tài nguyên khác nhau trên cùng một gen thường có số nhận dạng, định dạng và thông tin khác nhau. Cảnh quan dữ liệu bị phân mảnh khiến việc tạo và duy trì các đường ống tin sinh học đầy thách thức, gây khó chịu và tốn thời gian.

Là một phần của nhóm nghiên cứu sinh học tính toán của Tiến sĩ Andrew Su, (Phó giáo sư) tại Viện nghiên cứu Scripps , nhóm chúng tôi quan tâm đến việc giải quyết các thách thức dữ liệu lớn như bối cảnh dữ liệu biến thể / gen bị phân mảnh nói trên. Tiến sĩ Chunlei Wu (Phó giáo sư) đã đi đầu trong nỗ lực tạo ra các dịch vụ chú thích biến thể gen và gen dễ sử dụng để các nhà nghiên cứu có thể dành nhiều thời gian hơn để khám phá mới và ít thời gian hơn trong việc xử lý bối cảnh dữ liệu bị phân mảnh.

Xây dựng giải pháp

MyGene.info là dịch vụ chú thích đầu tiên trong số hai dịch vụ chú thích mà chúng tôi xây dựng. Khi xây dựng các dịch vụ của mình, chúng tôi biết có một số vấn đề chúng tôi cần xem xét:

  • Chúng tôi sẽ tổng hợp dữ liệu về 13 triệu gen từ 7 cơ sở dữ liệu
  • Lượng dữ liệu từ mỗi nguồn dữ liệu VÀ số lượng nguồn dữ liệu dự kiến ​​sẽ tiếp tục tăng, vì vậy dịch vụ của chúng tôi phải có khả năng mở rộng theo.
  • Người dùng sẽ cần có thể tìm thấy thông tin họ cần một cách nhanh chóng, với các cách tìm kiếm linh hoạt, mà không làm giảm hiệu suất khi lượng dữ liệu tăng lên.

Với những hạn chế này, chúng tôi đã sử dụng Elaticsearch trong Công cụ lập chỉ mục của chúng tôi. Trải nghiệm trước đây của chúng tôi với CouchDB cho một tài nguyên khác, cho phép chúng tôi chuyển đổi dễ dàng sang sử dụng Elaticsearch và chúng tôi là những người đầu tiên sử dụng Elaticsearch (khoảng v0.5.x). Ngay cả ở giai đoạn phát triển trước đó, Elaticsearch đã là một công cụ có giá trị trong kho vũ khí của chúng tôi và chúng tôi không nghi ngờ gì nó có thể phù hợp với nhu cầu của chúng tôi.

Áp dụng thành công của chúng tôi trong việc xây dựng MyGene.info thành một dịch vụ có khả năng mở rộng cao, chúng tôi đã tiếp tục xây dựng MyVariant.info để giải quyết cảnh quan dữ liệu bị phân mảnh hơn nữa của thông tin biến thể di truyền. MyVariant.info hiện có hơn 334 triệu biến thể gen duy nhất từ ​​hơn 14 cơ sở dữ liệu.

Người dùng có thể tìm kiếm một hoặc hàng ngàn đối tượng JSON hoặc biến thể cụ thể bằng cách sử dụng các thuật ngữ truy vấn linh hoạt và chỉ trả về thông tin mà họ quan tâm. Nếu họ chỉ quan tâm đến các chú thích biến thể từ dbSNP hoặc chú thích gen từ sâu, họ có thể chỉ định các bộ lọc đó trong tìm kiếm của họ. Quan trọng nhất, người dùng đã nhận được kết quả của họ một cách nhanh chóng. MyGene.info đã xử lý lưu lượng truy cập từ> 5000 người dùng đồng thời cho khoảng 10.000 yêu cầu mỗi phút; và hơn 95% yêu cầu người dùng thực tế mất ít hơn 30 ms để xử lý. Nó nhận được yêu cầu từ hơn 4000 địa chỉ IP duy nhất trên cơ sở hàng tháng.

Theo dõi thành công của chúng tôi

Chúng tôi đã có BioGPS.org , một tài nguyên thân thiện với người dùng, được sử dụng tốt, ban đầu sử dụng CouchDB (v1). Khi chúng tôi di chuyển dịch vụ sang sử dụng MyGene.info, chúng tôi muốn có một cách để phân biệt lưu lượng MyGene.info đến từ BioGPS.org từ các khách hàng khác nhau của chúng tôi (python, R, v.v.). Chúng tôi đã sử dụng Kibana để giúp trực quan hóa các nguồn và lưu lượng truy cập khác nhau cho MyGene.info và MyVariant.info. Cả MyGene.info và MyVariant.info đều có hai điểm cuối và Kibana là một cách dễ dàng để chúng tôi kiểm tra việc sử dụng các điểm cuối dịch vụ của chúng tôi.

Mở rộng theo hướng sinh học khác

MyGene.info hiện có 10 phân đoạn trải rộng trên hai nút web, ba nút chính và ba nút dữ liệu. Nhân rộng từ 13 triệu gen để bao gồm 334 triệu biến thể, MyVariant.info được tạo thành từ 20 phân đoạn trải rộng trên ba nút web, ba nút chính và năm nút dữ liệu. Chúng tôi sử dụng bộ cân bằng tải để xử lý các truy vấn đến các nút web của mình để đảm bảo xử lý nhanh và ổn định. Đưa ra những bài học kinh nghiệm về nhân rộng khi chúng tôi phát triển MyVariant.info sau MyGene.info, chúng tôi hy vọng có thể dễ dàng mở rộng phạm vi đến các khu vực nghiên cứu khác với sự phân mảnh dữ liệu dư thừa. Dữ liệu chú thích gen và dữ liệu chú thích biến thể chỉ là hai ví dụ về dữ liệu của Bio BioThings với các nguồn dữ liệu bị phân mảnh và chúng tôi hy vọng sẽ mở rộng dịch vụ của mình để sử dụng nhiều hơn cho cộng đồng nghiên cứu.

URL blog của chúng tôi là: https://www.elastic.co/blog

|