Phân tích văn bản: Tìm hiểu sâu sắc trong ấn phẩm khoa học


Nguyễn Thúy Vân
2 năm trước
Hữu ích 2 Chia sẻ Viết bình luận 0
Đã xem 3590

Bạn có thể đọc nhanh không? Thực sự, thực sự nhanh chóng?

Khi bạn bắt đầu đọc blog này, hãy xem xét rằng một người đọc một trang văn bản trung bình trong khoảng hai phút , do đó bạn có thể mất khoảng mười phút để đọc toàn bộ bài đăng này, ít nhiều. Bây giờ hãy tưởng tượng đọc 10 đến 20 trang của một bài báo khoa học. Tiếp theo hãy tưởng tượng đọc hàng trăm, hàng ngàn, hoặc thậm chí hàng triệu bài báo như vậy. Không phải là một nhiệm vụ dễ dàng - thậm chí là khả thi - cho một người hoặc thậm chí cho một nhóm độc giả cuồng nhiệt. Và ngay cả khi một nhóm người có thể đọc nhiều ấn phẩm khoa học trong một thời gian hợp lý, làm thế nào họ kết hợp kiến ​​thức có được và thiết lập mối tương quan giữa các bài báo và điều khoản quan tâm, tìm các mô hình phổ biến liên quan đến một chủ đề cụ thể, v.v.

Đây là một trong những thách thức lớn hiện nay đối với các chuyên gia và nhà nghiên cứu y tế. Ước tính có khoảng hai triệu ấn phẩm khoa học mới xuất hiện mỗi năm (với sự tăng trưởng theo cấp số nhân trong thập kỷ qua), mang lại tổng số hơn 50 triệu ấn phẩm được ghi nhận từ năm 1665, theo một bài báo từ ResearchGate .

Rõ ràng, sự tiến bộ của khoa học - và xã hội - dựa vào các nhà nghiên cứu chia sẻ kiến ​​thức và kết quả của công việc gian khổ của họ thông qua các ấn phẩm khoa học. Tuy nhiên, khi nói đến việc tiêu thụ và khai thác lượng thông tin khổng lồ đó, rõ ràng có cơ hội để cải thiện.

Khoa học dữ liệu có thể giúp đỡ, đặc biệt là với các kỹ thuật và công cụ để phân tích văn bản và xử lý ngôn ngữ tự nhiên (NLP). Phân tích văn bản cung cấp khả năng xử lý một tập hợp lớn dữ liệu phi cấu trúc (trong trường hợp này là văn bản từ các ấn phẩm khoa học) đến dữ liệu đầu ra có thể được phân tích thêm để khám phá những hiểu biết mới. Liên quan đến phân tích văn bản, NLP cung cấp cho máy móc khả năng hiểu các khía cạnh của ngôn ngữ con người, chẳng hạn như mối quan hệ giữa các từ, nhóm các từ thành cụm từ và nhiều hơn nữa.

Đây là người có thể đọc nhanh! (Không phải là người thật, mặc dù ...)

IBM Watson Explorer Content Analytics là một công cụ mạnh mẽ được tạo ra để trợ giúp với loại phân tích này. Nó thu thập và phân tích nội dung có cấu trúc và không cấu trúc từ các tài liệu, cơ sở dữ liệu, trang web và nhiều loại kho lưu trữ dữ liệu khác.

Lưu ý : Bảng tính điển hình với các hàng và cột là ví dụ về nội dung có cấu trúc; nội dung phi cấu trúc bao gồm những thứ như văn bản từ bài viết và email.

Watson Explorer thu thập dữ liệu, phân tích cú pháp và phân tích nội dung để tạo chỉ mục có thể tìm kiếm cho phép các nhà nghiên cứu thực hiện phân tích văn bản trên tất cả dữ liệu và truy vấn chỉ mục để nhanh chóng tìm và truy xuất các tài liệu có liên quan từ danh sách kết quả được xếp hạng. Watson Explorer cũng cung cấp giao diện người dùng khai thác nội dung phong phú cho phép người dùng khám phá dữ liệu tương tác. Điều đó giải phóng các khía cạnh khác nhau, các mối quan hệ và sự bất thường giữa các khía cạnh khác nhau.

Hãy xem xét một trường hợp mà Watson Explorer có thể giúp chúng ta phân tích và rút ra những hiểu biết mới từ các ấn phẩm khoa học. Chúng tôi bắt đầu bằng cách nhập vào Watson Explorer một số lượng lớn các tạp chí y khoa được tải xuống từ một nguồn công khai như Thư viện Y khoa Quốc gia Hoa Kỳ, còn được gọi là PubMed . Thu thập dữ liệu và một số chuẩn bị được yêu cầu để truy xuất các tóm tắt tạp chí hoặc toàn bộ văn bản của các tạp chí trước khi nhập vào Watson Explorer, nơi chấp nhận một số định dạng nhập dữ liệu. Ví dụ của chúng tôi, chúng tôi có tệp CSV (giá trị được phân tách bằng dấu phẩy) với một tiêu đề xuất bản và tóm tắt trên mỗi hàng, sẵn sàng để nhập vào Watson Explorer.

Trong ví dụ này, chúng ta hãy xem các ấn phẩm liên quan đến bệnh truyền nhiễm. Hình 1 cho thấy chúng tôi đã lấy một bộ sưu tập gần 170K ấn phẩm y tế (kéo dài vài thập kỷ) và nhập chúng vào Watson Explorer. Công cụ phân tích văn bản của Watson Explorer phân tích và sắp xếp văn bản đầu vào, chia nó thành các phần của lời nói của ngôn ngữ tự nhiên, chẳng hạn như danh từ, động từ, tính từ, v.v. Công cụ này cũng đưa ra số đếm cho mỗi từ được phân tích cú pháp. Bằng cách chọn một trong những từ, chúng ta có thể thấy nó được tô sáng trong bài tóm tắt y khoa ở bên phải. Chúng tôi cũng có thể truy vấn các điều khoản quan tâm trong một thanh truy vấn trên đầu và xem các điều khoản được tô sáng trong văn bản.

Hình 1: Trực quan hóa các phần của lời nói của ngôn ngữ tự nhiên trong Watson Explorer.

Hiểu ngôn ngữ tự nhiên và thuật ngữ tên miền cụ thể

Bên cạnh việc phân tích ngôn ngữ tự nhiên mặc định có sẵn với Watson Explorer, chúng tôi cũng có thể thêm các phân loại và từ điển từ để giúp chúng tôi phân tích và phân tích văn bản để tập trung vào một tên miền hoặc tên miền cụ thể. Trong ví dụ này, chúng tôi sử dụng phân loại MeSH (Tiêu đề chủ đề y tế) 2017 (hoặc tổ chức phân cấp các thuật ngữ y tế) do Thư viện Y khoa Quốc gia Hoa Kỳ tạo ra, duy trì và cung cấp.

Hình 2 cho thấy phân loại MeSH được trình bày trong trình duyệt cây Watson Explorer dưới dạng Facets. Có một số cấp độ của các khái niệm khác nhau, từ chung chung hơn (ví dụ: Bệnh, Giải phẫu, v.v.) đến các khái niệm cụ thể hơn (ví dụ: tên bệnh thực tế, tên giải phẫu cho các bộ phận cơ thể, v.v.). Watson Explorer sử dụng các mức khái niệm khi duyệt qua nội dung. Ví dụ: bằng cách chọn khái niệm Bệnh ở Cấp độ 0, chúng ta không thấy từ "Bệnh" được chọn trong phần tóm tắt, mà là mỗi và mọi bệnh (theo tên) được tìm thấy trong văn bản.

Hình 2: Phân loại MeSH được biểu thị dưới dạng các mức khái niệm trong Watson Explorer.

Chúng tôi cũng sử dụng cơ sở dữ liệu của DrugBank , một tài nguyên cho dữ liệu thuốc chi tiết, chẳng hạn như dữ liệu hóa học, dược lý và dược phẩm. Hình 3 cho thấy cơ sở dữ liệu này được biểu thị trực quan dưới dạng từ điển trong Watson Explorer thông qua các nút (hoặc Facets) trong trình duyệt cây, nơi chúng ta có thể thấy và duyệt qua các thuộc tính thuốc khác nhau như tên thuốc, chi tiết protein, v.v. Chúng ta cũng có thể thực hiện các truy vấn đối với kho dữ liệu và tìm kết quả liên quan đến thông tin thuốc có sẵn trong từ điển, cũng được hiển thị trong Hình 3.

Hình 3: Cơ sở dữ liệu DrugBank được thêm làm từ điển từ trong Watson Explorer.

Sử dụng truy vấn mạnh mẽ và trực quan hóa

Giờ đây, với các phần mặc định của lời nói bằng ngôn ngữ tự nhiên, phân loại MeSH và cơ sở dữ liệu DrugBank có sẵn trong Watson Explorer, chúng tôi có thể thực hiện truy vấn và điều hướng nội dung. Hãy sử dụng các chế độ xem và khả năng tìm kiếm mặc định trong Watson Explorer. Lưu ý rằng mục đích ở đây không phải là cung cấp một danh sách đầy đủ các khả năng, mà là một ví dụ về cách chúng ta có thể sử dụng công cụ để truy vấn dữ liệu và trực quan hóa các khái niệm và mối quan hệ.

Trong Bảng điều khiển của Watson Explorer được thấy trong Hình 4, chúng tôi có một số khung nhìn được tạo và điền vào khi chúng tôi thực hiện các lựa chọn trong cây Facets. Ví dụ: chúng ta có thể chọn Danh từ chung (từ Phần của bài phát biểu) so với Tên gen (từ từ điển của BankBank). Từ lựa chọn này, các danh từ hàng đầu xuất hiện qua vài tháng xuất bản. Một biểu đồ đặc biệt thú vị xuất hiện có thể giúp chúng tôi điều tra thêm: biểu đồ Cặp mặt cho thấy mối tương quan giữa danh từ và tên gen và "Nhiễm" có mối tương quan cao với "S Gene", được biểu thị bằng vòng tròn màu nâu trong sơ đồ. Nhấp vào vòng tròn đó sẽ nhắc Watson Explorer cập nhật thanh truy vấn, nghĩa là chúng ta không nhất thiết phải nhập văn bản truy vấn để thực hiện các truy vấn mạnh mẽ. Watson Explorer sau đó nhấn mạnh các từ "nhiễm trùng" và "HBsAg" trong phần tóm tắt. Tập hợp con của tóm tắt mà Watson Explorer trả về và đáp ứng truy vấn đó hiện là 219 trong số gần 170.000 mà chúng ta đã bắt đầu, như đã thấy trong Hình 4.

Hình 4: Xem chi tiết bằng biểu đồ Cặp mặt trong Watson Explorer.

Bây giờ, hãy tinh chỉnh truy vấn bằng cách sử dụng các khái niệm từ phân loại MeSH. Trên tab Conception trong Watson Explorer được thấy trong Hình 5, chúng ta có thể hình dung các khái niệm là một phần của MeSH. Khi chúng ta di chuyển thanh trượt các khái niệm từ khái niệm tổng quát hơn sang các khái niệm cụ thể hơn, công cụ hiển thị số lượng khái niệm ở mỗi cấp độ và các vòng tròn biểu thị các khái niệm khác nhau về kích thước và màu sắc tùy thuộc vào mối tương quan của các khái niệm đó với kết quả được truy vấn hiện tại - ví dụ, màu cam đậm và màu đỏ có tương quan cao hơn. Chúng ta có thể di chuyển thanh trượt Mức độ liên quan lên và xuống để bao gồm hoặc loại trừ các khái niệm khỏi chế độ xem. Giả sử chúng ta quan tâm đến việc xem các virus DNA liên quan đến truy vấn ban đầu như thế nào (gen S so với nhiễm trùng). Nếu chúng ta chọn vòng tròn đó và thêm nó vào truy vấn, Watson Explorer sẽ trả về một tập hợp con tóm tắt nhỏ hơn (136 xuống từ 219),

Hình 5: Các khái niệm và sự liên quan của chúng trong Watson Explorer.

Lưu ý trong Hình 5 rằng ngày xuất bản của bản tóm tắt bắt đầu vào năm 1985. Chúng ta có thể tinh chỉnh truy vấn bằng cách xem tab Xu hướng trong Watson Explorer và chọn ngày cụ thể để tập trung vào.

Chúng ta thấy trong Hình 6, tab Xu hướng hiển thị các từ khác nhau trong ngữ cảnh tìm kiếm hiện tại của chúng tôi, theo xu hướng trong suốt nhiều tháng và năm, với các thanh chỉ ra mức độ phổ biến của các từ đó trong các ngày nhất định. Sau khi phân tích các xu hướng, chúng ta thấy rằng từ "kháng nguyên" có vạch màu vàng ở mốc tháng 8 năm 2014, cho thấy mối tương quan mạnh mẽ hơn của từ đó với các thuật ngữ khác trong truy vấn của chúng tôi. Bằng cách nhấp vào thanh đó, Watson Explorer cập nhật các tóm tắt kết quả thành 2 (từ 136) và thêm từ "kháng nguyên" vào các từ được tô sáng trong văn bản ở bên phải, như được thấy trong Hình 6.

Hình 6: Xem các chủ đề xu hướng trong Watson Explorer

Từ kết quả của truy vấn cuối cùng này, phía bên phải của Hình 6 bây giờ hiển thị hai ấn phẩm y tế. Ví dụ, bằng cách mở rộng ấn phẩm đầu tiên trong danh sách, chúng ta có thể đọc bản tóm tắt: tuyên bố rằng các nghiên cứu được thực hiện ở châu Phi cận Sahara năm 2014 đã kết luận rằng các bà mẹ tương lai bị nhiễm virut HIV và viêm gan B và đã được điều trị tránh lây truyền HIV cho thai nhi (kỹ thuật được gọi là thuốc kháng vi-rút trước sinh), cùng với việc xác định sớm trẻ sơ sinh cần tiêm vắc-xin sau khi sinh, có nguy cơ lây truyền viêm gan B sang em bé thấp hơn nhiều. Trên thực tế, thuốc kháng vi-rút là một thực hành được Tổ chức Y tế Thế giới (WHO) khuyến nghị theo bản tin này .

Kết luận và lời cảm ơn

Ví dụ cho thấy cách Watson Explorer vượt xa một truy vấn văn bản điển hình được cung cấp bởi các công cụ tìm kiếm phổ biến. Bạn có thể sử dụng công cụ để nhập một kho lớn các ấn phẩm y tế, thực hiện phân tích và lập chỉ mục nội dung, dựa trên cấu trúc ngôn ngữ tự nhiên, phân loại và từ điển và cung cấp giao diện người dùng để giúp chúng tôi điều chỉnh các truy vấn và tìm các ấn phẩm y tế lãi.

Hữu ích 2 Chia sẻ Viết bình luận 0
Đã xem 3590