Helpex - Trao đổi & giúp đỡ Đăng nhập

GloVe và fastText - Hai mô hình vectơ từ phổ biến trong NLP

Miklov và cộng sự. đã giới thiệu cho thế giới sức mạnh của vectơ từ bằng cách hiển thị hai phương pháp chính: Bỏ qua – GramTúi từ liên tục (CBOW) . Ngay sau đó, hai phương pháp nhúng từ phổ biến hơn được xây dựng dựa trên các phương pháp này đã được phát hiện. Trong bài đăng này, chúng ta sẽ nói về GloVefastText , là những mô hình vector từ cực kỳ phổ biến trong thế giới NLP.

Vectơ toàn cầu (GloVe)

Pennington và cộng sự. cho rằng phương pháp quét trực tuyến được sử dụng bởi word2vec là không tối ưu vì nó không khai thác đầy đủ thông tin thống kê toàn cầu liên quan đến các từ đồng xuất hiện.

Trong mô hình mà họ gọi là Vectơ toàn cầu (GloVe), họ nói: “Mô hình tạo ra không gian vectơ với cấu trúc con có ý nghĩa, bằng chứng là hiệu suất của nó là 75% trong một nhiệm vụ tương tự từ gần đây. Nó cũng làm tốt hơn các mô hình liên quan về các nhiệm vụ tương tự và nhận dạng thực thể được đặt tên ”.

Để hiểu GloVe hoạt động như thế nào, chúng ta cần hiểu hai phương pháp chính mà GloVe được xây dựng dựa trên - phân tích nhân tử ma trận toàn cục và cửa sổ ngữ cảnh cục bộ.

Trong NLP, thừa số hóa ma trận tổng thể là quá trình sử dụng các phương pháp thừa số hóa ma trận từ đại số tuyến tính để giảm ma trận tần số kỳ hạn lớn. Các ma trận này thường đại diện cho sự xuất hiện hoặc vắng mặt của các từ trong tài liệu. Phân tích nhân tử ma trận toàn cục khi áp dụng cho ma trận tần số kỳ hạn được gọi là Phân tích ngữ nghĩa tiềm ẩn (LSA).

Các phương thức cửa sổ ngữ cảnh cục bộ là CBOW và Skip – Gram. Những điều này đã được thảo luận chi tiết trong bài trước . Skip-gram hoạt động tốt với một lượng nhỏ dữ liệu đào tạo và đại diện cho cả những từ được coi là hiếm, trong khi CBOW đào tạo nhanh hơn vài lần và có độ chính xác tốt hơn một chút đối với các từ thường xuyên.

Các tác giả của bài báo đề cập rằng thay vì học các xác suất đồng xuất hiện thô, sẽ hữu ích hơn nếu học các tỷ lệ của các xác suất đồng xuất hiện này. Điều này giúp phân biệt tốt hơn các yếu tố tinh vi trong mức độ liên quan giữa các thuật ngữ và tăng cường hiệu suất trong các nhiệm vụ tương tự từ.

Đây là cách nó hoạt động: Thay vì trích xuất các nhúng từ mạng nơ-ron được thiết kế để thực hiện một tác vụ khác như dự đoán các từ lân cận (CBOW) hoặc dự đoán từ tiêu điểm (Skip-Gram), các nhúng được tối ưu hóa trực tiếp để dấu chấm tích của hai vectơ từ bằng log của số lần hai từ sẽ xuất hiện gần nhau.

Ví dụ: nếu hai từ “mèo” và “chó” xuất hiện trong ngữ cảnh của nhau, hãy nói 20 lần trong một cửa sổ 10 từ trong ngữ liệu tài liệu, sau đó:

Véc tơ (con mèo). Vectơ (con chó) = log (10)

Điều này buộc mô hình phải mã hóa sự phân bố tần suất của các từ xuất hiện gần chúng trong bối cảnh toàn cầu hơn.

fastText

fastText là một phương pháp nhúng từ khác là một phần mở rộng của mô hình word2vec. Thay vì học trực tiếp vectơ cho các từ, fastText biểu thị mỗi từ dưới dạng n-gam ký tự. Vì vậy, ví dụ: lấy từ, " nhân tạo " với n = 3, đại diện fastText của từ này là < ar, art, rti, tif, ifi, fic, ici, ial, al >, trong đó dấu ngoặc nhọn cho biết đầu và cuối từ.

Điều này giúp nắm bắt ý nghĩa của các từ ngắn hơn và cho phép nhúng hiểu các hậu tố và tiền tố. Khi từ đã được biểu diễn bằng ký tự n-gram, một mô hình bỏ qua gram được đào tạo để học cách nhúng. Mô hình này được coi là mô hình túi từ với cửa sổ trượt trên một từ vì không tính đến cấu trúc bên trong của từ. Miễn là các ký tự nằm trong cửa sổ này, thứ tự của n-gram không quan trọng.

fastText hoạt động tốt với các từ hiếm. Vì vậy, ngay cả khi một từ không được nhìn thấy trong quá trình đào tạo, nó có thể được chia nhỏ thành n-gram để nhúng.

Cả Word2vec và GloVe đều không cung cấp bất kỳ biểu diễn vectơ nào cho các từ không có trong từ điển mô hình. Đây là một lợi thế rất lớn của phương pháp này.

Phần kết luận

Dưới đây là một số tài liệu tham khảo cho các mô hình được mô tả ở đây:

Bây giờ chúng ta đã thấy các phương thức vector từ khác nhau có sẵn. GloVe đã cho chúng ta thấy cách chúng ta có thể tận dụng thông tin thống kê toàn cầu có trong một tài liệu, trong khi fastText được xây dựng dựa trên các mô hình word2vec, nhưng thay vì xem xét các từ, chúng ta xem xét các từ phụ.

Bạn có thể hỏi rằng một trong những mô hình khác nhau là tốt nhất. Điều đó phụ thuộc vào dữ liệu của bạn và vấn đề bạn đang cố gắng giải quyết! 

12 hữu ích 0 bình luận 19k xem chia sẻ

Có thể bạn quan tâm

loading