DeepWalk: Phỏng vấn 5 phút


Võ Thông Minh
8 tháng trước
Hữu ích 7 Chia sẻ Viết bình luận 0
Đã xem 6727

"Đồ thị đã trở nên rất mạnh mẽ, chúng là nền tảng và chúng ngày càng trở nên quan trọng hơn", Tiến sĩ Steven Skiena , Giám đốc Viện AI tại Đại học Stony Brook cho biết.

Đồ thị là một phần cơ bản của khoa học máy tính và chúng chỉ ngày càng lớn hơn. Phân tích biểu đồ bằng cách sử dụng máy học là mạnh mẽ nhưng đòi hỏi phải dịch chúng thành các giá trị số. Đó là nơi các thuật toán đồ thị đi vào.

Trong cuộc phỏng vấn kéo dài năm phút trong tuần này (được thực hiện tại GraphConnect 2018 ở NYC), chúng tôi đã nói chuyện với Tiến sĩ Steven Skiena, tác giả của Sổ tay thiết kế thuật toán và Hướng dẫn thiết kế khoa học dữ liệu, về công việc của ông trên DeepWalk, dự kiến ​​sẽ được đưa vào Neo4j thư viện thuật toán đồ thị.


Trọng tâm chính của nghiên cứu của bạn là gì?

Tiến sĩ Steven Skiena: Nghiên cứu của tôi những ngày này đang tập trung rất nhiều vào các nhúng đồ thị. Các nhúng đồ thị là các biểu diễn đa chiều của các đồ thị trong đó các đỉnh được biểu diễn dưới dạng các điểm trong không gian.

Lý tưởng nhất là bạn muốn lấy một biểu đồ và thu nhỏ nó thành các tính năng mà bạn có thể xây dựng trong mô hình học máy. Các mô hình học máy thường hoạt động rất tốt với các giá trị số. Những thứ như hồi quy tuyến tính, máy vectơ hỗ trợ (SVM) và mạng nơ ron hoạt động rất tốt với dữ liệu khi nó ở dạng đại diện số và mục tiêu của chúng tôi là lấy biểu đồ và biểu thị nó trong không gian 100 chiều để 100 chiều này biểu thị Tính năng, đặc điểm.

Đồ thị nhúng không phải là quá nhiều về trực quan hóa đồ thị; bạn sẽ không nhìn vào một bức tranh trong 100 chiều và hiểu ý nghĩa của nó. Nhưng mặt khác, một mô hình học máy có thể rất dễ dàng hiểu được 100 tính năng và bằng cách giảm biểu đồ cho các tính năng này, bạn có thể dễ dàng xây dựng các mô hình thú vị và mạnh mẽ.

Bạn có thể dễ dàng trả lời các câu hỏi về khi nào hai thứ rất giống nhau, kiểm tra xem hai điểm trong không gian chiều cao có giống nhau không, hoặc cuối cùng xác định những gì giống nhau nhất.

Đây là những điều hoàn toàn hợp lý để làm, một khi bạn có một đại diện. Thuật toán nhúng đồ thị của chúng tôi DeepWalk là một cách để có được các loại nhúng này.

Bạn có thể đi vào chi tiết hơn về thuật toán DeepWalk không?

Skiena: Rất nhiều sức mạnh của DeepWalk đến từ ý tưởng nhúng từ. Nhiều người đã nghe nói về Word2Vec . Đó là một cách lấy văn bản tiếng Anh theo cách không giám sát và giảm nó thành các tính năng đại diện cho các từ có nghĩa là gì. Bạn muốn tìm cách sắp xếp các từ sao cho các từ có vai trò tương tự trong ngôn ngữ, như xanh lá cây, vàng và đỏ, gần nhau trong không gian. Điều này rất mạnh mẽ để xây dựng các mô hình ngôn ngữ.

Word2vec lấy ý tưởng này để xây dựng các từ đại diện, về cơ bản, các từ theo vai trò tương ứng của chúng (một cái gì đó giống như, chúng phù hợp trong câu). Theo một cách tương tự, đối với DeepWalk, chúng tôi nghĩ về một biểu đồ như là một từ vựng của các đỉnh và chúng tôi nghĩ về các câu như đang đi trên một biểu đồ.

Đi bộ từ một từ này sang một từ khác đến một từ khác: đó mô tả một câu. Và việc đi bộ từ nút này sang nút khác đến nút khác mô tả bước đi ngẫu nhiên, giờ đây chúng ta có thể coi là một câu cho mục đích xây dựng các nhúng.

Word2vec lấy chuỗi các ký hiệu và từ chúng theo cách không giám sát để tìm hiểu ý nghĩa của các ký hiệu. Chúng tôi sử dụng công nghệ cơ bản của Word2vec để làm một điều tương tự cho các biểu đồ. Điều này đã được chứng minh là mạnh mẽ trong rất nhiều ứng dụng và dường như đang trên đường vào thư viện thuật toán đồ thị tại Neo4j.

Điều thú vị nhất bạn gặp phải trong nghiên cứu thuật toán đồ thị là gì?

Skiena: Thuật toán đồ thị là một lĩnh vực rất thú vị của thiết kế thuật toán. Các thuật toán đồ thị rất phức tạp, nhưng sử dụng chúng không thực sự đòi hỏi kiến ​​thức về độ phức tạp của chúng.

Rất nhiều sức mạnh trong các thuật toán đồ thị đến từ cơ bản là biết cách mô hình hóa những gì bạn đang làm. Bạn có thể xây dựng những thứ mạnh mẽ đáng ngạc nhiên từ các biểu đồ mà không cần biết nhiều về thuật toán cơ bản và cách chúng hoạt động.

Thực tế là đồ thị có mặt khắp nơi trong các mạng xã hội và mạng ở khắp mọi nơi cho bạn biết rằng họ làm những việc rất mạnh mẽ.

Điều gì làm bạn phấn khích về tương lai của công nghệ đồ thị?

Skiena: Đồ thị là một phần cơ bản của khoa học máy tính. Chúng sẽ luôn là một phần cơ bản của khoa học máy tính, nhưng rõ ràng, đồ thị đã ngày càng lớn hơn. Số lượng dữ liệu biểu đồ và số lượng biểu diễn đồ thị đã tăng lên rất nhiều.

Rõ ràng, chúng ta biết về các mạng xã hội và chúng ta biết rằng các biểu đồ dường như ở khắp mọi nơi. Và rõ ràng là xu hướng này có lẽ chỉ đang tăng lên.

Chúng tôi ban đầu xây dựng DeepWalk để xử lý một vài triệu nút. Điều đó nghe có vẻ rất thú vị, ngoại trừ đồ thị ngày càng lớn hơn. Nghiên cứu gần đây của chúng tôi đã tập trung vào việc nhúng biểu đồ phân cấp, thứ mà chúng tôi gọi là HARP, sẽ cho phép bạn thực hiện nhúng cho các biểu đồ lớn hơn bằng thuật toán phân tán.

Còn điều gì bạn muốn nói không?

Skiena: Thật thú vị cho một học giả, đặc biệt là một người đã dành cả đời để dạy các thuật toán đồ thị, để thấy rất nhiều người quan tâm đến đồ thị. Tôi đã rất ngạc nhiên bởi số lượng người và số lượng hoạt động diễn ra trong không gian này.

Một lần nữa, đồ thị đã trở nên rất mạnh mẽ, chúng là nền tảng và chúng ngày càng trở nên quan trọng hơn.

Hữu ích 7 Chia sẻ Viết bình luận 0
Đã xem 6727