Quản lý hộp thoại như một công nghệ chính cho các hệ thống đàm thoại


Bùi Xuân Sơn
2 năm trước
Hữu ích 2 Chia sẻ Viết bình luận 0
Đã xem 5736

Sau đây là một số lưu ý và điểm nổi bật từ một cuộc thảo luận của hội thảo rất thú vị về các nguyên tắc công nghệ từ các công ty hàng đầu cung cấp các tác nhân đàm thoại (ví dụ như chatbot, trợ lý cá nhân, v.v.)

  • Hội nghị: Tương tác đàm thoại
  • Phiên: Quản lý hộp thoại như một công nghệ chính cho các hệ thống đàm thoại
  • Ngày: 6 tháng 2 năm 2018, tại San Jose, CA

Ai đã tham gia hội thảo:

  • Ilya Gelfenbeyn, Giám đốc sản phẩm chính, Dialogflow tại Google : Ilya đã làm việc trên các tác nhân đàm thoại trong hơn một thập kỷ. Tập trung vào việc hỗ trợ các cuộc hội thoại với nhiều lượt phục vụ nhiều phụ trợ. Hộp thoại là nền tảng chính của Google để mở rộng Google Assistant. Đây là một công cụ đa nền tảng được sử dụng bởi các bot Facebook và các trợ lý khác. Trọng tâm là các vấn đề tạo ra các cuộc trò chuyện thực sự.
  • Alborz Geramifard, Giám đốc học máy tại Amazon : Ông bắt đầu xây dựng Alexa mà chúng ta thấy ngày nay và đã xây dựng một nhóm để giải quyết các thách thức được đưa ra bởi các cuộc trò chuyện kết thúc mở dài hơn, với mục tiêu thúc đẩy AI đàm thoại. Trọng tâm là ít cơ học và giao dịch để cá nhân hóa hơn và trải nghiệm giọng nói tự nhiên.
  • Nirmal Mukhi, Nhà phát minh bậc thầy tại IBM Watson Education : Áp dụng công nghệ AI vào giáo dục, chủ yếu tập trung vào dạy kèm. Làm việc trên mục tiêu khó hơn là tạo ra trải nghiệm dạy kèm cho bất kỳ phần nội dung nào. Các trường hợp sử dụng này yêu cầu giải quyết các vấn đề liên quan đến việc tạo ra các tương tác đàm thoại phong phú.

Marie Meteer (người điều hành và là thành viên của Nhóm Đối thoại Nâng cao AVIOS ) đã đưa ra một số nhận xét mở đầu :

Có những ví dụ trên thị trường ngày nay của các hệ thống đàm thoại thực sự mà bạn có thể nhanh chóng mô tả? Giả sử có nhu cầu, hội thảo này chủ yếu đặt câu hỏi, Cái gì ngăn chúng ta tạo ra các hệ thống đàm thoại thực sự?

Trước khi chúng tôi hỏi câu hỏi này trực tiếp hơn, hãy xây dựng nó. Hầu hết các hệ thống thương mại ngày nay dường như sử dụng một cách tiếp cận đầy đủ hình thức trên mạng xã hội để điều khiển cuộc trò chuyện. Bạn có nghĩ rằng phương pháp này là đủ cho phần lớn các ứng dụng? Cách tiếp cận nào mạnh hơn 'điền vào mẫu' và 'trả lời câu hỏi'? Những cách tiếp cận nào bạn nghĩ rằng chúng ta sẽ cần phải áp dụng để tạo ra các cuộc trò chuyện linh hoạt hơn?

Đây là câu hỏi chính của hội thảo của chúng tôi: Điều gì ngăn chúng tôi tạo ra các hệ thống đàm thoại thực sự?

Rào cản là gì và làm thế nào chúng ta có thể vượt qua chúng để tạo ra các hệ thống đàm thoại thực sự? Trải nghiệm người dùng tốt nhất hiện nay dường như là kết quả của các cá nhân tài năng hơn là kết quả của các phương pháp thiết kế có thể tái tạo. Có một phương pháp nào có thể được áp dụng nhất quán để tạo ra các thiết kế giao diện người dùng tốt cho các hệ thống đàm thoại không?

Vui lòng thảo luận về nhận thức của bạn về nhu cầu trên thị trường cho các hệ thống đàm thoại thực sự.

Ilya : Xác định hệ thống đàm thoại thực sự là gì: hỗ trợ bối cảnh của cuộc trò chuyện, có nhiều chủ đề, hiểu người nói.

Nhu cầu từ các công ty là rất lớn, nhưng từ người tiêu dùng, nhu cầu được thúc đẩy bởi những kỳ vọng. Nếu bạn hỏi người dùng, họ không mong muốn trợ lý nhận thức được bối cảnh hoặc hỗ trợ làm rõ các câu hỏi. Chúng được sử dụng cho các công cụ tìm kiếm, vì vậy khi chúng tôi nói bây giờ bạn có thể hỏi câu hỏi của bạn một cách tự nhiên, chúng tôi không thấy người dùng thực sự làm điều đó hoặc sử dụng các câu hỏi làm rõ.

Ví dụ về một truy vấn phức tạp: Thời tiết ở San Jose sẽ như thế nào? Bây giờ, đặt một khách sạn ở đó. Hoặc là sinh nhật của vợ tôi, nên đặt hoa . Người dùng không nghĩ rằng các hệ thống thực sự có thể làm điều này. Khi họ tin rằng các hệ thống có thể hỗ trợ những hệ thống đó, thì chúng ta sẽ thấy nhu cầu tăng lên.

Alborz : Rất nhiều công ty đều hào hứng đưa cuộc trò chuyện lên một tầm cao mới. Nhưng
có những khoảng trống lớn. [Hiển thị video giới thiệu Moviebot.] Moviebot hiển thị một cuộc trò chuyện dài trong đó người dùng hỏi rất nhiều câu hỏi tiếp theo về đạo diễn, phim, diễn viên, cốt truyện, xếp hạng, nơi bạn có thể xem, v.v. Nó có những phẩm chất thú vị: một số cá nhân hóa, một số tùy chỉnh. Nó đã được đưa ra để xem mọi người sẽ có cuộc trò chuyện dài hơn với nó. Mặc dù hầu hết các chủ đề chỉ là một truy vấn / lệnh, thời lượng hội thoại Moviebot trung bình lớn hơn và đa dạng hơn nhiều.

Nirmal : Nhu cầu không có vì công nghệ không có. Nhưng khi chúng tôi mở nó ra, chúng tôi sẽ gặp phải
các vấn đề, chẳng hạn như bao nhiêu lần Moviebot nói rằng Steven Steven Spielbergiến và không sử dụng các
đại từ cốt lõi . Chúng tôi làm điều này một cách tự nhiên, nhưng học máy và NLU vẫn chưa đạt được điều này. 

Có những ví dụ trên thị trường bây giờ nơi chúng ta thấy các hệ thống đàm thoại thực sự?

Alborz : Chúng tôi không thấy bất cứ điều gì ngoài đó. Đó là lý do tại sao chúng tôi thiết lập Alexaprize : giải thưởng 2,5 triệu đô la để xây dựng bot để trò chuyện trong 20 phút (hoặc nhận được đánh giá cao nhất). Không ai giành được giải thưởng lớn, nhưng có rất nhiều công việc tốt. Ban đầu, trọng tâm là sử dụng công nghệ mới nhất, nhưng người dùng đã không phản hồi tích cực vì nó không hoạt động. Học máy hiện đại đã được xếp hạng thấp. Nhiều người sau đó bắt đầu chú ý nhiều hơn đến người dùng, vì vậy họ bắt đầu cải thiện bằng cách xem xét cách tương tác có thể được cải thiện.

Ilya : Có một số lĩnh vực thích hợp mà người dùng đang có một số cuộc trò chuyện dài hơn trong các
lĩnh vực cụ thể : câu hỏi về phim, vé xem phim hoặc chủ đề thích hợp nơi mọi người không có động lực để đặt
câu hỏi ngẫu nhiên. Thiết lập kỳ vọng là chìa khóa để thành công.

Nirmal : Chìa khóa là thiết lập trạng thái và bối cảnh và có thể hiểu ngôn ngữ trong
bối cảnh đó . Những gì IBM Watson đang làm là cụ thể hơn. Ví dụ: gia sư Watson, là một
hệ thống dạy kèm nhận thức. Đó là một cửa sổ trò chuyện (không phải giọng nói) nhưng đa phương thức trong việc cung cấp các loại tài liệu học tập khác nhau. Sự tương tác là trạng thái và đàm thoại. Nó sử dụng hộp thoại của Soc Socaticatic trong đó hệ thống đặt câu hỏi và câu trả lời của người dùng (khác với Alexa hoặc Google Assistant, nơi người dùng hỏi hệ thống). Nó bắt đầu với một câu hỏi chung và được cụ thể hơn. Sinh viên có thể nói rằng họ muốn đọc lại tài liệu. Hệ thống cung cấp một phần có liên quan để đọc. Học sinh trở lại và câu hỏi tiếp tục. Hệ thống có thể tạo ra các câu hỏi một cách nhanh chóng để khiến học sinh tạo ra các câu hỏi cụ thể hơn và cũng có thể nhận ra khi học sinh trả lời đúng nhưng sử dụng từ ngữ khác với các câu hỏi. Học sinh có thể đặt câu hỏi. Nếu câu hỏi không đúng, gia sư sẽ trả lời và giúp đưa họ trở lại đúng hướng. Hộp thoại có thể là năm hoặc 30 lượt hội thoại. Mục tiêu là để giữ cho sinh viên tham gia và đáp ứng các mục tiêu giáo dục. Bạn có thể có các thuật toán học máy tốt nhất, nhưng điều quan trọng là phải có giọng điệu và từ ngữ phù hợp để giữ cho học sinh tích cực và gắn kết.

Những cách tiếp cận nào chúng ta cần áp dụng để có những cuộc trò chuyện linh hoạt hơn này?

Alborz : Để đi đến cấp độ tiếp theo, chúng tôi cần tạo một vòng phản hồi nơi chúng tôi có thể có các cuộc hội thoại và nhận thông tin / phản hồi trực tiếp. Vì vậy, tôi có thể thay đổi cách tôi tương tác. Khi người dùng âm tính, chúng ta cần thay đổi. Khi phản hồi tích cực, tôi có thể củng cố hoạt động đó. Đối với học máy, chúng ta cần rất nhiều dữ liệu. Để có được nhiều dữ liệu, chúng ta cần nhiều tương tác tích cực hơn. Để thu thập dữ liệu đó, trình quản lý hộp thoại phải hoạt động. Một lần nữa, gà và trứng: cần một chính sách tốt để có được một trình quản lý hộp thoại tốt. Nhưng để có được một trình quản lý hộp thoại tốt, bạn cần một chính sách tốt. Nghiên cứu hiện tại đang cố gắng sử dụng người dùng mô phỏng để có thêm dữ liệu (xem NIPS 2017 ).

Nirmal : Để quản lý, chúng tôi không có công cụ. Nó vẫn đòi hỏi rất nhiều sự phát triển kỹ thuật. Chúng ta cần tạo ra các công cụ để có thể đẩy về phía trước để có thể làm được nhiều hơn.

Ilya: Công cụ rất quan trọng và gây chú ý cho vấn đề. Chúng ta cần nhìn vào các mục tiêu. Tại sao chúng ta cần những hệ thống đàm thoại thực sự này? Khi thực hiện hộp thoại định hướng nhiệm vụ, trợ lý đang điều phối nhiều hệ thống con khác nhau. Chúng tôi phải kết hôn với bên thứ ba này với "bot chính". Vì vậy, chúng ta cần chia sẻ bối cảnh giữa các ứng dụng. Nhưng điều đó đặt ra câu hỏi bảo mật. Quản lý hộp thoại chỉ là một phần, chỉ tập trung vào hộp thoại - việc ra quyết định cũng quan trọng không kém nhưng không nhất thiết phải phân biệt bởi người dùng. Chúng ta cần kết nối với các biểu đồ tri thức của các ứng dụng, nhưng điều đó khó khăn với nhiều biểu đồ. Việc tiếp xúc người dùng với các hệ thống khác nhau rất khó vì người dùng không có quyền truy cập để biết họ đang ở đâu trong hệ thống. Những hệ thống họ đang thực sự nói chuyện với? Từ góc độ tương tác người dùng, người dùng không nên quan tâm đến trạng thái của cuộc trò chuyện. Họ có thể để cho trợ lý xử lý tất cả các thông tin.

Alborz : Về mặt đơn giản, điều này là đúng, nhưng bảo mật thực sự quan trọng đối với người dùng, vì vậy sẽ có những người dùng sẽ phản đối thông tin của họ giữ thông tin cá nhân của họ. Lòng tin của khách hàng trở nên thực sự quan trọng.

Ilya : Về mặt kỹ thuật, bảo mật rất quan trọng, nhưng từ phía người dùng, đó không phải là điều họ muốn nghĩ tới.

Nirmal : Khi chúng tôi có các hành động với nhiều bước, người dùng cần biết chúng tôi đang ở giai đoạn tương tác nào.

Câu hỏi của khán giả :

Nhắn tin, mọi người hiểu lầm nhau mọi lúc. Giọng nói dễ hơn. Có ai trong số các bạn đang nhìn vào nhận ra trạng thái cảm xúc của giọng nói không? Điều này có thể tác động đến cảm giác về an ninh.

A : Amazon rất vui mừng về điều này. Họ đang làm việc trên nó, mặc dù người dùng bị chia rẽ; một số không
muốn cảm xúc của họ được phân tích.

I : Đối với Dialogflow, hầu hết các hệ thống không cung cấp văn bản, nhận dạng giọng nói và cảm xúc ít hơn nhiều cho các nhà phát triển bên thứ ba, vì vậy điều đó rất thú vị, nhưng chúng tôi cần xem xét làm thế nào để có được quyền của người dùng.

N : Một số phát hiện này xảy ra qua nhiều lượt. Chúng ta cần theo dõi những thay đổi trong cảm xúc.

I : Đây là một vấn đề đặc biệt với trẻ em.

Hình thức được sử dụng bên dưới Moviebot (hoặc các ứng dụng khác trong Amazon) là gì? Điều gì đưa vào
bối cảnh tài khoản? [Trân trọng, tôi, Emmett Coin, đã hỏi điều này!]

Trả lời : Moviebot đã cố gắng giải quyết vấn đề gà / trứng bằng cách thu thập dữ liệu về thứ gì đó có nhiều tương tác. Trong quá trình tạo ra điều đó, chúng tôi thấy rằng có những sự lặp lại, vì vậy chúng tôi đã tạo ra một cách để theo dõi những gì đã được cho là có thể theo dõi trạng thái hộp thoại - giống như một cách tiếp cận dựa trên quy tắc trong đó theo dõi những gì không thể hiểu được .

N : Các chính sách tương tự trong việc hiểu ngữ cảnh và tài liệu tham khảo, theo dõi điều cuối cùng đã nói và
đôi khi phức tạp hơn dựa trên loại cuộc trò chuyện. Cần phải có vòng phản hồi đó để có
thể cải thiện sau khi thực tế hoặc trực tuyến.

Giữa con người và bot, có sự học tập củng cố và giữa bot và bot. Làm thế nào để
bạn học tăng cường?

A : Khi tương tác giữa người với người cần tìm ra khi nào con người hài lòng. Nhưng khi bạn tạo một bot, bạn có thể biết những gì bên trong bộ não của bot, vì vậy bạn có thể theo dõi sự hài lòng của bot. Khi một hộp thoại đưa ra quyết định, bạn có thể ngay lập tức gán tín dụng.

[Lưu ý: nếu bạn đang làm việc trên các hệ thống đàm thoại, bạn nên xem xét hội nghị Tương tác đàm thoại vào năm tới. Tôi sẽ gặp bạn ở đó!]

Hữu ích 2 Chia sẻ Viết bình luận 0
Đã xem 5736