Học tập củng cố sâu: Giải quyết các thách thức doanh nghiệp phức tạp


Phạm Thúy Loan
8 tháng trước
Hữu ích 3 Chia sẻ Viết bình luận 0
Đã xem 6298

Các thuật toán và phương pháp học sâu hiện tại không ở đâu gần chén thánh của Trí tuệ tổng hợp nhân tạo (AGI).

Các thuật toán hiện tại nghiêng nhiều hơn về học tập hẹp, có nghĩa là chúng giỏi học và giải quyết các loại vấn đề cụ thể trong các điều kiện cụ thể. Các thuật toán này có một lượng dữ liệu khổng lồ so với con người có thể học hỏi từ các cuộc gặp gỡ học tập tương đối ít. Quá trình chuyển giao các bài học này từ một miền vấn đề sang một miền khác cũng bị hạn chế.

Gần đây, học tăng cường (RL) đã được phổ biến so với các kỹ thuật học sâu khác. Sự ồn ào xung quanh việc học tăng cường bắt đầu với sự ra đời của AlphaGo của DeepMind. AlphaGo được xây dựng để chơi trò chơi Go rất phức tạp. Bản chất của RL là nó có thể đào tạo các mô hình thông qua sự tương tác với môi trường và học hỏi và hiệu chỉnh từ những sai lầm của chúng. Việc học diễn ra thông qua một hệ thống khen thưởng bị trì hoãn và tích lũy, trong đó một tác nhân suy ra một hành động, sau đó hành động trên môi trường để tạo ra sự thay đổi trạng thái. Tác nhân thực hiện hành động tốt nhất tiếp theo dựa trên phần thưởng bị trì hoãn tối ưu hóa. Hệ thống duy trì việc học và nhớ lại hành động tốt nhất khi có tình huống tương tự xảy ra.

Tính năng này của RL - để cải thiện và phát triển mà không cần sự can thiệp liên tục của con người hoặc chương trình - làm cho nó trở nên thú vị đối với các vấn đề trong thế giới thực như lái xe tự trị. Câu đố lái xe tự trị không thể được giải quyết chỉ bằng AI thông thường, mà thường thúc đẩy tầm nhìn của máy tính bằng cách sử dụng Mạng thần kinh chuyển đổi ( CNN ). Lái xe tự động không thể được mô hình hóa như một vấn đề học tập có giám sát do tương tác mạnh mẽ với môi trường, bao gồm các phương tiện khác, người đi bộ, hành vi lái xe và cơ sở hạ tầng đường bộ. Ở mức độ trừu tượng, một tác nhân lái xe tự trị là việc thực hiện ba bước của các nhiệm vụ tuần tự: cảm giác (nhận biết), kế hoạch và kiểm soát.

Hình 2: Các nhiệm vụ tuần tự lái xe tự động

Vấn đề nhận dạng đã được giải quyết với độ chính xác cao với những tiến bộ trong tầm nhìn máy tính. Bây giờ chúng tôi có khả năng phát hiện người đi bộ, hạn chế không gian, không gian trống giữa các phương tiện, biển báo giao thông với sức mạnh tính toán thấp và độ chính xác cao. Kế hoạch đường dẫn là phần khó khăn nhất của câu đố. Người ta cần thực hiện một loạt các yếu tố đầu vào môi trường và kết hợp các nhận thức và dự đoán để lập biểu đồ cho các hành động lái xe trong tương lai giúp điều khiển phương tiện an toàn đến đích (phần thưởng) bằng cách tránh mọi tai nạn / sự chậm trễ (hình phạt). Nhiệm vụ điều khiển tương đối dễ dàng, vì đơn giản chỉ cần truyền tín hiệu đến tốc độ (phanh, chân ga) hoặc điều khiển hướng (lái).

Điều làm cho RL trở nên hấp dẫn và phù hợp cho việc lái xe tự trị là thực tế rằng lái xe là một vấn đề đa người chơi, đa trạng thái liên quan đến các cuộc đàm phán và tương tác ngầm. Có thể có hàng ngàn kết hợp trong khi đi vào hoặc ra khỏi đoạn đường cao tốc hoặc đàm phán một bùng binh đông đúc. Tính khí lái xe, trình độ kỹ năng và mức độ kinh nghiệm không thể được lập trình với việc học có giám sát. Thông qua các kỹ thuật thăm dò và khai thác, RL có thể là một công cụ tuyệt vời cho các trường hợp ranh giới, vì nó có thể học hỏi từ kinh nghiệm và hành động của chính nó dẫn đến một phần thưởng. RL, theo một cách nào đó, bắt chước chặt chẽ việc ra quyết định của con người - nó giống như học lái xe đạp bằng cách thử và sai. Về mặt toán học, mô hình trạng thái này được giải thích tốt nhất với  Quy trình quyết định Markov (MDP).

Những tiến bộ trong học tập củng cố đang dần giải quyết một số thách thức của các yêu cầu dữ liệu đào tạo khổng lồ và nhu cầu tính toán mạnh mẽ. Có tiến bộ mới trong  DQN (Sâu Q Mạng nơi Q mô hình toán học các chức năng phần thưởng), nơi một đại lý AI có thể học lái xe chỉ bằng cách quan sát những cảnh tổng hợp với dặm hầu như mô phỏng. Điều ngạc nhiên là học tập này có thể xảy ra mà không có nhiều thông tin trước về thực tế dặm vật lý điều khiển. Các DQN hiện tại có một số hạn chế, đặc biệt là khi xử lý không gian quan sát chiều cao như lái xe tự trị, là một miền liên tục. Tiến bộ đáng kể đang được thực hiện trong không gian này với những đổi mới của Google Deepmind với  Gradient Chính sách xác định sâu (DDPG) thuật toán để giải quyết những hạn chế này.

Đúng  Cấp 4+ lái xe tự trị theo quy định của SAE vẫn còn nhiều năm nữa. Những gì trong tương lai sắp xảy ra là chia sẻ di động và công nghệ tự trị làm việc cùng với con người. Những tiến bộ công nghệ sẽ giải quyết các trường hợp sử dụng về an toàn cho người lái, tăng cường kết nối V2X và lái xe tự trị trong các điều kiện quy định như trên đoạn đường cao tốc.

Có khá nhiều ngành công nghiệp khác mà RL có thể là một người thay đổi cuộc chơi. Một ví dụ khác, robot trên sàn nhà máy ngày nay hầu hết hoạt động trên các đường dẫn được xác định trước và các khu vực hạn chế. Với thuật toán RL tận dụng các thuật toán hành động của chương trình khuyến mại quốc tế về phần mềm hành động (SARSA) , Rô bốt có thể tìm và đàm phán các đường dẫn tối ưu với nhiều mức độ tự do hơn trên sàn nhà máy. Robot có thể trở thành một bộ phận tích hợp và cùng tồn tại an toàn với con người và các thiết bị nhà máy khác. Các tiến bộ RL dẫn đầu và lấy cảm hứng từ trò chơi trong việc tránh chướng ngại vật có thể đóng một vai trò quan trọng trong việc cung cấp một cơ chế an toàn, không va chạm và an toàn cho robot để điều hướng. Hãy nghĩ về những cơ hội mà nó có thể mở ra nơi robot có thể mang nguyên liệu từ kho và tải nó lên dây chuyền lắp ráp - tất cả nằm trong một hệ thống quản lý kho và ERP mở rộng.

Các yếu tố đang dân chủ hóa việc áp dụng học tập sâu là sự sẵn có của các thư viện trừu tượng như  Keras . Các thư viện này che giấu sự phức tạp toán học liên quan đến các hoạt động tenor khác nhau và cho phép bạn tập trung vào phát triển mô hình, điều chỉnh siêu tham số và triển khai mô hình để thực hiện dự đoán. Để minh họa, đoạn trích đoạn mã Keras 9 dòng bên dưới xây dựng một DQN học tập được củng cố chức năng với một lớp ẩn và một lớp đầu vào có 12 nơ-ron.

Hình 3: Đoạn mã Keras để thực hiện DQN

Các giao diện nguồn mở như phòng tập thể dục OpenAI cung cấp một bộ các nhiệm vụ học tập củng cố. Họ cung cấp môi trường nơi các nhà phát triển có thể mang các thuật toán của họ được phát triển theo hướng phụ thuộc vào sự lựa chọn của họ cho dù đó là TensorFlow of Theano. Sự trưởng thành của các nền tảng như CUDA, thúc đẩy hơn nữa sức mạnh tính toán GPU, Bộ xử lý kéo căng (TPU), chip mạng thần kinh, v.v. đã góp phần đáng kể vào tiến trình học tập sâu.

Các doanh nghiệp sẽ cần một tư duy mới để khai thác triệt để các xu hướng học tập sâu mới nổi này. Tối thiểu, họ sẽ cần truy cập vào các môi trường điện toán hiệu năng cao (HPC) có thể hỗ trợ tạo mẫu, mô phỏng, biến đổi, kết xuất, trực quan hóa và đào tạo. Các doanh nghiệp sẽ cần các nguồn lực có kỹ năng kết hợp một loạt các ngành khoa học máy tính và kỹ thuật và hiểu biết về các khái niệm khoa học máy và dữ liệu.

Xu hướng quan trọng này để chuyển từ lập trình dựa trên quy tắc sang AI dựa trên quy tắc sẽ tiếp tục phát triển thành lập trình không điều chỉnh với RL. Tôi thấy trước những thách thức vì mạng lưới thần kinh RL rất khó đào tạo do nhu cầu dữ liệu đào tạo cực kỳ cao. Phải mất một lượng thời gian và nguồn lực đáng kể để thu thập các phân đoạn thú vị (điều khiển mang lại kịch bản và điều kiện mới) cho các thuật toán học tập. Một chiếc xe tự trị được trang bị nhiều Nắp, camera và các cảm biến khác có thể tạo ra hàng petabyte dữ liệu trong vài giờ.

Bí quyết là để tạo dặm ảo và sử dụng kỹ thuật mô phỏng hiện đại để cải thiện tính chính xác của các dự đoán. Tôi thấy trước vai trò của GAN ( Mạng đối thủ tạo ) là một công nghệ để tạo ra dữ liệu tổng hợp trở thành xu hướng. GAN là các mạng đấu tay đôi được đọ sức với nhau như hai võ sĩ. Phần tạo của mạng lưới thần kinh tạo ra dữ liệu giả và phần phân biệt đối xử của mạng lưới thần kinh đánh giá tính xác thực. Trong một khoảng thời gian, trình tạo trở nên tốt đến mức người phân biệt đối xử không thể phân biệt giữa dữ liệu giả và dữ liệu thực. Trong thế giới lái xe tự trị, GAN có thể lấy kịch bản lái xe thực tế và tạo ra các kịch bản đa dạng bằng cách thêm các điều kiện thời tiết, ánh sáng và tắc nghẽn khác nhau và tạo ra các cảnh tổng hợp mang tính phaticealistic và có thể được sử dụng để đào tạo.

Một thách thức khác sẽ là tính xác minh và khả năng giải thích của các thuật toán học sâu. Đây vẫn là một lĩnh vực mà rất nhiều nghiên cứu đang diễn ra. Vào cuối ngày, toàn bộ giải pháp cần phải đạt tiêu chuẩn ô tô và tuân thủ ASIL ( Cấp độ toàn vẹn an toàn ô tô ) và cung cấp khả năng truy nguyên trong mỗi quyết định mà thuật toán AI đưa ra.

Một mối quan tâm khác mà tôi có là kỹ thuật tính năng cho phép định hình lại dữ liệu bằng kiến ​​thức miền vẫn là một kỹ năng khoa học dữ liệu quan trọng đang bị thiếu hụt. Không có sự thay thế cho kỹ thuật tính năng phù hợp để cải thiện độ chính xác của các mô hình dự đoán. Một số nền tảng AutoML hiện đại ngày càng thông minh hơn để loại bỏ các tính năng yếu và loại bỏ nhiễu khỏi tín hiệu. Các nhóm nhạc bên phải  của các mô hình khác nhau sẽ tiếp tục rất quan trọng. Rốt cuộc, bạn cần một chút tất cả mọi thứ - như XGBoost và một số lượng phương tiện k - để cung cấp dự đoán tốt nhất cho các vấn đề trong thế giới thực!

Những công nghệ thú vị này sẽ tìm thấy ngôi nhà của họ trong nhiều lĩnh vực và mang lại những cải thiện đáng kể cho chất lượng cuộc sống của chúng tôi và giải quyết một số thách thức khó khăn nhất của nhân loại.


Bài viết này được trình bày bởi  Intellectus , một cộng đồng lãnh đạo tư tưởng chỉ dành cho các chuyên gia. Kiểm tra tư cách của bạn . 

Thông tin về các Tác giả

Raman Mehta  là CIO tại  Visteon . Raman đã giành được một số giải thưởng lãnh đạo bao gồm tạp chí CIO 2017, Giải thưởng CIO 100 năm 2013, Giải thưởng 100 nhà lãnh đạo CNTT hàng đầu năm 2012 của Computerworld và giải thưởng CIO của Detroit Business CIO.

Về trí tuệ

Intellectus là một cộng đồng độc quyền, chỉ mời các chuyên gia và nhà phân tích nổi tiếng đến với nhau để chia sẻ nghiên cứu, hiểu biết và quan điểm của họ về các chủ đề xu hướng trong các ngành công nghiệp tương ứng của họ trên các ấn phẩm cấp cao. Mục tiêu của chúng tôi là trao quyền cho các chuyên gia trong ngành và làm cho những suy nghĩ của họ được cả thế giới biết đến.

Hữu ích 3 Chia sẻ Viết bình luận 0
Đã xem 6298