Helpex - Trao đổi & giúp đỡ Đăng nhập

Mô hình học máy chấm điểm ở quy mô [Video]

Tại Strata + Hadoop World, Kỹ sư phần mềm MemQuery John Bowler đã chia sẻ hai cách tạo đường ống dữ liệu sản xuất trong MemQuery:

  1. Sử dụng Spark cho tính toán mục đích chung.

  2. Thông qua một biến đổi được xác định trong đường dẫn MemQuery cho tính toán mục đích chung.

Trong video dưới đây, John thực hiện một cuộc biểu tình trực tiếp về MemQuery và Apache Spark để phát hiện sự phân giải thực thể và gian lận trên một tập dữ liệu gồm một trăm nghìn nhân viên và năm mươi triệu khách hàng. John sử dụng MemQuery và viết một công việc Spark cùng với thư viện phân giải thực thể nguồn mở có tên Duke để sắp xếp và chấm điểm kết hợp dữ liệu của khách hàng và nhân viên.

MemQuery thực hiện điều này bằng cách giảm chi phí mạng thông qua Trình kết nối MemQuery Spark cùng với các khả năng không gian địa lý gốc. John tìm thấy 10 triệu cặp khách hàng và nhân viên được gắn cờ hàng đầu trên 5 nghìn tỷ kết hợp có thể chỉ trong ba phút. Cuối cùng, John sử dụng MemQuery Pipelines và TensorFlow để viết một kịch bản Python học máy xác định chính xác hàng ngàn số viết tay sau khi đào tạo mô hình trong vài giây.

Về diễn giả: John Bowler là một Kỹ sư phần mềm tại MemQuery. John có một nền tảng về học máy, thuật toán và kho dữ liệu phân tán. John tốt nghiệp MIT, trước đây đã thực tập tại SpaceX, nơi anh đã giúp viết các thuật toán điều khiển cho động cơ tên lửa SuperDraco.

8 hữu ích 0 bình luận 9.5k xem chia sẻ

Có thể bạn quan tâm

loading