MemQuery 6: Trụ cột sản phẩm và phương pháp tiếp cận máy học


Nguyễn Thảo Mai
2 năm trước
Hữu ích 5 Chia sẻ Viết bình luận 0
Đã xem 7594

Hôm nay đánh dấu một cột mốc quan trọng khác cho MemQuery khi chúng tôi chia sẻ chi tiết về bản phát hành mới nhất của chúng tôi, MemQuery 6. Bản phát hành này gói gọn trong một năm phát triển mở rộng để tiếp tục biến MemQuery thành nền tảng cơ sở dữ liệu tốt nhất để phân tích thời gian thực, tập trung vào kho dữ liệu thời gian thực trường hợp sử dụng.

Ngoài ra, MemQuery 6 mang đến một loạt các khả năng học máy mới cho MemQuery, thu hẹp khoảng cách giữa khoa học dữ liệu và các ứng dụng vận hành.

Trụ cột sản phẩm

MemQuery 6 có ba trụ cột nền tảng:

  1. Khả năng mở rộng
  2. Hiệu suất truy vấn
  3. Hoạt động trực tuyến nâng cao

Hãy khám phá từng thứ một cách chi tiết.

Khả năng mở rộng

Khả năng mở rộng bao gồm thế giới của các thủ tục được lưu trữ, các hàm do người dùng xác định (UDF) và các tập hợp do người dùng định nghĩa (UDA). Cùng với nhau, các khả năng này đại diện cho một cơ chế để MemQuery cung cấp các chức năng trong cơ sở dữ liệu cung cấp khả năng xử lý tùy chỉnh mạnh mẽ.

Đối với những người quen thuộc với các cơ sở dữ liệu khác, bạn có thể biết về PL / SQL (Ngôn ngữ thủ tục / Ngôn ngữ truy vấn có cấu trúc), được phát triển bởi Oracle hoặc T-SQL (Transact-SQL), do Sybase và Microsoft cùng phát triển. MemQuery đã phát triển cách tiếp cận của riêng mình để cung cấp các chức năng tương tự với MPSQL (Ngôn ngữ truy vấn có cấu trúc song song lớn).

MPSQL tận dụng việc tạo mã mới đã được triển khai trong MemQuery 5. Về cơ bản, chúng tôi có thể sử dụng việc tạo mã đó để biên dịch các hàm MPSQL. Cụ thể, chúng tôi triển khai mã máy gốc cho các thủ tục được lưu trữ, UDF và UDA được xếp vào mã được biên dịch mà chúng tôi tạo cho một truy vấn.

Tóm lại, chúng tôi hy vọng MPSQL sẽ cung cấp một mức hiệu suất cao nhất chưa từng thấy trước đây với các chức năng tùy chỉnh của cơ sở dữ liệu khác.

Các chức năng mở rộng MemQuery cũng nhận thức được kiến ​​trúc hệ thống phân tán của chúng tôi. Sự đổi mới này cho phép các chức năng tùy chỉnh được thực thi song song trên một hệ thống phân tán, nâng cao hơn nữa hiệu suất tổng thể.

Lợi ích của khả năng mở rộng bao gồm khả năng tập trung các quy trình trong cơ sở dữ liệu trên nhiều ứng dụng, hiệu suất của các chức năng nhúng và tiềm năng tạo ra các chức năng học máy mới như chi tiết sau trong bài này.

Hiệu suất xử lý truy vấn

MemQuery 6 bao gồm những cải tiến đột phá trong xử lý truy vấn. Một lĩnh vực là thông qua các hoạt động trên dữ liệu được mã hóa. MemQuery 6 bao gồm mã hóa từ điển, có thể dịch dữ liệu thành các giá trị duy nhất được nén rất cao, sau đó có thể được sử dụng để tiến hành quét cực kỳ nhanh.

Hãy xem xét ví dụ về một bộ dữ liệu công khai về mọi chuyến bay của các hãng hàng không ở Hoa Kỳ từ năm 1987 đến năm 2015, như được nêu trong bài đăng trên blog của chúng tôi về việc cung cấp các phân tích tự phục vụ có thể mở rộng.

Với bộ dữ liệu này, MemQuery có thể mã hóa và nén dữ liệu, cho phép quét cực nhanh lên tới một tỷ hàng mỗi giây mỗi lõi.

MemQuery 6 cũng sử dụng các cải tiến cho các tiến bộ của Intel với Hướng dẫn đơn, Nhiều dữ liệu (SIMD). Kỹ thuật này cho phép CPU hoàn thành nhiều hoạt động dữ liệu trong một lệnh, về cơ bản là vector hóa và xử lý song song truy vấn.

Lợi ích của những tiến bộ xử lý truy vấn này bao gồm có chế độ xem dữ liệu chi tiết mà không cần xử lý trước dữ liệu. Điều này tiếp tục cho phép phân tích tương tác trên dữ liệu thô, chưa kết hợp, cung cấp kết quả truy vấn chính xác và cập nhật nhất có thể.

Hoạt động trực tuyến nâng cao

Để tăng sức mạnh cho các ứng dụng quan trọng, các nền tảng dữ liệu phải luôn trực tuyến và với MemQuery 6, chúng tôi đã tăng cường khả năng cho MemQuery hoạt động trực tuyến. Điều này bao gồm phạm vi bảo hiểm trực tuyến rộng hơn cho các hoạt động DDL và thực tế là bất kỳ nút nào cũng có thể thực hiện các hoạt động DDL.

Lợi ích của những cải tiến này bao gồm giám sát và phục hồi tinh vi hơn, phát triển ứng dụng dễ dàng hơn và cải thiện tính khả dụng tổng thể.

Máy học và MemQuery 6

MemQuery 6 giúp thu hẹp khoảng cách giữa các ứng dụng học máy và vận hành trong ba lĩnh vực:

  1. Các chức năng học máy tích hợp
  2. Điểm học máy thời gian thực
  3. Học máy bằng SQL với khả năng mở rộng

Các chức năng học máy tích hợp

MemQuery 6 bao gồm các chức năng học máy mới như  DOT_PRODUCT, có thể được sử dụng để nhận dạng hình ảnh thời gian thực nhưng cũng cho bất kỳ ứng dụng nào cần so sánh hai vectơ. Mặc dù bản thân chức năng này không phải là mới trong thế giới học máy, nhưng MemQuery hiện cung cấp chức năng này trong cơ sở dữ liệu SQL phân tán của nó, cho phép mức hiệu suất và quy mô chưa từng có.

Để biết thêm thông tin, hãy xem bài đăng trên blog này , Một cái nhìn kỹ thuật về học máy thời gian thực.

Ghi điểm học máy theo thời gian thực

MemQuery bao gồm khả năng quản lý các đường ống dữ liệu thời gian thực với các biến đổi tùy chỉnh khi nhập. Chuyển đổi này cũng có thể cung cấp việc thực hiện và ghi điểm bằng mô hình học máy. Ví dụ: bạn có thể chọn lấy mô hình học máy từ SAS và xuất nó bằng PMML, ngôn ngữ đánh dấu mô hình dự đoán.

Điều này cho phép tính điểm theo thời gian thực khi nhập và đồng thời định vị dữ liệu thô và điểm tức thời cạnh nhau trong cùng một hàng trong cùng một bảng. Cấu trúc đơn giản này đặt nền tảng cho các phân tích dự đoán dễ dàng.

Kích hoạt Machine Learning trong SQL với khả năng mở rộng

Các chức năng mở rộng MemQuery mới cũng cho phép một cách tiếp cận mới để học máy trực tiếp bằng SQL. Điều này có thể rút ngắn đáng kể khoảng cách giữa khoa học dữ liệu và ứng dụng sản xuất khi các hoạt động xảy ra trên dữ liệu trực tiếp và các mô hình có thể được đào tạo và cập nhật để kết hợp và phản ánh dữ liệu gần đây nhất.

Gần đây chúng tôi đã giới thiệu một ví dụ về điều này với phân cụm k-mean bằng cách sử dụng SQL và MemQuery nguyên gốc. Bạn có thể xem bản trình bày ở đây trên Sl slideshoware.

Lấy máy học thời gian thực

Với các tính năng mới của MemQuery 6 bao gồm khả năng mở rộng và hiệu năng truy vấn, chúng tôi hy vọng sẽ có nhiều ứng dụng học máy hơn để kết hợp MemQuery làm kho lưu trữ dữ liệu liên tục.

Kiến trúc MemQuery rất phù hợp để hoạt động cùng với các hệ thống máy học khác và các đường ống dữ liệu thời gian thực. Ví dụ: MemQuery bao gồm:

  • Một kiến ​​trúc phân tán, mở rộng phù hợp với hiệu suất và khối lượng công việc quy mô lớn
  • Trình kết nối MemQuery Spark mã nguồn mở cho kết nối thông lượng cao, song song và hai chiều với Spark
  • Tích hợp riêng với hàng đợi tin nhắn Kafka bao gồm khả năng hỗ trợ chính xác ngữ nghĩa một lần
  • Ngữ nghĩa SQL giao dịch đầy đủ để bạn có thể xây dựng các ứng dụng sản xuất cho tuyến đầu của doanh nghiệp của bạn

Cùng nhau, chúng tôi thấy các khả năng này là nền tảng cho khối lượng công việc học máy thời gian thực và chúng tôi mời bạn dùng thử phiên bản mới nhất của MemQuery hôm nay tại đây .

Hữu ích 5 Chia sẻ Viết bình luận 0
Đã xem 7594