Helpex - Trao đổi & giúp đỡ Đăng nhập

U-SQL là gì?

Microsoft đã thực hiện thêm một bước nữa để phân tích dữ liệu lớn dễ dàng hơn với việc giới thiệu ngôn ngữ U-SQL của họ, ngôn ngữ truy vấn mới được thiết kế để chạy trên Azure Data Lake Store. Được công bố vào tháng 9 năm nay, Data Lake Store là một không gian lưu trữ khổng lồ để phân tích số lượng lớn dữ liệu phi cấu trúc. Các phiên bản xem trước của hồ dữ liệu đã được phát hành vào đầu tháng mười hai, cung cấp cho người dùng một mới, nhanh hơn và đơn giản hơn phương pháp phân tích dữ liệu của bất cứ loại nào.

Microsoft rõ ràng đang đặt mục tiêu vô địch trong lĩnh vực dữ liệu lớn và phân tích, khi vào tháng 7, CEO Satya Nadella đã công bố Cortana Analytics , một phương tiện để quản lý cả dữ liệu tại chỗ và dữ liệu đám mây. Bộ phần mềm này được tích hợp với trợ lý ảo Windows 10 cùng tên (dựa trên nhân vật AI cùng tên trong loạt phim Halo). Được cung cấp dưới dạng đăng ký hàng tháng, Cortana Analytics tự hào có các tính năng sau:

  • Phân tích hữu ích
  • Trí tuệ tri giác
  • Nhanh chóng và linh hoạt
  • Bảo mật và có thể mở rộng
  • Trợ lý kỹ thuật số cá nhân - Cortana

Với việc Cortana Analytics cung cấp phân tích dự đoán và Azure Data Lake cung cấp dung lượng lưu trữ dồi dào cho tất cả dữ liệu phi cấu trúc của bạn, bạn sẽ được tha thứ khi nghĩ rằng Microsoft cũng sẽ không cần một ngôn ngữ mới, đặc biệt là khi xem xét ngôn ngữ dữ liệu lớn hiện có là SQL. được sử dụng bởi nhiều nhà phát triển.

Có gì sai với SQL?

Các ngôn ngữ dựa trên SQL tiêu chuẩn dễ sử dụng, quen thuộc với nhiều nhà phát triển và là một công cụ mạnh mẽ cho nhiều loại phân tích. Một cách tiếp cận khai báo sẽ xử lý nguyên bản việc mở rộng quy mô, thực thi song song và tối ưu hóa cho bạn.

Tuy nhiên, vấn đề là các mô hình khả năng mở rộng và hỗ trợ cho dữ liệu và tệp không có cấu trúc của chúng thường được "bắt vít" và do đó khó sử dụng hơn rất nhiều. Ví dụ: các tác vụ như khám phá dữ liệu của bạn trong một tệp sẽ tốn nhiều thời gian hơn, vì nó sẽ yêu cầu tạo các đối tượng danh mục để sắp xếp dữ liệu tệp hoặc các nguồn từ xa trước khi bạn có thể truy vấn chúng.

Mặc dù các ngôn ngữ dựa trên SQL là thành thạo, nhưng chúng rất phức tạp để xây dựng và duy trì, đồng thời có các mức độ nhất quán khác nhau trong các mô hình lập trình. Họ cần rất nhiều thời gian và nỗ lực dành riêng cho họ, và ngay cả như vậy điều này sẽ không đảm bảo một kết quả cuối cùng hoàn chỉnh.

Giới thiệu U-SQL

Giải quyết những vấn đề này, Microsoft đã xây dựng ngôn ngữ U-SQL của họ “từ đầu” . U-SQL là một sự phát triển của ngôn ngữ SQL khai báo, cho phép khả năng mở rộng bản địa thông qua mã người dùng được viết bằng C #. Điều này cho phép thống nhất hoàn toàn trong một số lĩnh vực: thống nhất trải nghiệm mã hóa mệnh lệnh khai báo và tùy chỉnh, đồng thời thống nhất trải nghiệm xung quanh việc mở rộng khả năng ngôn ngữ của bạn.

U-SQL hơi giống một chiếc cần câu khổng lồ. Azure Data Lake đã có mặt trên radar được một thời gian, nhưng với việc bổ sung U-SQL, giờ đây người ta đã hiểu rõ về cách thức có thể tìm thấy thông tin hữu ích từ petabyte (1 triệu GB) dữ liệu công ty trong hồ.

Đơn giản hóa phân tích dữ liệu lớn

“Chúng tôi đã nghe nói rằng nhiều kỹ sư dữ liệu gặp khó khăn trong việc xử lý dữ liệu bằng các công cụ ngày nay… Mục tiêu của Microsoft là làm cho công nghệ dữ liệu lớn trở nên đơn giản hơn và dễ tiếp cận hơn với số lượng lớn nhất có thể.” - Oliver Chiu, Giám đốc Tiếp thị Sản phẩm của Microsoft cho Hadoop

Hầu hết các tổ chức sẽ có ít nhất một số dạng dữ liệu lớn — có thể là khách hàng mua bản ghi, tệp âm thanh hoặc phương tiện, vô số tệp khác nhau — nhưng không có phương tiện để thực sự sử dụng nó. U-SQL đang có kế hoạch thay đổi điều đó. Kết hợp các từ khóa SQL tiêu chuẩn với các biểu thức cú pháp C #, một lập trình viên có thể sắp xếp dữ liệu từ một nguồn không có cấu trúc hoặc sử dụng SQL từ một tập lệnh duy nhất. Sau đó, người dùng có thể tổng hợp dữ liệu thành dạng mong muốn và ghi kết quả đầu ra vào một tệp hoặc bảng. Thêm vào đó, U-SQL sẽ ngay lập tức quen thuộc với những người đã có một số kinh nghiệm với SQL và C #, do đó giảm thiểu thời gian dành cho nhà phát triển để học các ngôn ngữ bổ sung.

Khi nói đến các khả năng cốt lõi của ngôn ngữ, một số lĩnh vực nổi bật như sau:

  • Hợp nhất các truy vấn khai báo với sự diễn đạt của mã người dùng của bạn
  • Hợp nhất truy vấn cả dữ liệu có cấu trúc và dữ liệu không có cấu trúc
  • Hợp nhất các truy vấn cục bộ và từ xa
  • Tăng năng suất và sự nhanh nhẹn ngay từ đầu

Không hoàn hảo

Có một số hạn chế khi nói đến U-SQL và Azure Data Lake Store, vì Data Lake không thể giải quyết tất cả các trường hợp sử dụng dữ liệu lớn. Khi nói đến học máy hoặc xử lý luồng trong đám mây Microsoft, bạn sẽ phải tự làm quen với các công nghệ Azure khác.

Bản chất chuyên biệt của U-SQL cũng có nghĩa là tại thời điểm này, vẫn chưa biết liệu nó có khả dụng cho các nền tảng không phải Azure (hoặc không phải Microsoft) hay không. Tất cả những gì chúng tôi có thể làm là hy vọng câu trả lời là có!

4 hữu ích 0 bình luận 14k xem chia sẻ

Có thể bạn quan tâm

loading