AnzoGraph: Cơ sở dữ liệu đồ thị dựa trên tiêu chuẩn W3C


Hoàng Trường Chinh
8 tháng trước
Hữu ích 9 Chia sẻ Viết bình luận 0
Đã xem 4791

Giới thiệu

Trong cuộc phỏng vấn này, tôi đang bắt gặp Barry Zane , Phó Chủ tịch của Cambridge Semantics . Barry là người tạo ra AnzoGraph™, một cơ sở dữ liệu đồ thị phân tán, xử lý song song (MPP) riêng. Barry đã có một cuộc hành trình trong thế giới cơ sở dữ liệu. Ông từng là Phó Chủ tịch Công nghệ của Tập đoàn Netezza từ năm 2000 đến năm 2005 và chịu trách nhiệm hướng dẫn tất cả các khía cạnh của kiến ​​trúc và triển khai phần mềm, từ các nguyên mẫu ban đầu thông qua các lô hàng khối lượng đến các khách hàng viễn thông, bán lẻ và internet hàng đầu. Netezza cuối cùng đã được bán cho IBM, nhưng trước đó, Barry đã chuyển sự chú ý của mình sang một công ty khác, ParAccel, cuối cùng trở thành công nghệ cốt lõi cho AWS Redshift. Nhu cầu về cơ sở dữ liệu xử lý phân tích trực tuyến dựa trên biểu đồ (OLAP) bắt đầu xuất hiện trên thị trường và dựa trên nhu cầu của thị trường này, Barry đã thành lập SPARQL City vào năm 2013.

Barry vui lòng đồng ý nói chuyện với tôi trong tuần này sau một thông báo gần đây rằng cơ sở dữ liệu AnzoGraph hiện có sẵn để tải xuống để đánh giá và sử dụng độc lập trong các ứng dụng của khách hàng, tại cơ sở hoặc trên đám mây. Mặc dù chưa được công bố, Barry cũng tiết lộ rằng AnzoGraph đã được cải tiến để sử dụng RDF * / SPARQL *, cung cấp cho nó chức năng đồ thị thuộc tính hoàn chỉnh. Vì vậy, thật thú vị khi nói chuyện với anh ấy và tìm hiểu thêm về cách phân tích biểu đồ và các tiêu chuẩn W3C được kết hợp với nhau.

Đầu tiên, Barry, xin vui lòng cho chúng tôi biết một chút về ngữ nghĩa học Cambridge?

Cambridge Semantics đã xuất hiện từ khoảng năm 2007. Một trong những giải pháp mà chúng tôi đã xây dựng trong nhiều năm qua là một sản phẩm lớp ngữ nghĩa có tên là Anzo. Anzo được sử dụng trong một số doanh nghiệp lớn, như dược phẩm, dịch vụ tài chính, bán lẻ, dầu khí, các công ty chăm sóc sức khỏe và khu vực chính phủ. Những doanh nghiệp này có điểm chung là có xu hướng có nguồn dữ liệu đa dạng cùng với nhu cầu thực sự để khám phá và phân tích dữ liệu. Lớp ngữ nghĩa được cung cấp bởi Anzo kết hợp và trình bày dữ liệu thô với ý nghĩa và bối cảnh kinh doanh. Nó chỉ xảy ra rằng cơ sở dữ liệu đồ thị là một yếu tố cơ sở hạ tầng quan trọng của giải pháp này.

Cambridge Semantics đã sớm thấy giá trị trong phân tích biểu đồ và là một trong những khách hàng đầu tiên của SPARQL City. Họ đã mua lại chúng tôi vào năm 2016. Cuối năm 2018, chúng tôi đã lấy công cụ đồ thị bên dưới Anzo và tạo ra nó như một sản phẩm của riêng mình có tên là AnzoGraph.

Bạn có thể giải thích các trường hợp sử dụng chính cho AnzoGraph?

Thị trường cơ sở dữ liệu đồ thị được bao phủ tốt về mặt cơ sở dữ liệu OLTP. Thay vì cơ sở dữ liệu đồ thị OLTP, như Neo4j và gần đây là AWS Neptune, chúng tôi đã quyết định xây dựng cơ sở dữ liệu đồ thị kiểu OLAP. Có một nhu cầu thực sự trên thị trường để thực hiện phân tích kiểu kho dữ liệu với lợi ích bổ sung là xử lý cả dữ liệu có cấu trúc và không cấu trúc. Với AnzoGraph, chúng tôi có thể cung cấp báo cáo và phân tích BI và tổng hợp, thuật toán biểu đồ như xếp hạng trang và đường dẫn ngắn nhất, suy luận và nhiều phân tích kiểu kho dữ liệu mà thị trường đang thiếu.

Khách hàng sử dụng AnzoGraph để khám phá những hiểu biết mới về dữ liệu đa dạng quy mô lớn, bao gồm cả dữ liệu lịch sử và gần đây. Thật tuyệt vời khi chạy các thuật toán và phân tích trên một tập hợp dữ liệu rất lớn để tìm các thực thể, mối quan hệ và hiểu biết có liên quan. Chúng tôi kết hợp giá trị mà người dùng nhận được khi sử dụng cơ sở dữ liệu RDF dựa trên tiêu chuẩn W3C với giá trị họ nhận được với các biểu đồ thuộc tính.

Chúng tôi đã quan tâm đến việc sử dụng AnzoGraph cho nhiều mục đích. Hãy suy nghĩ về tất cả những lần bạn muốn thực hiện phân tích trong đó thông tin kết nối dữ liệu cũng quan trọng như chính dữ liệu đó. Ví dụ: biểu đồ tri thứcrất phổ biến đối với nhiều công ty đang cố gắng kết nối các nguồn dữ liệu khác nhau và kinh nghiệm của chúng tôi khi làm điều đó với Anzo sẽ giúp ích. Các công ty đang vật lộn với việc hiểu ý định của người mua và xây dựng các công cụ khuyến nghị. Đồ thị có thể giúp giải quyết vấn đề "những người thích sản phẩm A có thể cũng sẽ thích vấn đề sản phẩm B". Trong thế giới dịch vụ tài chính, các ngân hàng đang sử dụng biểu đồ để "theo dõi tiền". Đồ thị cung cấp khả năng theo dõi chuyển nhượng các công cụ phái sinh và các tài sản khác và do đó có thể giúp các ngân hàng quản lý rủi ro. Ngay cả các tổ chức CNTT đang xem xét các mạng phức tạp và cố gắng hiểu rõ hơn về cách lưu lượng IP giữa các thiết bị.

Có một vài trường hợp sử dụng mới nổi mà tôi thấy khá thú vị. Đầu tiên, khi được kết hợp với một công cụ xử lý ngôn ngữ tự nhiên hoặc trình phân tích cú pháp, AnzoGraph rất giỏi trong việc xử lý dữ liệu có cấu trúc / không cấu trúc được liên kết và cơ sở hạ tầng dựa trên đồ thị cho các thuật toán dựa trên đồ thị trong AI và học máy. Thứ hai, thật thú vị khi theo dõi cách phân tích biểu đồ đang tạo ra ảnh hưởng trong nghiên cứu bộ gen. Thay vì các kỹ thuật vũ phu mang lại nhiều đổi mới dựa trên phân tích trong di truyền học, các nhà khoa học đang phát triển các kỹ thuật phân tích mới với phân tích biểu đồ cho phép người dùng tìm thấy những hiểu biết mới mà không cần lập trình rõ ràng cho những hiểu biết như bạn làm trong cơ sở dữ liệu quan hệ.

Điều gì làm cho AnzoGraph khác với các giải pháp kho cơ sở dữ liệu khác?

Đó là một điều mà bạn có thể không mong đợi và sẽ làm với tính không linh hoạt của việc chia sẻ các lược đồ trong thế giới kho dữ liệu RDBMS truyền thống, nơi chúng tôi có nhiệm vụ tạo các bảng và các lược đồ cố định. Sau đó, để có câu trả lời, chúng ta có thể phải tạo các THAM GIA phức tạp để truy vấn các bảng. Tuy nhiên, trong thế giới cơ sở dữ liệu đồ thị, vì mọi thứ được biểu diễn thành ba lần, trong đó chúng ta đang mô tả một người, địa điểm hoặc một vật bằng một động từ và mô tả, thật dễ dàng để thêm nhiều bộ ba để mô tả thêm mà không cần thay đổi lược đồ . Một bản thể học tiêu chuẩn tồn tại để giúp chúng ta mô tả các mối quan hệ, điều này hữu ích đặc biệt khi chúng ta muốn chia sẻ dữ liệu. Các lược đồ cơ sở dữ liệu thường không linh hoạt vì chúng thường được cố định và tùy chỉnh ngay từ đầu.

Các bản thể trong cơ sở dữ liệu đồ thị rất linh hoạt và tốt hơn cho phép chia sẻ dữ liệu với các đối tác của bạn.

Tất nhiên, hỗ trợ cho phân tích cũng là một sự khác biệt rất lớn. Mặc dù AnzoGraph cung cấp tất cả các chức năng phân tích của kho dữ liệu truyền thống, nó cũng cung cấp các thuật toán đồ thị, suy luận và các thuật toán khác. Nó làm cho việc xử lý những trường hợp sử dụng mà tôi đã đề cập ở trên khá dễ xử lý. Cơ sở dữ liệu đồ thị phù hợp hơn với một số loại thuật toán học máy nhất định và cung cấp suy luận dựa trên máy có thể rất có giá trị trong học máy.

Không giống như kho dữ liệu truyền thống, AnzoGraph cho vay rất tốt để triển khai tính linh hoạt và khả năng mở rộng. Thị trường đang phản ứng với các ứng dụng được xây dựng với các container như Docker và Kubernetes vì ​​yếu tố khả năng mở rộng. Khi bạn có thể quay nhiều thùng chứa và quay chúng xuống tùy ý, nó sẽ tạo ra một giải pháp rất tiết kiệm. Trong các điểm chuẩn, chúng tôi đã đạt được hiệu suất nhanh hơn tới 100 lần so với các cơ sở dữ liệu khác và giới hạn của bầu trời. Tất nhiên, AnzoGraph có thể triển khai trên kim loại trần, VM hoặc trong bất kỳ đám mây nào, nhưng các container được quan tâm nhất.

Năm 2018 chứng kiến ​​sự phát triển vượt bậc trên một loạt các không gian công nghệ trong học máy trong khi học sâu đang chờ đợi để có thời gian. Các cơ sở dữ liệu đồ thị có bất cứ điều gì để cung cấp cho những người có lượng dữ liệu khổng lồ muốn tham gia vào cơn sốt vàng AI không?

Chúng ta đang chứng kiến ​​việc áp dụng rộng rãi hơn cho máy học và cơ sở dữ liệu AI và đồ thị sẽ đóng một phần. Chúng ta đều biết rằng thách thức lớn nhất của học máy là chuẩn bị dữ liệu. Tuy nhiên, việc chuẩn bị và giám tuyển này được đơn giản hóa bằng cách nhập trực tiếp dữ liệu thô và sau đó giám tuyển trong cơ sở dữ liệu đồ thị chứ không phải là một đường ống ETL phức tạp. Sự đơn giản của mô hình dữ liệu làm cho việc quản lý trở nên đơn giản và nhanh hơn đáng kể so với việc sắp xếp trong cơ sở dữ liệu quan hệ. Người dùng sẽ có thể thực hiện một số khai thác dữ liệu phi cấu trúc dễ dàng hơn khi các lược đồ phức tạp không còn nữa và họ có thể tận dụng khả năng mở rộng của các container.

Cơ sở dữ liệu đồ thị cho phép người dùng tự do "xoay vòng" các phân tích của họ để đặt câu hỏi mới, đặc biệt mà không bị giới hạn bởi công nghệ quan hệ. Cơ sở dữ liệu đồ thị có rất nhiều để cung cấp cho máy học và AI.

Cơ sở dữ liệu đồ thị đã xuất hiện được một thời gian, nhưng sắp đến tuổi. Dự đoán của bạn trong 2 năm tới trong không gian này là gì và AnzoGraph sẽ làm việc như thế nào để dẫn dắt gói cơ sở dữ liệu đồ thị thế hệ tiếp theo?

Tôi đang dự đoán một sự hiểu biết lớn hơn trong những năm tới về các loại chung của việc thực hiện phân tích dữ liệu lớn thay vì truy vấn hoạt động. AnzoGraph tập trung mạnh vào các phân tích dữ liệu lớn được tổng hợp trên một không gian đồ thị. Chúng ta có thể vượt xa các truy vấn hẹp như " Nói cho tôi biết về Steve " để bao quát các phân tích rộng hơn, chẳng hạn như " Hãy cho tôi biết về con người " .

Tôi nghĩ năm tới sẽ thấy định nghĩa về thế hệ tiếp theo của ngôn ngữ truy vấn tiêu chuẩn.

Tiêu chuẩn W3C là tiêu chuẩn chính thức duy nhất hiện tại nhưng Cypher rõ ràng là tiêu chuẩn thực tế cho các biểu đồ thuộc tính được dán nhãn. Có một nhóm được thành lập để tạo ra một tiêu chuẩn chính thức thế hệ tiếp theo và thật thú vị khi xem hình dạng đó như thế nào. Ở đây tại Cambridge Semantics, chúng tôi rất ủng hộ quá trình đó và chỉ có thể có một ngôn ngữ mạnh mẽ cho biểu đồ. Vì vậy, dự đoán của tôi trong vài năm tới trong không gian đồ thị là mô hình độc quyền đang trên đường ra.

Thị trường sẽ quyết định các tiêu chuẩn chính xác và chúng tôi sẽ điều chỉnh các giải pháp của mình để tuân thủ vì chúng tôi cam kết mạnh mẽ với các tiêu chuẩn. Tôi không xem sự tiến hóa này là một mối đe dọa nhưng là một cơ hội lớn cho chúng tôi vì nó phù hợp với suy nghĩ của chúng tôi và sẽ chỉ phát triển sự hấp thụ trong các công nghệ đồ thị.

Cuối cùng

Tôi muốn cảm ơn Barry và nhóm nghiên cứu tại Cambridge Semantics vì cơ hội tìm hiểu thêm về AnzoGraph. Tôi không liên kết với bất kỳ công ty nào và nên chỉ ra rằng tôi không được họ đền bù cho cuộc phỏng vấn này.

Nếu bạn đang theo dõi chi tiết hơn về AnzoGraph, sẽ có một bài thuyết trình kỹ thuật tuyệt vời trên Sl slideshoware từ tháng 10 năm 2018 hoặc xem trang web . Đừng để lại bất kỳ câu hỏi trong các ý kiến ​​dưới đây!

Hữu ích 9 Chia sẻ Viết bình luận 0
Đã xem 4791