Không có viên đạn bạc cho dữ liệu lớn / phân tích


Nguyễn Anh Ðức
7 năm trước
Hữu ích 5 Chia sẻ Viết bình luận 0
Đã xem 4760
Chúng tôi có nhiều không gian lưu trữ hơn trong những ngày này và có nhiều dữ liệu hơn để làm việc, vì vậy Big Data và Big Analytics hiện đang trở nên chính thống hơn nhiều. Và có những kết luận và hiểu biết mà bạn có thể nhận được từ dữ liệu đó, bất kỳ dữ liệu nào ít nhiều, nhưng dữ liệu Web nói riêng mang đến một chiều hướng mới khi kết hợp với dữ liệu cụ thể theo miền truyền thống hơn. Nhưng dữ liệu này cũng chủ yếu ở dạng văn bản đơn giản, như blog, twitters, tin tức và nội dung web khác của bạn. Và điều này có nghĩa là để kết hợp dữ liệu bán hàng cấu trúc có tổ chức của bạn trong 20 năm với dữ liệu Web, trước tiên, dữ liệu Web cần được phân tích.

Dữ liệu web cũng mang đến một khó khăn mới: dữ liệu lớnvà nó không được tổ chức ở cốt lõi của nó, vì vậy bạn không thể dễ dàng tổng hợp hoặc một cái gì đó tương tự để tiết kiệm không gian (và tại sao bạn muốn làm điều đó?). Mãi đến sau khi bạn phân tích nó, bạn mới biết dữ liệu nào thú vị và cái gì không. Và thành thật mà nói (nhưng tôi không phải, tôi là Anders), thậm chí sau đó bạn không thể bắt đầu tổng hợp dữ liệu hoặc vứt bỏ dữ liệu không thú vị. Và trong tâm trí của tôi, đây là một lỗi đã được thực hiện trong tất cả các loại phân tích, ngay cả với lượng dữ liệu nhỏ hơn.

Khi nói đến phân tích, trong tâm trí của tôi "Nếu bạn nghĩ rằng bạn có tất cả các câu trả lời đúng, bạn đã không hỏi tất cả các câu hỏi đúng". Đây là một điểm quan trọng, phân tích là một hoạt động định kỳ và bạn càng nhận được nhiều câu hỏi, bạn càng nhận được nhiều câu hỏi. Và với suy nghĩ này, làm thế nào bạn có thể biết những gì để tổng hợp? Đặc biệt khi nói đến nội dung web?

Vì vậy, chúng ta có thể sống với dữ liệu Web không được tổng hợp và làm thế nào để chúng ta làm điều đó? Cơ sở dữ liệu nào có thể hỗ trợ điều đó? Oracle? MySQL? MongoDB? Vertica? Và câu trả lời là, giống như với phân tích, bạn sẽ không biết khi nào bạn bắt đầu phân tích và một khi bạn đã bắt đầu làm điều đó, bạn sẽ còn nghi ngờ hơn nữa! Công nghệ nào hỗ trợ tất cả các khía cạnh bạn có thể cần xem xét? Và từ khóa là có thể !

Vì vậy, làm thế nào chúng ta có thể giải quyết điều này? Và câu trả lời của tôi là: Bằng cách sử dụng công cụ phù hợp cho công việc, và sẵn sàng kết hợp các công cụ khác nhau! Postgres và Oracle rất tốt cho phân tích thời gian, đối với GIS chúng tôi có Oracle, MySQL và PostGIS. Để xử lý lượng lớn dữ liệu với khả năng mở rộng tốt và giảm chi phí, bạn có thể muốn có một kho lưu trữ khóa-giá trị như MongoDB hoặc DynamoDB. Để tìm kiếm dữ liệu, bạn có thể tìm Sphinx hoặc Lucene. V.v.

Ví dụ, tôi có thể muốn xem một kho lưu trữ khóa-giá trị cho dữ liệu Web thô của mình, giữ một số khóa để tra cứu dễ dàng. Một RDBMS cho các thuộc tính của dữ liệu này. Nhân sư để tìm kiếm nó. Sphinx và Lucene là những công cụ tốt hơn nhiều so với RDBMS trung bình của bạn, có thể là MySQL hoặc Oracle hoặc bất cứ điều gì và tìm kiếm RDBMS khác với tìm kiếm văn bản trong dữ liệu web!

Vì vậy, khía cạnh quan trọng nhất để xem xét, nếu bạn hỏi tôi, là chọn các công nghệ có thể dễ dàng kết hợp và nơi các khía cạnh khác nhau của dữ liệu có thể được phục vụ bởi các công nghệ khác nhau khi thích hợp. Và hãy chuẩn bị để thêm, loại bỏ và thay đổi công nghệ khi bạn đi cùng!
Hữu ích 5 Chia sẻ Viết bình luận 0
Đã xem 4760