4

StreamSets , một công ty quản lý hiệu suất dữ liệu, đã công bố kết quả của một cuộc khảo sát toàn cầu với hơn 300 chuyên gia quản lý dữ liệu được thực hiện bởi Dimensional Research. Cuộc khảo sát cho thấy các doanh nghiệp đang vật lộn để quản lý các luồng dữ liệu lớn vì các nguồn dữ liệu lớn ngày nay liên tục chuyển động.

Nghiên cứu cho thấy các doanh nghiệp thuộc mọi quy mô phải đối mặt với những thách thức đối với một loạt các vấn đề quản lý hiệu suất dữ liệu quan trọng từ việc ngăn chặn dữ liệu xấu để giữ cho luồng dữ liệu hoạt động hiệu quả. Cụ thể, gần 90 phần trăm số người được hỏi báo cáo việc truyền dữ liệu xấu vào kho lưu trữ dữ liệu của họ trong khi chỉ có 12 phần trăm cho rằng họ giỏi về các khía cạnh chính của quản lý hiệu suất luồng dữ liệu.

"Trong thế giới phân tích thời gian thực ngày nay, các luồng dữ liệu là nguồn sống của một doanh nghiệp," Girish Pancha, CEO, StreamSets nói. "Ngành công nghiệp từ lâu đã cố định trong việc quản lý dữ liệu và việc cận thị này tạo ra rủi ro thực sự cho các doanh nghiệp khi họ cố gắng khai thác dữ liệu lớn và nhanh. Điều bắt buộc là chúng ta phải thay đổi suy nghĩ về việc xây dựng khả năng vận hành dữ liệu liên tục phù hợp với tính chất nhạy cảm với thời gian của dữ liệu ngày nay. "

Đối với các nhà phát triển, cuộc khảo sát cho thấy rằng mã hóa ở mức độ thấp hoặc sử dụng các công cụ ETL dựa trên lược đồ, kết hợp với tính chất thay đổi của dữ liệu, đã tạo ra nhiều cơ hội cho dữ liệu lớn biến thành dữ liệu xấu. Các doanh nghiệp liên tục điều chỉnh các đường ống dữ liệu: 85% số người được hỏi nói rằng những thay đổi bất ngờ đối với cấu trúc dữ liệu hoặc ngữ nghĩa tạo ra một tác động đáng kể trong hoạt động. Hơn một nửa (53%) báo cáo rằng họ phải thay đổi mỗi đường truyền luồng dữ liệu nhiều lần trong tháng, với 23% thực hiện thay đổi nhiều lần trong tuần hoặc hơn.

Thực hiện thay đổi thường xuyên cho các đường ống bằng cách sử dụng các phương pháp không linh hoạt này không chỉ không hiệu quả cao mà còn dễ bị lỗi. Ngoài ra, các công cụ này không cho phép bạn xem dữ liệu chuyển động, điều đó có nghĩa là bạn đang bị mù và không thể phát hiện các vấn đề về chất lượng dữ liệu hoặc luồng dữ liệu.

Ô nhiễm dữ liệu phổ biến, ngụ ý kết quả phân tích có thể sai, dẫn đến những hiểu biết sai lầm dẫn đến các quyết định kinh doanh kém. Ngay cả khi các công ty có thể phát hiện dữ liệu xấu của họ, quá trình làm sạch dữ liệu sau khi thực tế làm lãng phí thời gian của các nhà khoa học dữ liệu và trì hoãn việc sử dụng dữ liệu, điều này gây chết người trong một thế giới ngày càng phụ thuộc vào phân tích thời gian thực.

Để biết thêm thông tin và hoàn thành kết quả khảo sát, vui lòng truy cập https://streamsets.com/big-data-global-survey/

|