Khoa học dữ liệu so với phân tích dữ liệu: Sự khác biệt là gì?


Trịnh Gia Bích
1 năm trước
Hữu ích 10 Chia sẻ Viết bình luận 0
Đã xem 5083

Khoa học dữ liệu đang nóng ngay bây giờ. Một báo cáo từ Viện toàn cầu McKinsey ước tính  thiếu 190.000 việc làm của các nhà khoa học dữ liệu trong năm 2018,  đó là do  nhu cầu  của các công ty công nghệ, từ  Apple  đến  Zendesk . Các khóa học giảng dạy khoa học dữ liệu đã xuất hiện. Các ngôn ngữ được sử dụng trong khoa học dữ liệu, như  Python và R, đã trở nên cực kỳ phổ biến .

Một câu hỏi thường gặp trong lĩnh vực này là, sự khác biệt giữa khoa học dữ liệu và phân tích dữ liệu là gì? Để trả lời điều đó, chúng ta cần hiểu tại sao có sự nhầm lẫn này ngay từ đầu.

Tại sao lại nhầm lẫn?

Hầu hết mọi người đều nhầm lẫn về sự khác biệt giữa khoa học dữ liệu và phân tích dữ liệu bởi vì phần dễ thấy nhất trong công việc của nhà khoa học dữ liệu là phân tích dữ liệu.

Các nhà khoa học dữ liệu cần phải làm quen với nhiều kỹ thuật để thực hiện tốt công việc của mình. Tôi sẽ chỉ đề cập đến một vài điều dưới đây.

  • Thử nghiệm A / B . Còn được gọi là thử nghiệm phân tách, đây là một kỹ thuật trong đó bạn so sánh nhiều nhóm thử nghiệm với nhau để tìm ra những thay đổi sẽ cải thiện một biến mục tiêu nhất định. Ví dụ: bạn có thể đo tỷ lệ phản hồi tiếp thị (biến mục tiêu) từ hai hoặc nhiều chiến dịch email khác nhau.
  • Hiệp hội học tập quy tắc . Các trang sản phẩm của Amazon thường ghi rõ: "Khách hàng đã mua sản phẩm bạn đang xem cũng đã mua những sản phẩm khác này". Đó là sức mạnh của việc học tập quy tắc kết hợp. Không có sự giám sát của con người, nó phát hiện ra các mẫu cục bộ trong dữ liệu thể hiện mối quan hệ ẩn giữa các biến đầu vào.
  • Phân loại . Điều này đề cập đến vấn đề xác định và phân loại một điểm dữ liệu mới và đưa nó vào đúng danh mục hoặc nhóm. Thông thường, kỹ thuật này bao gồm việc có một tập huấn luyện chứa các điểm dữ liệu hiện có đã được phân loại và sau đó áp dụng học máy để xác định điểm dữ liệu mới.
  • Phân tích cụm . Điều này tương tự như phân loại. Nhưng phân tích cụm phân chia một nhóm các điểm dữ liệu khác nhau thành các nhóm nhỏ hơn dựa trên mức độ giống nhau của chúng. Sự khác biệt giữa phương pháp thống kê và phân loại này là các đặc điểm của sự giống nhau không được biết trước. Vì vậy, không có thiết lập đào tạo để sử dụng.

Thêm kỹ thuật phân tích dữ liệu

Các kỹ thuật phân tích dữ liệu khác mà các nhà khoa học dữ liệu cần phải làm quen bao gồm:

  • Khai thác dữ liệu
  • Học tập
  • Thuật toán di truyền
  • Học máy
  • Xử lý ngôn ngữ tự nhiên (NLP)
  • Mạng lưới thần kinh
  • Phân tích mạng
  • Tối ưu hóa
  • Nhận dạng mẫu
  • Mô hình dự đoán
  • hồi quy
  • Phân tích tình cảm
  • Xử lý tín hiệu
  • Phân tích không gian
  • Học có giám sát
  • Mô phỏng
  • Phân tích chuỗi thời gian
  • Dự báo chuỗi thời gian
  • Học tập không giám sát
  • Hình dung

Một số kỹ thuật này có liên quan nhiều hơn đến thống kê, chẳng hạn như hồi quy. Một số thuật ngữ ô rộng - điều này có nghĩa là các kỹ thuật khác có thể được nhóm lại theo chúng. Ví dụ, phân tích cụm là một hình thức học tập không giám sát.

Bạn có thể thực hiện phân tích dữ liệu mà không cần có kiến ​​thức sâu về các kỹ thuật này. Điều này là có thể bởi vì có các gói phần mềm để giúp bạn. Đây là một ví dụ đơn giản: giả sử bạn cần chạy phân tích hồi quy trên các điểm dữ liệu của mình. Tất cả những gì bạn cần là Microsoft Excel và công thức hồi quy tích hợp của nó ... mặc dù bạn có thể không thể tự gọi mình là nhà khoa học dữ liệu nếu đó là tất cả những gì bạn làm.

Vì vậy, sự khác biệt là gì?

Bây giờ chúng tôi có cảm giác về phân tích dữ liệu bao gồm những gì và nó bị nhầm lẫn với khoa học dữ liệu như thế nào, chúng tôi có thể thảo luận về sự khác biệt. Phiên bản ngắn là khoa học dữ liệu bao gồm và vượt ra ngoài phân tích dữ liệu . Nếu bạn đối chiếu các nhà khoa học dữ liệu với các nhà phân tích dữ liệu, mục tiêu của các nhà khoa học dữ liệu sẽ sâu hơn và diện tích quan tâm của họ thường lớn hơn.

Mục tiêu sâu hơn

Mục tiêu cuối cùng của một nhà khoa học dữ liệu là khám phá kiến ​​thức mới. Trong kinh doanh, những hiểu biết này có thể có nghĩa là một lợi thế rất lớn cho công ty. Hoặc nó có thể có nghĩa là một bước đột phá trong các phương pháp hiện tại, như một kỹ thuật phân tích hoàn toàn mới. Hoặc nó có thể có nghĩa là một mô hình khác nhau hoàn toàn; có lẽ nhà khoa học dữ liệu khám phá ra cách áp dụng các kỹ thuật hiện có theo một cách mới lạ.

Một nhà phân tích dữ liệu không cần phải đi sâu. Sẽ thật tốt nếu các nhà phân tích theo đuổi sự xuất sắc đến độ sâu như vậy, nhưng đó không thực sự là mục tiêu của họ. Trong khi các nhà khoa học dữ liệu nghĩ về những câu hỏi cần đặt ra hoặc giả thuyết họ có trước khi họ phân tích, một nhà phân tích dữ liệu chủ yếu quan tâm đến việc trả lời những câu hỏi đó.

Tóm lại, khoa học dữ liệu là cả việc tạo ra các câu hỏi trả lời. Phân tích dữ liệu chủ yếu là về việc trả lời.

Hơn nữa, các nhà khoa học dữ liệu tốt cần liên tục theo dõi hiệu quả của các kỹ thuật của họ. Họ cần suy nghĩ về việc tăng độ chính xác của các thuật toán và cách tích hợp nhiều nguồn dữ liệu với các nền tảng trong và ngoài tổ chức của họ. Nói cách khác, công việc hàng ngày của một nhà khoa học dữ liệu gắn chặt hơn với các mục tiêu của tổ chức. Điều này đúng bất kể tổ chức là một công ty bán lẻ trực tuyến hay một đơn vị nghiên cứu.

Một khu vực quan tâm lớn hơn

Nếu bạn Google để biết thông tin về khoa học dữ liệu, bạn sẽ có các sơ đồ Venn thường được sử dụng này.

Sơ đồ khoa học dữ liệu Venn của Drew Conway.

Sơ đồ khoa học dữ liệu Venn  của  Stephan Kolassa  như được đăng trên Stack Exchange.

Trước hết, hãy bỏ qua câu hỏi sơ đồ nào là đúng. Chúng ta phải tìm kiếm những điểm chung trong các sơ đồ Venn này. Khoa học dữ liệu, trong cả hai sơ đồ này,  nằm ở giữa nhiều miền. Nói cách khác, khoa học dữ liệu là một lĩnh vực liên ngành. Bạn cần biết một số kỹ năng lập trình và cơ sở dữ liệu. Bạn cần nắm vững các chi tiết cụ thể của tên miền hoặc doanh nghiệp mà bạn tham gia. Ví dụ: nếu bạn làm việc trong thương mại điện tử, bạn cần tìm hiểu hành vi mua hàng của người mua hàng trực tuyến. Bạn cũng sẽ phải biết các cơ chế của thương mại điện tử. Kiến thức thống kê là phải. Trên hết, có lẽ bạn cần phải giải thích ý tưởng của mình cho người khác - ít nhất là, cho các nhà khoa học dữ liệu đồng nghiệp trong nhóm của bạn.

Mục tiêu sâu hơn đạt được các lĩnh vực quan tâm

Trước đó, tôi đã đề cập rằng một nhà khoa học dữ liệu làm việc để cung cấp những hiểu biết mới. Mục tiêu sâu xa hơn này thúc đẩy nhà khoa học dữ liệu mở rộng ra nhiều lĩnh vực, và đến lượt nó, làm tăng cơ hội thực hiện công việc đáng chú ý, như có những hiểu biết sáng tạo và phát minh ra các kỹ thuật phân tích mới. Các nhà khoa học dữ liệu thậm chí có thể tái sử dụng các công nghệ hiện có theo những cách mới lạ.

Một nhà phân tích dữ liệu mặt khác, không cần phải có kỹ năng trong nhiều lĩnh vực. Trên thực tế, tùy thuộc vào bản chất của phân tích, chúng ta có thể thực hiện nó mà không có bất kỳ manh mối nào về các lĩnh vực chuyên môn như lập trình, thống kê hoặc thậm chí là các nguyên tắc kinh doanh cơ bản.

Hãy sử dụng một kịch bản tưởng tượng làm ví dụ. Trong đó, các nhiệm vụ phân tích rất đơn giản và các điểm dữ liệu còn nguyên sơ. Và trong kịch bản này, bạn thậm chí có thể nhờ một thực tập sinh thực hiện phân tích dữ liệu bằng phần mềm sẵn có với các hướng dẫn tối thiểu. Bạn sẽ không mong đợi thực tập giải thích kết quả. Và đoán xem? Ý nghĩa của kết quả sẽ không phải là một phần của công việc của nhà phân tích dữ liệu. Đó là một phần của khoa học dữ liệu .

Vấn đề là gì tiếp theo cho bạn

Vì vậy, chúng tôi đã đạt đến cuối của bài này. Trong đó, chúng tôi đã kiểm tra sự tương đồng và khác biệt giữa phân tích dữ liệu và khoa học dữ liệu. Câu hỏi quan trọng hơn bây giờ là điều đó có ý nghĩa gì đối với sự nghiệp của bạn trong lĩnh vực này? Nhớ lại  sự thiếu hụt của các nhà khoa học dữ liệu  đã đề cập trước đó. Điều đó sẽ không kéo dài mãi mãi.

Để đi xa trong lĩnh vực này, bạn cần  có thêm kiến ​​thức và đào tạo . Trên thực tế, có thể là khôn ngoan đối với một số tự đánh giá trong các lĩnh vực bạn thấy đặc trưng trong sơ đồ Venn được hiển thị ở đây.

Dưới đây là một số bước hữu ích để bạn đi trước.

  1. Nhìn vào ba hoặc bốn lĩnh vực cần thiết cho khoa học dữ liệu: các lĩnh vực như thống kê, lập trình, truyền thông và chuyên môn về lĩnh vực kinh doanh. Thế mạnh của bạn là gì? Điểm yếu của bạn là gì?
  2. Chọn một sức mạnh của bạn trong số bốn lĩnh vực. Bây giờ, tìm kiếm các vị trí đòi hỏi đặc điểm đó. Giả sử bạn mạnh nhất trong thống kê. Sử dụng điều đó để có được một vai trò phân tích mà tốt trong thống kê là không thể thương lượng.
  3. Từ đó, tìm kiếm phản hồi từ các đồng nghiệp và người quản lý của bạn. Hỏi họ xem trong bốn đặc điểm họ cho là điểm mạnh và điểm yếu của bạn. Là điểm yếu của bạn giữ bạn lại? Hay bạn cần phải mạnh mẽ hơn nữa trong năng lực của mình? Hãy chuẩn bị cho cả hai trường hợp.
  4. Tiếp tục tăng cấp sau đó. Rửa sạch và lặp lại.

Bạn không cần phải giỏi trong tất cả các lĩnh vực để bắt đầu sự nghiệp khoa học dữ liệu của mình ngay hôm nay. Do nhu cầu lớn và dễ dàng truy cập vào các khóa học về khoa học dữ liệu  như của chúng tôi tại ASPE Training , đây có thể là thời kỳ hoàng kim của khoa học dữ liệu mà bạn đang chờ đợi.

Hữu ích 10 Chia sẻ Viết bình luận 0
Đã xem 5083