Helpex - Trao đổi & giúp đỡ Đăng nhập

Quy trình khai thác dữ liệu: Quy trình chuẩn công nghiệp chéo để khai thác dữ liệu

1. Giới thiệu về Khai thác dữ liệu

Khai thác dữ liệu là quá trình khám phá những kiến ​​thức tiềm ẩn, có giá trị bằng cách phân tích một lượng lớn dữ liệu. Ngoài ra, chúng tôi phải lưu trữ dữ liệu đó trong các cơ sở dữ liệu khác nhau.

Vì khai thác dữ liệu là một quá trình rất quan trọng, nó có lợi cho các ngành công nghiệp khác nhau, như sản xuất, tiếp thị, v.v. Do đó, cần có một quy trình khai thác dữ liệu tiêu chuẩn. Quá trình khai thác dữ liệu này phải đáng tin cậy. Ngoài ra, quá trình này nên được lặp lại bởi những người kinh doanh có ít hoặc không có kiến ​​thức về khoa học dữ liệu.

2. Các giai đoạn của quá trình khai thác dữ liệu

Quá trình khai thác dữ liệu được phân loại theo hai giai đoạn: Chuẩn bị dữ liệu / tiền xử lý dữ liệu và khai thác dữ liệu.

Các giai đoạn của quá trình khai thác dữ liệu

Quá trình chuẩn bị dữ liệu bao gồm làm sạch dữ liệu, tích hợp dữ liệu, lựa chọn dữ liệu và chuyển đổi dữ liệu. Giai đoạn thứ hai bao gồm khai thác dữ liệu, đánh giá mẫu và trình bày kiến ​​thức.

a. Làm sạch dữ liệu

Trong quy trình khai thác dữ liệu, dữ liệu được làm sạch, vì dữ liệu trong thế giới thực là ồn ào, không nhất quán và không đầy đủ.

Làm sạch dữ liệu bao gồm một số kỹ thuật, chẳng hạn như điền vào các giá trị còn thiếu và tính toán kết hợp.

b. Tích hợp dữ liệu

Trong quá trình này, dữ liệu được tích hợp từ các nguồn dữ liệu khác nhau, vì dữ liệu ở các định dạng khác nhau ở các vị trí khác nhau. Chúng ta có thể lưu trữ dữ liệu trong cơ sở dữ liệu, tệp văn bản, bảng tính, tài liệu, khối dữ liệu, v.v. Mặc dù, tích hợp dữ liệu rất phức tạp vì thông thường dữ liệu không khớp với các nguồn khác nhau.

Chúng tôi sử dụng siêu dữ liệu để giảm lỗi trong quá trình tích hợp dữ liệu. Một vấn đề khác phải đối mặt là dư thừa dữ liệu. Trong trường hợp này, cùng một dữ liệu có thể có sẵn trong các bảng khác nhau trong cùng một cơ sở dữ liệu. Tích hợp dữ liệu cố gắng giảm sự dư thừa càng nhiều càng tốt mà không ảnh hưởng đến độ tin cậy của dữ liệu.

c. Lựa chọn dữ liệu

Đây là quá trình mà dữ liệu liên quan đến phân tích được lấy từ cơ sở dữ liệu. Quá trình này đòi hỏi khối lượng lớn dữ liệu lịch sử để phân tích, vì thông thường kho lưu trữ dữ liệu với dữ liệu tích hợp chứa nhiều dữ liệu hơn so với yêu cầu thực sự. Từ dữ liệu có sẵn, dữ liệu quan tâm cần phải được chọn và lưu trữ.

d. Chuyển đổi dữ liệu

Trong quá trình này, chúng tôi phải chuyển đổi và hợp nhất dữ liệu thành các dạng khác nhau phù hợp để khai thác. Thông thường quá trình này bao gồm chuẩn hóa, tổng hợp, khái quát hóa, v.v.

Ví dụ: một bộ dữ liệu có sẵn như là -5, 37, 100, 89, 78 có thể được chuyển đổi thành Hồi -0,05, 0,37, 1,00, 0,89, 0,78. Ở đây, dữ liệu trở nên phù hợp hơn cho khai thác dữ liệu. Sau khi tích hợp dữ liệu, dữ liệu có sẵn đã sẵn sàng để khai thác dữ liệu.

e. Khai thác dữ liệu

Trong quá trình này, chúng tôi đã áp dụng các phương pháp để trích xuất các mẫu từ dữ liệu. Ngoài ra, khai thác này bao gồm một số nhiệm vụ, chẳng hạn như phân loại, dự đoán, phân cụm, phân tích chuỗi thời gian, v.v.

f. Đánh giá mẫu

Đánh giá mẫu xác định các mẫu thực sự thú vị đại diện cho kiến ​​thức dựa trên các loại biện pháp thú vị khác nhau. Một mô hình được coi là thú vị nếu nó có khả năng hữu ích và dễ hiểu. Hơn nữa, nó xác nhận một số giả thuyết rằng ai đó muốn xác nhận dữ liệu mới với một mức độ chắc chắn.

g. Đại diện kiến ​​thức

Biểu diễn tri thức là phương tiện để thể hiện dữ liệu cho người dùng theo cách hấp dẫn. Điều này cũng có thể bao gồm thông tin khai thác từ dữ liệu. Để tạo đầu ra, các kỹ thuật khác nhau cần được áp dụng.

3. Quy trình chuẩn công nghiệp chéo để khai thác dữ liệu (CRISP-DM)

Quy trình tiêu chuẩn xuyên ngành bao gồm sáu giai đoạn xảy ra trong một quy trình theo chu kỳ.

Quy trình khai thác dữ liệu - Quy trình chuẩn công nghiệp chéo

a. Hiểu biết về kinh doanh

  • Đầu tiên, chúng ta phải hiểu các yêu cầu. Sau đó, chúng ta phải tìm những gì các yêu cầu kinh doanh là.
  • Tiếp theo, chúng ta cần đánh giá các nguồn lực và giả định khác nhau bằng cách xem xét các yếu tố quan trọng khác.
  • Để đạt được các mục tiêu kinh doanh, chúng ta cần sử dụng khai thác dữ liệu.
  • Cuối cùng, chúng tôi phải thiết lập một kế hoạch khai thác dữ liệu mới để đạt được cả mục tiêu khai thác dữ liệu và kinh doanh. Kế hoạch nên càng chi tiết càng tốt.

b. Hiểu dữ liệu

  • Đầu tiên, giai đoạn này bắt đầu với việc thu thập dữ liệu. Thu thập dữ liệu hàng đầu, có những hoạt động cần được thực hiện, chẳng hạn như tải dữ liệu và tích hợp dữ liệu.
  • Tiếp theo, các thuộc tính của nền tảng Gross Gross hay trên bề mặt của dữ liệu thu được cần phải được kiểm tra và báo cáo.
  • Sau đó, chúng ta cần khám phá nhu cầu dữ liệu bằng cách giải quyết các câu hỏi khai thác dữ liệu. Điều đó có thể được giải quyết bằng cách sử dụng truy vấn, báo cáo và trực quan hóa.
  • Cuối cùng, chúng tôi phải kiểm tra chất lượng dữ liệu bằng cách trả lời một số câu hỏi quan trọng, chẳng hạn như:
    • Dữ liệu thu được đã hoàn tất chưa?
    • Có bất kỳ giá trị nào bị thiếu trong dữ liệu thu được không?

c. Chuẩn bị dữ liệu

  • Trong bước này, quá trình chuẩn bị dữ liệu sẽ chiếm tới 90% thời gian của chúng tôi trong dự án. Ngoài ra, kết quả của bước này là tập dữ liệu cuối cùng. Khi chúng tôi xác định các nguồn dữ liệu, sau đó chúng tôi cần chọn, làm sạch, xây dựng và định dạng dữ liệu.

d. Làm người mẫu

  • Đầu tiên, chúng ta phải chọn các kỹ thuật mô hình hóa mà chúng ta cần sử dụng cho bộ dữ liệu đã chuẩn bị.
  • Tiếp theo, chúng ta phải tạo ra một kịch bản thử nghiệm để xác nhận chất lượng và tính hợp lệ của mô hình.
  • Sau đó, bằng cách sử dụng các công cụ lập mô hình, chúng ta phải chuẩn bị một hoặc nhiều mô hình trên tập dữ liệu.
  • Cuối cùng, các mô hình này cần được đánh giá bởi các bên liên quan của dự án. Đó là đảm bảo rằng các mô hình đáp ứng các sáng kiến ​​kinh doanh.

e. Đánh giá

  • Trong giai đoạn này, chúng tôi phải đánh giá kết quả trong bối cảnh mục tiêu kinh doanh.
  • Trong giai đoạn này, các yêu cầu kinh doanh mới có thể bật lên, do các mẫu mới được phát hiện trong quá trình đánh giá dữ liệu. Đạt được những hiểu biết kinh doanh là một quá trình lặp đi lặp lại trong khai thác dữ liệu. Quyết định đi hay không đi phải được đưa ra trong bước này trước khi dự án được chuyển sang giai đoạn triển khai.

f. Triển khai

  • Chúng tôi cần trình bày thông tin chúng tôi có được thông qua quá trình khai thác dữ liệu. Thông tin phải được trình bày theo cách mà các bên liên quan có thể sử dụng nó bất cứ khi nào họ muốn. Dựa trên các yêu cầu nghiệp vụ, giai đoạn triển khai có thể đơn giản là tạo một báo cáo hoặc phức tạp như một quy trình khai thác dữ liệu lặp lại trong toàn tổ chức. Trong kế hoạch triển khai này, một kế hoạch bảo trì cũng phải được tạo ra để thực hiện.

  • Báo cáo cuối cùng cần tóm tắt những hiểu biết và kết quả của dự án và xem xét dự án để xem những gì cần được cải thiện.

  • CRISP-DM cung cấp một khung thống nhất để tạo tài liệu và hướng dẫn. Ngoài ra, CRISP-DM có thể được áp dụng cho các ngành công nghiệp khác nhau với các loại dữ liệu khác nhau.

0 hữu ích 0 bình luận 5.4k xem chia sẻ

Có thể bạn quan tâm

loading