Helpex - Trao đổi & giúp đỡ Đăng nhập

Phân tích bản ghi chi tiết cuộc gọi: K-Means Clustering With R

Bản ghi chi tiết cuộc gọi (CDR) là thông tin được các công ty viễn thông nắm bắt trong suốt quá trình Gọi, SMS và Internet của khách hàng. Thông tin này cung cấp cái nhìn sâu sắc hơn về nhu cầu của khách hàng khi được sử dụng với nhân khẩu học của khách hàng. Hầu hết các công ty viễn thông sử dụng thông tin CDR để phát hiện gian lận bằng cách phân cụm hồ sơ người dùng, giảm lượng khách hàng theo hoạt động sử dụng và nhắm mục tiêu khách hàng có lợi nhuận bằng cách sử dụng phân tích RFM. Trong blog này, chúng tôi sẽ thảo luận về phân cụm các hoạt động của khách hàng trong 24 giờ bằng cách sử dụng không giám sát K-có nghĩa là thuật toán phân cụm. Nó được sử dụng để hiểu một phân khúc khách hàng liên quan đến việc sử dụng theo giờ. Ví dụ, phân khúc khách hàng có hoạt động cao có thể tạo ra nhiều doanh thu hơn. Phân khúc khách hàng có hoạt động cao vào ban đêm có thể là những vụ lừa đảo.

mô tả dữ liệu

Một tệp hoạt động hàng ngày từ API Dandelion được sử dụng làm nguồn dữ liệu, trong đó tệp chứa các bản ghi CDR được tạo bởi mạng di động Telecom Italia trên thành phố Milano. Tệp hoạt động CDR hàng ngày chứa thông tin cho 10, 000 lưới về SMS vào và ra, Gọi vào và ra và hoạt động Internet. Cấu trúc của bộ dữ liệu như sau: Vì nó có năm triệu bản ghi, một tập hợp con của tệp chứa thông tin hoạt động cho 500 ID vuông được sử dụng làm trường hợp sử dụng.

Phân tích bản ghi chi tiết cuộc gọi: K-Means Clustering With R

Tính năng nguồn dữ liệu Mô tả

Bộ dữ liệu thực tế chứa tám tính năng số về hoạt động SMS vào và ra, hoạt động gọi vào và ra, hoạt động lưu lượng truy cập Internet, ID lưới vuông nơi hoạt động đã xảy ra, mã quốc gia và thông tin dấu thời gian về khi hoạt động được bắt đầu.

Phân tích bản ghi chi tiết cuộc gọi: K-Means Clustering With R

Xử lý dữ liệu

Quá trình tiền xử lý dữ liệu bao gồm làm sạch dữ liệu, chuyển đổi loại dữ liệu và sắp xếp dữ liệu. Để xử lý trước dữ liệu, hãy thực hiện các bước sau:

  • Chuyển đổi ID vuông và mã quận thành các cột yếu tố như là một phần của chuyển đổi loại.
  • Xuất phát các lĩnh vực mới, chẳng hạn như ngày bắt đầu hoạt động của người bắt đầu
  • Tìm tổng số hoạt động , là tổng số hoạt động SMS vào và ra, hoạt động gọi vào và ra và hoạt động lưu lượng truy cập Internet.

Phân tích bản ghi chi tiết cuộc gọi: K-Means Clustering With R

  • Tạo các trường dẫn xuất mới như đã đề cập ở trên.

Phân tích bản ghi chi tiết cuộc gọi: K-Means Clustering With R

Phân tích dữ liệu thăm dò CDR (EDA)

Phân tích dữ liệu thăm dò là quá trình phân tích dữ liệu một cách trực quan. Nó liên quan đến phát hiện ngoại lệ, phát hiện bất thường, phát hiện giá trị bị thiếu, tổng hợp các giá trị và tạo ra những hiểu biết có ý nghĩa. Cốt truyện cho tổng số hoạt động của giờ hoạt động theo giờ như sau:

Phân tích bản ghi chi tiết cuộc gọi: K-Means Clustering With R

Từ cốt truyện trên, có thể thấy rõ rằng hầu hết các hoạt động xảy ra trong giờ 23 và rất ít hoạt động xảy ra vào giờ 06. Cốt truyện cho lưới 25 đỉnh vuông trên đỉnh của Tổng số hoạt động như sau:

Phân tích bản ghi chi tiết cuộc gọi: K-Means Clustering With R

Từ cốt truyện trên, có thể thấy rõ rằng hầu hết các hoạt động đã xảy ra trong lưới ô vuông ID 147. Cốt truyện cho quốc gia Top 10 của tổng cộng hoạt động như sau:

Phân tích bản ghi chi tiết cuộc gọi: K-Means Clustering With R

Từ âm mưu trên, hiển nhiên là mã quốc gia 39 có hoạt động cao nhất.

Chi tiết cuộc gọi Phân cụm

Phân cụm K-nghĩa là thuật toán phân cụm không giám sát phổ biến được sử dụng để tìm mẫu trong dữ liệu. Ở đây, K-mean được áp dụng trong tổng số giờ hoạt động và giờ hoạt động của người dùng để tìm mô hình sử dụng liên quan đến giờ hoạt động.

Phương pháp khuỷu tay được sử dụng để tìm số cụm tối ưu cho thuật toán K-mean.

Phân tích bản ghi chi tiết cuộc gọi: K-Means Clustering With R

Bằng cách nhìn vào cốt truyện trên, có thể thấy rằng Sum of Squared Error (SSE) giảm với thay đổi tối thiểu sau cụm số 10 và không có sự gia tăng bất ngờ nào về khoảng cách lỗi. Vì vậy, cụm tốt nhất để thực hiện K-mean cho bộ dữ liệu này là 10. Tóm tắt về mô hình K-mean của CDR và ​​trung tâm của nó được tính cho mỗi cụm như sau:

Phân tích bản ghi chi tiết cuộc gọi: K-Means Clustering With R

Biểu đồ bản đồ nhiệt với cụm, giờ hoạt động và tổng thời gian hoạt động như sau:

Phân tích bản ghi chi tiết cuộc gọi: K-Means Clustering With R

Từ cốt truyện trên, hiển nhiên là các cụm 1, 7 và 9 có hoạt động trong tất cả 24 giờ và là các cụm tạo ra doanh thu nhiều hơn. Các cụm 1, 5, 7, 9 và 10 có hoạt động vào ban đêm. Cụm 5 có hoạt động từ 11,5 đến 17 giờ.

Phần kết luận

Bằng cách sử dụng cơ chế phân cụm này, bạn có thể tìm thấy các cụm tạo thêm lưu lượng truy cập vào mạng viễn thông trong thước đo tổng hoạt động. Tương tự, bạn có thể có được nhiều thông tin hơn như lưới vuông và thông tin mã quốc gia để hiểu lưới vuông có thể tạo ra nhiều doanh thu và lưu lượng truy cập hơn cho mạng viễn thông và nhắm mục tiêu khách hàng cao dựa trên vị trí địa lý của họ. Trong blog sắp tới, chúng tôi sẽ thảo luận về cách RFM sẽ được sử dụng để phân tích các bản ghi chi tiết cuộc gọi. Để biết thêm, đây là  vị trí GitHub .

1 hữu ích 0 bình luận 11k xem chia sẻ

Có thể bạn quan tâm

loading