Data Chef ETL Battles: Chuỗi thời gian tiêu thụ năng lượng


Trần Quang Duy
2 năm trước
Hữu ích 9 Chia sẻ Viết bình luận 0
Đã xem 2045

Đó là một loạt các đầu bếp được truyền hình trong đó các đầu bếp nổi tiếng xắn tay áo để cạnh tranh trong việc tạo ra món ăn hoàn hảo. Dựa trên một chủ đề định sẵn, điều này liên quan đến việc sử dụng tất cả kinh nghiệm, sáng tạo và trí tưởng tượng của họ để biến đổi các thành phần đôi khi nghi ngờ thành bữa ăn cuối cùng.

Này, không phải giống như chuyển đổi dữ liệu sao? Hoặc trộn dữ liệu, hoặc thao tác dữ liệu, hoặc ETL , hoặc bất kỳ tên mới nào đang là xu hướng bây giờ? Trong loạt blog mới này được yêu cầu bởi phiếu bầu phổ biến, chúng tôi sẽ yêu cầu hai đầu bếp dữ liệu sử dụng tất cả kiến ​​thức và sự sáng tạo của họ để cạnh tranh trong việc trích xuất một bộ dữ liệu hữu ích nhất định của một bộ dữ liệu nhất định thông qua việc giảm, tổng hợp, đo lường, KPI và biến đổi phối hợp. Thơm ngon!

Thành phần chủ đề: Chuỗi thời gian tiêu thụ năng lượng

Hôm nay chúng ta hãy nói về điện và tiêu thụ của nó. Một trong những vấn đề khó khăn nhất trong ngành năng lượng là phù hợp với cung và cầu. Một mặt, việc sản xuất quá mức năng lượng có thể gây lãng phí tài nguyên; mặt khác, sản xuất kém có thể khiến con người không có hàng hóa cơ bản của cuộc sống hiện đại. Do đó, dự đoán về nhu cầu năng lượng điện tại từng thời điểm là một chương rất quan trọng trong phân tích dữ liệu.

Vì lý do này, một vài năm trước, các công ty năng lượng bắt đầu theo dõi mức tiêu thụ điện của từng hộ gia đình, cửa hàng hoặc thực thể khác, bằng đồng hồ thông minh. Một dự án thí điểm đã được đưa ra vào năm 2009 bởi Ủy ban Điều tiết Năng lượng (CER) của Ireland .

Các thử nghiệm hành vi khách hàng điện đo sáng thông minh (CBT) đã diễn ra trong năm 2009 và 2010 với hơn 5.000 gia đình và doanh nghiệp Ailen tham gia. Mục đích của các thử nghiệm là đánh giá tác động đến mức tiêu thụ điện của người tiêu dùng để thông báo phân tích lợi ích chi phí cho buổi giới thiệu quốc gia. Các khách hàng doanh nghiệp và dân cư ở Electric Ireland và các khách hàng doanh nghiệp của Bord Gáis Energy đã tham gia thử nghiệm, đã cài đặt đồng hồ điện thông minh trong nhà hoặc tại cơ sở của họ và đồng ý tham gia nghiên cứu để giúp thiết lập cách đo sáng thông minh có thể giúp hình thành hành vi sử dụng năng lượng trên một loạt các nhân khẩu học, lối sống và kích thước nhà. Các thử nghiệm cho kết quả khả quan. Các báo cáo có sẵn từ CER(Ủy ban Điều tiết Năng lượng) cùng với thông tin thêm về Dự án Đo sáng thông minh. Để có được một bản sao của tập dữ liệu, hãy điền vào mẫu yêu cầu này và gửi email cho nó.

Tập dữ liệu chỉ là một chuỗi thời gian rất dài. Một cột bao gồm ID đồng hồ thông minh, một cột thời gian và một cột lượng điện sử dụng trong 30 phút trước đó. Thời gian được biểu thị bằng số phút từ 01.01.2009: 00.00 và phải được chuyển đổi lại thành một trong các định dạng ngày / giờ cổ điển, ví dụ như dd.MM.yyyy: HH.mm. Tốc độ lấy mẫu ban đầu, tại đó năng lượng được sử dụng được đo, cứ sau 30 phút.

Các biến đổi dữ liệu đầu tiên, phổ biến cho tất cả các đầu bếp dữ liệu, liên quan đến chuyển đổi ngày / giờ và trích xuất năm, tháng, ngày trong tháng, ngày trong tuần, giờ và phút từ dữ liệu thô.

  • Chủ đề : Chuỗi thời gian tiêu thụ năng lượng.

  • Thách thức : Từ chuỗi thời gian đến các biện pháp hành vi và thời vụ.

  • Phương pháp : Tập hợp ở nhiều cấp độ, tương quan.

  • Các nút thao tác dữ liệu : GroupBy, Xoay vòng, Tương quan tuyến tính, Cột Lag.

Cuộc thi

Nói chung, chúng ta có thể làm gì với một chuỗi thời gian? Thông thường, mục tiêu cuối cùng là dự đoán các giá trị trong tương lai dựa trên các giá trị hiện tại và quá khứ. Nhưng chỉ là bao nhiêu quá khứ? Ngoài ra, một chuỗi thời gian có thể theo các hình dạng rất khác nhau. Hình dạng có ý nghĩa gì không? Chúng ta có thể tóm tắt sự tiến hóa theo chuỗi thời gian, bằng cách mô tả các thói quen liên quan đến điện của hộ gia đình? Có tính thời vụ nào mà chúng ta có thể tính đến? Có thể dự đoán các giá trị trong tương lai cho các nhóm có chuỗi thời gian tương tự không? Trong trường hợp này, làm thế nào để chúng ta đo lường sự tương tự trong chuỗi thời gian? Chà, hãy bắt đầu thử thách này và xem những đầu bếp dữ liệu của chúng tôi đã chuẩn bị gì cho dữ liệu ngày nay!

Đầu bếp dữ liệu Haruto: Các biện pháp hành vi theo thời gian

Haruto đã quyết định ở lại trong không gian thời gian và phân tích hành vi điện của người tiêu dùng năng lượng, được đo bằng đồng hồ thông minh của họ. Cụ thể, ông khám phá mức tiêu thụ năng lượng vào cuối tuần và ngày làm việc, vào mỗi ngày trong tuần, vào mỗi giờ trong ngày và cho các khung thời gian khác nhau trong ngày.

Để làm được điều đó, trước tiên, ông đã tính mức tiêu thụ năng lượng trung bình theo ngày, theo giờ, theo thời gian trong ngày và vào cuối tuần so với ngày làm việc. Giá trị trung bình đã cho thấy ai đang sử dụng lượng năng lượng lớn nhất. Sau đó, ông đã biến đổi các giá trị trung bình như vậy thành tỷ lệ phần trăm, để hiểu khi mỗi thực thể sử dụng bao nhiêu năng lượng.

Trong Hình 1, nhánh trên của dòng công việc - được nhúng trong hình vuông Cách sử dụng của Quảng cáo - là từ Data Chef Haruto.

Hình 1: Luồng công việc cuối cùng 03_ETL_Energy_autocorr_stats. Phần trên có tên "Các biện pháp sử dụng" mô tả hành vi tiêu thụ năng lượng của thực thể. Phần dưới có nhãn "Ma trận tương quan tự động" tính toán ma trận tự tương quan của chuỗi thời gian tiêu thụ năng lượng cho một ID mét đã chọn. 

Hai siêu dữ liệu đầu tiên, được đặt tên là Hàng ngày Giá trị Hàng hóa và Giá trị hàng giờ, tính toán (Hình 2):

  • Mức sử dụng năng lượng trung bình hàng ngày / giờ theo ID mét (nút GroupBy).
  • Mức sử dụng năng lượng trung bình theo ID mét so với ngày trong tuần / giờ trong ngày (Nút xoay vòng).
  • Mức sử dụng năng lượng trung bình trong các ngày cuối tuần so với các khung thời gian ngày / ngày làm việc (Công cụ quy tắc + Nút xoay vòng).

Sau đó, một loạt các nút Công thức toán học trong các siêu dữ liệu có tên là phân đoạn trong ngày (%) Ngày và Tuần (%), đặt các giá trị trung bình vào ngữ cảnh, bằng cách báo cáo chúng là phần trăm năng lượng được sử dụng trong ngày phân khúc và trong những ngày trong tuần.

Hình 2: Nội dung của siêu dữ liệu hàng ngày có giá trị trung bình để tính mức tiêu thụ năng lượng hàng ngày theo ID mét trung bình, trung bình mỗi ngày trong tuần, trung bình vào cuối tuần và ngày làm việc.

Đầu bếp dữ liệu Momoka: Ma trận tự động tương quan

Momoka quyết định tìm kiếm các mẫu thời vụ và để kiểm tra từng ma trận tự tương quan chuỗi thời gian.

Trong Hình 1, nhánh công việc thấp hơn - được nhúng vào ô vuông Ma trận tương quan tự động - là kết quả của công việc của Data Chef Momoka.

Đầu tiên, dữ liệu được định hình dưới dạng bảng xoay vòng với mức tiêu thụ năng lượng trung bình của ID mét so với ngày và giờ. Thực tế, Metanode Pivot Pivoting, tạo ra chuỗi thời gian tiêu thụ năng lượng cho tất cả các ID mét, được lấy mẫu mỗi giờ và được sắp xếp theo thời gian. Siêu dữ liệu tiếp theo, có tên là Chọn Chọn ID ID, cho phép chọn chuỗi một lần thông qua giá trị ID mét của nó.

Để tính toán ma trận tự tương quan, chúng ta cần:

  • giá trị chuẩn hóa cho một so sánh có ý nghĩa của các chỉ số tương quan.
  • các giá trị trong quá khứ để tính tương quan của mẫu hiện tại với các mẫu N trong quá khứ.

Trong metanode, Chuẩn hóa & Lag, các giá trị chuỗi thời gian của Sau đó được chuẩn hóa thành [0,1] và N mẫu trước đây được giới thiệu. Chuẩn hóa được thực hiện với nút Chuẩn hóa, trong khi các mẫu N trong quá khứ được tạo bởi nút Lag Cột. Nút Lag Lag tạo ra N bản sao của cột được chọn và dịch chuyển các giá trị của nó thành 1, 2, Rò, N bước về phía trước. Nếu các giá trị cột được sắp xếp theo thời gian, điều này có nghĩa là chúng ta sẽ đính kèm N mẫu quá khứ của chuỗi thời gian vào mẫu hiện tại.

Ma trận tự tương quan của các mẫu hiện tại với các mẫu N trong quá khứ của chúng sau đó được tính toán bằng nút Tương quan tuyến tính. Ma trận tương quan sẽ hiển thị một vài cột có tương quan cao, ví dụ như x (t) và x (t-2). Cụ thể, nếu hàm tự tương quan hiển thị cực đại cục bộ ở các bước lặp lại trong quá khứ, như tại x (t) và x (t- i * 24) với i = 1,2, .., đây có thể là dấu hiệu của tính thời vụ mẫu.

Các siêu dữ liệu tìm kiếm theo mùa của Find Findality cho các cực đại cục bộ như vậy trong các hàm tương quan. Nó phát hiện thời kỳ mùa vụ nhỏ nhất là vị trí của cực đại cục bộ đầu tiên của đạo hàm đầu tiên của hàm tương quan (Hình 3).

Hình 3. Nội dung của siêu dữ liệu Tìm kiếm tính thời vụ, tìm thấy cực đại cục bộ trong hàm tương quan tự động thông qua các giá trị đạo hàm đầu tiên của nó.

Ban giám khảo

Bây giờ chúng ta hãy xem kết quả cuối cùng trên một đồng hồ thông minh cụ thể. Ban giám khảo đã chọn ngẫu nhiên mét ID 1038.

Theo các tính năng hành vi được cung cấp bởi đầu bếp dữ liệu Haruto, thực thể được kết nối với đồng hồ ID 1038 sử dụng trung bình 232 kW / ngày, ít nhiều cùng một lượng mỗi ngày trong tuần, không có nhiều khác biệt giữa cuối tuần và ngày làm việc. Chuyển sang thang đo giờ, trung bình ID 1038 sử dụng trung bình ~ 10 kW / giờ, hầu hết trong số đó vào ban ngày và phân bổ gần như bằng nhau vào buổi sáng và buổi chiều.

Thật vậy, biểu đồ đường được cung cấp bởi đầu bếp dữ liệu Momoka cho chuỗi thời gian sử dụng năng lượng của đồng hồ đo ID 1038 (Hình 4) cho thấy một xu hướng theo chu kỳ so với ban đêm, trong đó các kW được sử dụng vào ban ngày chắc chắn chiếm ưu thế. Cốt truyện cũng cho thấy không có sự khác biệt về sử dụng điện giữa các ngày trong tuần.

Hình 4. Biểu đồ đường của chuỗi thời gian tiêu thụ năng lượng cho đồng hồ ID 1038. Lưu ý nhịp ngày / đêm.

Xu hướng tuần hoàn này biện minh cho kết quả dựa trên tương quan tự động của đầu bếp dữ liệu Momoka. Bản đồ tự tương quan tín hiệu (Hình 5) hiển thị chu kỳ 24 giờ, với cực đại cục bộ trong chức năng tương quan tự động tại x (t) và x (t-24), x (t) và x (t-48), x (t), và x (t-72), v.v. Thời gian theo mùa nhỏ nhất được tính là 24 giờ.

Lưu ý : Hành vi tuần hoàn của ma trận tự tương quan càng mạnh thì mẫu thời vụ càng có ý nghĩa. Trong Hình 5, tính thời vụ của chuỗi thời gian có thể thấy rõ qua xu hướng tuần hoàn của ma trận tương quan tự động của nó.

Hình 5: Ma trận tự tương quan của chuỗi thời gian tiêu thụ năng lượng cho đồng hồ ID 1038. Bạn có thể thấy xu hướng tuần hoàn của ma trận tương quan tự động và cực đại cục bộ tương quan tự động ở -24, -48, v.v.

Lưu ý : Luồng công việc mẫu trên máy chủ EXAMPLES chỉ hoạt động trên một tập hợp con của tập dữ liệu gốc. Điều này là do bộ dữ liệu gốc phải được lấy bằng cách điền vào mẫu yêu cầu và gửi email đến. Do đó, bản đồ tương quan tự động và nói chung tất cả các số khác được hiển thị trong bài đăng này sẽ khác nhau khi được tạo bởi dòng công việc mẫu trên tập dữ liệu giảm!

Chúng tôi đã kết thúc cuộc thi này. Xin chúc mừng cho cả hai đầu bếp dữ liệu của chúng tôi vì đã bỏ qua các tính năng thú vị như vậy từ các thành phần dữ liệu thô! Ôi!

Hữu ích 9 Chia sẻ Viết bình luận 0
Đã xem 2045