Nghịch lý và lấy mẫu dữ liệu của Simpson


Trịnh Ðình Nam
2 năm trước
Hữu ích 2 Chia sẻ Viết bình luận 0
Đã xem 6186

EH Simpson lần đầu tiên mô tả hiện tượng nghịch lý của Simpson vào năm 1951. Tên thật là "Nghịch lý của Simpson" được giới thiệu bởi Colin R. Blyth vào năm 1972. Blyth đã đề cập rằng:

GW Haggstrom chỉ ra rằng nghịch lý của Simpson là hình thức đơn giản nhất của nghịch lý tương quan sai trong đó miền của x được chia thành các khoảng ngắn, trên mỗi y là hàm tuyến tính của x có độ dốc âm lớn, nhưng các đoạn thẳng ngắn này có được tăng dần về bên phải, sao cho trên toàn bộ miền của x, biến y thực tế là một hàm tuyến tính của x với độ dốc dương lớn.

Nghịch lý của Simpson phát sinh từ sự kết hợp của một biến gây nhiễu bị bỏ qua và phân bổ biến không cân xứng, và nó có thể dẫn đến một kết luận về hiệu ứng can thiệp trái ngược với suy luận đúng (do đó, là một nghịch lý). Simpson đã chứng minh làm thế nào các phân tích khác biệt của các bảng dự phòng (tức là phân tích trong đó biến gây nhiễu được loại trừ hoặc bao gồm) có thể dẫn đến các kết luận khác nhau. (Chủ đề về sự tương tác trong các bảng dự phòng có từ tám thập kỷ trước. Các tác phẩm ban đầu bao gồm những tác phẩm của Bartlett , Norton , Lancaster , Darroch , Lewis , WhittemoreDavis .)

Về mặt toán học, nghịch lý của Simpson là như sau:

Có thể có  P (A | B) <P (A | B ')  và có cùng lúc cả P (A | BC) P (A | B'C)P (A | BC') P (A | B'C ') .

Nghịch lý dựa trên sự phụ thuộc hoặc tương tác của B và C. Khác, nghịch lý sẽ không giữ được vì các trọng số sẽ giống nhau trong các trường hợp sau (các trọng số nằm trong dấu ngoặc nhọn):

P (A | B) = {P (C | B)} P (A | BC) + {P (C '| B)} P (A | BC')

P (A | B ') = {P (C | B')} P (A | B'C) + {P (C '| B')} P (A | B'C ')

Hình thức cực đoan của nghịch lý Simpson được đưa ra bởi:

Theo các điều kiện  P (A | BC) P (A | B'C)  với 1 , có thể có P (A | BC) ≅ 0 và P (A | BC) 1 / .

Nghịch lý của Simpson đã được nghiên cứu rộng rãi trong nhiều lĩnh vực như, nhưng không giới hạn ở số liệu thống kê, y học, khoa học nhận thức và khoa học xã hội. Trong bối cảnh hoạt động, chúng tôi đã thảo luận về nghịch lý của Simpson là một blog trước đó và một bài viết nghiên cứu .

Trong bài báo năm 1981 , Lindley và Novick đã lập luận suy luận thống kê sau:

Các thủ tục tiêu chuẩn tập trung vào dữ liệu và có xu hướng bỏ qua kết nối với trường hợp áp dụng suy luận. ... Kết nối này có thể được thiết lập bằng cách sử dụng ý tưởng về khả năng trao đổi của de Finetti hoặc khái niệm về dân số của Fisher.

Sử dụng phép tính nhân quả, Pearl cho thấy "độ phân giải" của nghịch lý Simpson.

Như đã đề cập nhiều lần trước đây trong loạt blog của chúng tôi, kết hôn với bối cảnh để phân tích thống kê là chìa khóa để rút ra những hiểu biết có thể hành động. Chẳng hạn, các ô bên dưới hiển thị Thời gian phản hồi của trang web cho hai ưu đãi khác nhau của AT & T. Biểu đồ đầu tiên tương ứng với hiệu suất trên máy tính để bàn trong khi âm mưu thứ hai tương ứng với hiệu suất của thiết bị di động.

Từ cốt truyện trên, chúng tôi lưu ý rằng hiệu suất trung bình (và trung bình) của U-Verse kém hơn so với đối tác của nó. Quan trọng hơn, U-Verse trải nghiệm hơn 2,5 lần số lượng đột biến> 10 giây so với đối tác của nó. Sự khác biệt về hiệu suất này sẽ được che dấu trong một cái nhìn tổng hợp. Khi phân tích sâu hơn, chúng tôi thấy địa lý là yếu tố gây nhiễu. Nói một cách cụ thể, về việc phân tích hiệu suất giữa bờ đông / tây so với trung tây ở Mỹ, chúng tôi lưu ý rằng sự khác biệt về hiệu suất với U-Verse và đối tác của nó đã biến mất.

Từ cốt truyện trên, chúng tôi lưu ý rằng hiệu suất trung bình (và trung bình) của U-Verse là tốt hơn (không giống như trong trường hợp máy tính để bàn) so với đối tác của nó. Hơn nữa, U-Verse trải nghiệm ít hơn 0,74 lần số lượng gai> 10 giây so với đối tác của nó. Sự khác biệt về hiệu suất này sẽ được che dấu trong một cái nhìn tổng hợp. Akin ở trên, chúng tôi lưu ý rằng sự khác biệt về hiệu suất với U-Verse và đối tác của nó đã biến mất khi mổ xẻ hiệu suất giữa bờ đông / tây so với giữa tây ở Mỹ

Akin đến Phần 1 , hãy phân tích xem điều gì sẽ có tác động nếu thời gian phản hồi của trang web được lấy mẫu theo hệ số hai trong các trường hợp đã nói ở trên.

Khi so sánh âm mưu trên với âm mưu khác tương ứng với hiệu suất của máy tính để bàn (không có đường xuống), chúng tôi lưu ý rằng mặc dù hiệu suất trung bình / trung bình của U-Verse vẫn kém hơn, tỷ lệ số lượng gai> 10 giây giảm xuống còn 2,3 lần. Điều này giả tạo tăng hiệu suất trường hợp xấu nhất.

Khi so sánh âm mưu trên với âm mưu khác tương ứng với hiệu suất của thiết bị di động (không có đường xuống), chúng tôi lưu ý mặc dù hiệu suất trung bình / trung bình của U-Verse vẫn tốt hơn, tỷ lệ số lượng gai> 10 giây giảm từ 0,74x xuống 0,29x . Akin cho trường hợp máy tính để bàn, downsampling nhân tạo tăng hiệu suất trường hợp xấu nhất.

Điểm nổi bật của những điều trên là để tránh nghịch lý của Simpson, người ta nên phân tích một cách thận trọng hiệu suất hoạt động theo các chiều khác nhau. (Rút ra kết luận dựa trên các số liệu tổng hợp cấp cao có thể có khả năng gây hiểu lầm.) Điều này sẽ giúp tránh bất kỳ cuộc săn đuổi ngỗng hoang dã nào. Phải nói rằng, các mẫu phụ thu được dựa trên việc cắt dọc theo các kích thước khác nhau phải lớn để đảm bảo khả năng thống kê cao của phân tích tiếp theo.

Hữu ích 2 Chia sẻ Viết bình luận 0
Đã xem 6186