Từ nghịch lý của Simpson đến bánh nướng


Phan Khả Minh
6 năm trước
Hữu ích 5 Chia sẻ Viết bình luận 0
Đã xem 2624

Hôm nay, tôi muốn xuất bản một bài về kinh tế và lý thuyết quyết định. Và xác suất cũng vậy, những người theo dõi blog của tôi nên biết rằng tôi là một fan hâm mộ lớn của nghịch lý Simpson. Tôi cũng thích đề cập đến nó trong các lớp học kinh tế lượng của tôi. Nó đặt ra những câu hỏi quan trọng, rằng tôi có liên quan đến đa tuyến và xen kẽ các mô hình hồi quy, với nhiều biến giải thích (tương quan phủ định). Nghịch lý này có những đức tính sư phạm tuyệt vời. Tôi đã đề cập đến nó nhiều lần trên blog này (có lẽ tôi nên đề cập rằng tôi đã phát hiện ra nghịch lý này qua  Marco Scarsini, người đã học cho tôi rất nhiều thứ, trong lý thuyết quyết định và xác suất). Đối với những người không biết nghịch lý này, đây là một ví dụ mà Marco đã đưa ra trong một cuộc nói chuyện của mình, một vài năm trước. Hãy xem xét các số liệu thống kê sau đây, khi những người khỏe mạnh vào bệnh viện

bệnh viện toàn bộ những người sống sót cái chết tỷ
lệ sống
bệnh viện A 600 590 10 98%
bệnh viện B 900 870 30 97%

Trong khi, khi người bệnh vào cùng bệnh viện

bệnh viện toàn bộ những người sống sót cái chết tỷ
lệ sống
bệnh viện A 400 210 190 53%
bệnh viện B 100 30 70 30%

Bằng cách nào đó, bất kể tình hình sức khỏe của bạn là gì, bạn nên chọn bệnh viện A. Bây giờ, nếu chúng ta kết bạn

bệnh viện toàn bộ những người sống sót cái chết tỷ
lệ sống
bệnh viện A 1000 800 200 80%
bệnh viện B 1000 900 100 90%

tức là không có nghi ngờ gì, mọi người nên chọn bệnh viện B.

Trên thực tế, nghịch lý của Simpson được gọi là nghịch lý của Simpson vì Colin Blyth đã đặt tên theo cách đó vào năm 1972, trong bài viết của ông   có tựa đề nghịch lý của Simpson và nguyên tắc chắc chắn (một bài báo kinh tế trong một tạp chí thống kê), có thể được tải xuống từ  http: // www.stat.cmu.edu/~fienberg/ . Ông đã tìm thấy nghịch lý này trong một bài báo  xuất bản năm 1951 bởi Edward Simpson, ngay cả khi các bài báo khác   thực sự đã đề cập đến nó trước đó. Ứng dụng phổ biến nhất có lẽ là nhập học tại các chương trình nghiên cứu sau đại học của Berckley và xu hướng giới tính, xem Bickel, Hammel & O'Connell (1975) , có thể được tải xuống từ  http://www.unc.edu/~nielsen/. Tôi cũng đã đề cập đến một diễn giải hình học của nghịch lý này một vài năm trước trên blog của tôi, thật đơn giản để hiểu rằng nghịch lý thực sự không còn là một nghịch lý nữa, vì ví dụ trên, chúng tôi đã có

trong khi

Với các ký hiệu tượng trưng, ​​người ta có thể có cùng một lúc

với

như thể hiện trên biểu đồ dưới đây

Cần có mối liên hệ giữa nghịch lý của Simpson và sai lầm sinh thái (đây là một vấn đề tôi mới phát hiện ra và tôi thấy vô cùng thú vị, lại liên quan đến những khó khăn trong việc diễn giải
hồi quy). Nhưng nó là một câu chuyện khác. Quan điểm của tôi hôm nay là Colin Blyth đã đề cập đến một nghịch lý tốt đẹp khác, lần này có liên quan đến các thứ tự ngẫu nhiên. Ý tưởng như sau. Hãy xem xét ba  spinners được vẽ dưới đây (hãy tưởng tượng một số mũi tên trong các vòng tròn đó)

  • spinner A: cho dù mũi tên dừng ở đâu, mức tăng là 3,
  • spinner B: 56% cơ hội đạt được 2, 22% cơ hội để đạt được 4 và 22% cơ hội để đạt được 6,
  • spinner C: 51% cơ hội để đạt được 1, 49% cơ hội để đạt được 5.

Thay vì quay, cũng có thể xem xét ba loại xổ số khác nhau,

Bạn chơi với một người bạn, bạn chọn một con quay, trong khi người bạn chọn một người khác. Mọi người búng mũi tên của mình, số cao nhất sẽ thắng (không có sự khác biệt). Hãy để chúng tôi tính toán tỷ lệ cược. Trường hợp đầu tiên, A chống lại B, từ
quan điểm của A lề

B-2 B 4 B-6
A-3 Chiến thắng 56%
+1
Mất 22%
-1
Mất 22%
-3

Trong trường hợp đó, A có 56% cơ hội đánh bại B. Trường hợp thứ hai, A chống lại C, theo quan điểm của A,

C-1 C-5
A-3 Chiến thắng 51%
+1
Mất 49%
-2
Trong trường hợp đó, A có 51% cơ hội đánh bại C. Trường hợp thứ ba (cuối cùng), B chống lại C, theo quan điểm của B. Giả sử tính độc lập giữa các spinners, xác suất chung có thể dễ dàng được tính toán,
C-1 C-5
B-2 28,56%
+1
chiến thắng
27,44%
-3
thua
B 4 11,22%
3
chiến thắng
Mất 10,78%
-1
B-6 11,22%
+5
thắng
10,78%
+1
thắng
Trong trường hợp đó, B có 61,78% cơ hội đánh C. Vì vậy, nếu chúng ta cố gắng tóm tắt,
  • A là lựa chọn tốt nhất, vì nó đánh bại cả hai với - luôn luôn - hơn 50% cơ hội,
  • C là lựa chọn tồi tệ nhất, vì nó bị đánh bại bởi cả hai với - luôn luôn - hơn 50% cơ hội,
Bây giờ, giả sử rằng bạn chơi không phải với một người bạn, mà là hai người bạn. Một người chọn một spinner khác nhau. Hãy để
chúng tôi tính toán tỷ lệ cược, một lần nữa. Trường hợp đầu tiên, A chống lại B và C, từ quan điểm của A
B-2
C-1
B-2
C-5
B-4
C-1
B-4
C-5
B-6
C-1
B-6
C-5
A-3 28,56%
+1
chiến thắng
27,44%
-2
thua
11,22%
-1
thua
Mất 10,78%
-1
11,22%
-3
thua
Mất 10,78%
-3
Trong trường hợp đó, A có 28,56% cơ hội đánh bại B và C. Trường hợp thứ hai, B chống lại A và C, theo quan điểm của B,
A-3
C-1
A-3
C-5
B-2 28,56%
-1
thua
27,44%
-2
thua
B 4 11,22%
1
chiến thắng
Mất 10,78%
-1
B-6 11,22%
3
chiến thắng
10,78%
+1
thắng
Trong trường hợp đó, B có 33,22% cơ hội đánh bại trường hợp A và B.Third (một trận chung kết), C chống lại A, theo quan điểm của C,
A-3
B-2
A-3
B-4
A-3
B-6
C-1 28,56%
-2
thua
11,22%
-3
thua
11,22%
-5
thua
C-5 27,44%
+2
thắng
10,78%
+1
thắng
Mất 10,78%
-1

Trong trường hợp đó, C có 38,22% cơ hội đánh bại A và B. Vì vậy, nếu chúng ta cố gắng tóm tắt, lần này

  • C là lựa chọn tốt nhất, vì có (đúng) hơn 1/3 cơ hội để giành chiến thắng, đó là xác suất cao nhất
  • A là lựa chọn tồi tệ nhất, vì có (đúng) ít hơn 1/3 cơ hội để giành chiến thắng, đó là xác suất thấp nhất

Có lạ không? Bây giờ, có một sự giải thích về nghịch lý đó? Vâng, Martin Gardner, trong bài báo về cảm ứng và xác suất, đã đề cập đến trường hợp thử nghiệm thuốc. Giá trị chúng tôi có với spinner là mức độ sức khỏe, được xếp hạng từ 1 đến 6. Do đó, dùng thuốc A, bạn luôn có mức sức khỏe trung bình là 3. Với thuốc C, mặt khác, bạn bị bệnh nặng (cấp độ 1) hoặc rất tốt (cấp 5). Bây giờ hãy xem xét một bác sĩ muốn tối đa hóa cơ hội khỏe mạnh của bệnh nhân. Nếu chỉ có thuốc A và C thì bác sĩ nên chọn A. Đây là những gì chúng ta đã thấy trong phần đầu tiên. Giả sử rằng bây giờ một công ty cung cấp một viên thuốc thứ ba, được gọi là thuốc B. Sau đó, bác sĩ sẽ tìm thấy C thú vị hơn. Lạ nhỉ?

Colin Blyth đã đưa ra một ứng dụng thú vị hơn. Giả sử rằng bạn thích đi đến nhà hàng, và bạn thích có một món tráng miệng ở đó. Món tráng miệng A - bánh táo - là loại trung bình, với mức tiêu chuẩn, bạn xếp hạng 3 (theo thang điểm từ 1 đến 6). Tráng miệng C - bánh phô mai - có thể là tuyệt vời (xếp hạng 1) hoặc ngon (xếp hạng 5). Tốt hơn hết là bạn nên dùng bánh táo nếu bạn muốn tối đa hóa xác suất không bị thất vọng (tức là tối đa hóa cơ hội tốt nhất của bạn, theo Colin Blyth, nhưng tôi đoán nó cũng có thể được hiểu là giảm thiểu hối tiếc). Bây giờ giả sử rằng món tráng miệng B - bánh việt quất - đã có sẵn (với thứ hạng được đưa ra bởi spinner). Sau đó, bạn nên đi cho bánh phô mai. Tôi cho bạn tưởng tượng cuộc thảo luận mà bạn có thể có, sau đó, với cô hầu bàn yêu thích của bạn

- Chào ông Freakonometrics, bạn có muốn một miếng bánh táo không? (vâng, thực ra cô ấy cũng đến thường xuyên trên blog của tôi và biết tôi từ giả của tôi)

- Có lẽ. Nhưng thực sự, tôi đã tự hỏi nếu bạn đã có bánh việt quất của bạn ngày hôm nay?

- Vâng, thực tế là chúng tôi làm.

- Tuyệt, trong trường hợp đó, tôi sẽ đi ăn bánh phô mai.

Cô ấy có lẽ sẽ nghĩ rằng tôi là một kẻ lập dị, vì vậy tôi hy vọng cô ấy sẽ đến và đọc bài viết của tôi, để hiểu rằng, thực sự, nó rất có ý nghĩa đối với những gì được cho là trường hợp xấu nhất của tôi.

Hữu ích 5 Chia sẻ Viết bình luận 0
Đã xem 2624