Dự đoán tốt hơn với dữ liệu lớn


Đỗ Mỹ Quyên
2 năm trước
Hữu ích 4 Chia sẻ Viết bình luận 0
Đã xem 8928

Thời gian gần đây đã thấy khả năng dự đoán của chúng tôi có một chút vùi dập. Nhiều cuộc thăm dò chính trị đã nhận được các sự kiện từ Brexit đến cuộc bầu cử Trump ồ ạt, với các nhân vật chính trị cấp cao đặt ra nghi ngờ về khả năng của 'các chuyên gia'.

Than ôi, các nhà nghiên cứu từ Columbia, Harvard và Princeton gần đây đã nghĩ ra một phương pháp mà họ tin rằng sẽ giúp chúng ta có thể đưa ra dự đoán chính xác trong các lĩnh vực từ chăm sóc sức khỏe đến chính trị.

Cách tiếp cận, được ghi lại trong một bài báo được xuất bản gần đây  , nhằm mục đích xây dựng dựa trên công trình trước đó của nhóm đã làm nổi bật cách các biến nhất định, trong khi có vẻ quan trọng không đặc biệt hữu ích để đưa ra dự đoán, trong khi những biến có vẻ không đáng kể có thể rất quan trọng.

Tìm các biến chính

Những nghiên cứu ban đầu đặt ra câu hỏi điều gì làm cho một biến trở nên hữu ích khi hình thành dự đoán? Các phương thức truyền thống đã cố gắng gán ý nghĩa cho một biến, trước khi đưa chúng vào các mô hình.

Để cung cấp một cách tiếp cận mạnh mẽ hơn, các nhà nghiên cứu đề xuất một số liệu mới được gọi là điểm ảnh hưởng, sẽ chỉ nhìn vào khả năng của biến để dự đoán kết quả. Đó là một cách tiếp cận mà khi được thử nghiệm đã được chứng minh là đáng tin cậy trong việc phân biệt giữa các biến nhiễu và dự đoán, do đó cải thiện tỷ lệ dự đoán khá đáng kể. Thật vậy, trong một thử nghiệm, tỷ lệ dự đoán ung thư vú đã tăng vọt từ 70% đến 92%. Đó là một cách tiếp cận mà các nhà nghiên cứu tự tin có thể được áp dụng cho các lĩnh vực khác nhau với kết quả tương tự.

Ý nghĩa thực tế là những gì đã thúc đẩy dự án, vì vậy chúng khá rộng,  họ nói. Về cơ bản, bất cứ khi nào bạn có thể quan tâm đến việc dự đoán và xác định các biến dự đoán cao, bạn có thể có thứ gì đó để đạt được bằng cách tiến hành lựa chọn biến thông qua một thống kê như điểm I, có liên quan đến dự đoán biến. Việc điểm số I đặc biệt tốt trong dữ liệu chiều cao và với nhiều tương tác phức tạp giữa các biến là một lợi ích bổ sung cho nhà nghiên cứu hoặc chuyên gia chính sách quan tâm đến việc dự đoán một cái gì đó với dữ liệu chiều lớn.

Nó sẽ làm cho chúng ta tốt hơn trong việc dự đoán kết quả bầu cử? Thời gian sẽ cho tôi biết.

Hữu ích 4 Chia sẻ Viết bình luận 0
Đã xem 8928