3

Chúng tôi rõ ràng đã bước vào kỷ nguyên của dữ liệu lớn. Được trang bị hàng petabyte dữ liệu giao dịch, dòng nhấp chuột và nhật ký cookie, cũng như dữ liệu từ mạng xã hội, điện thoại di động và "internet of thing", một loạt các lợi ích kinh tế, bao gồm tiếp thị tiêu dùng, chăm sóc sức khỏe, sản xuất, giáo dục và Chính phủ, hiện đang theo đuổi giá trị của việc ra quyết định dựa trên dữ liệu mà dữ liệu lớn hứa hẹn.

Đồng thời, dữ liệu lớn ngày càng thúc đẩy quá trình ra quyết định kinh tế đã nổi lên như một địa hình phong phú để tham gia vào nghiên cứu và thử nghiệm hàn lâm: Hãy nghĩ về thí nghiệm truyền cảm xúc của Facebook năm 2014, nơi cung cấp tin tức cho gần 700.000 người dùng nghiên cứu tác động đến tâm trạng; hoặc khi các nhà nghiên cứu của Harvard công bố làn sóng đầu tiên của bộ dữ liệu "Tastes, Ties and Time" của họ vào năm 2008, bao gồm dữ liệu hồ sơ Facebook hoàn chỉnh trong bốn năm được thu thập từ tài khoản của toàn bộ 1.700 sinh viên đại học; hoặc một thập kỷ trước khi AOL phát hành hơn 20 triệu truy vấn tìm kiếmtừ 658.000 người dùng của nó đến công chúng vào năm 2006 trong nỗ lực hỗ trợ nghiên cứu học thuật về việc sử dụng công cụ tìm kiếm. Những hoạt động nghiên cứu dữ liệu lớn này mang lại kết quả mới, đồng thời tạo ra tranh cãi đáng kể. Cuộc tranh cãi này gần đây đã bắt gặp một nhóm các nhà nghiên cứu người Đan Mạch, dẫn đầu bởi sinh viên tốt nghiệp Đại học Aarhus Emil OW Kirkegaard, đã công khai một bộ dữ liệu của gần 70.000 người dùng của trang web hẹn hò trực tuyến OkCool, bao gồm tên người dùng, tuổi, giới tính, địa điểm, loại nào mối quan hệ (hoặc giới tính) mà họ quan tâm, đặc điểm tính cách và câu trả lời cho hàng ngàn câu hỏi định hình được sử dụng bởi trang web.

Khi được hỏi liệu các nhà nghiên cứu có cố gắng ẩn danh bộ dữ liệu hay không, Kirkegaard trả lời thẳng thừng: "Không. Dữ liệu đã được công khai." Vị trí này được lặp lại trong bài dự thảo kèm theo , "Bộ dữ liệu OKCool: Bộ dữ liệu công khai rất lớn của người dùng trang web hẹn hò", được đăng lên các diễn đàn đánh giá ngang hàng trực tuyến của Tâm lý học khác biệt mở , một tạp chí trực tuyến truy cập mở cũng do Kirkegaard điều hành.

Một số có thể phản đối đạo đức của việc thu thập và phát hành dữ liệu này. Tuy nhiên, tất cả các dữ liệu được tìm thấy trong bộ dữ liệu đã hoặc đã có sẵn công khai, do đó, việc phát hành bộ dữ liệu này chỉ đơn thuần là nó là một hình thức hữu ích hơn.

Đối với những người quan tâm đến quyền riêng tư, đạo đức nghiên cứu và sự gia tăng của việc phát hành công khai các tập dữ liệu lớn, logic này "nhưng dữ liệu đã được công khai" là một sự kiềm chế quá quen thuộc được sử dụng để dễ dàng gạt bỏ những lo ngại về đạo đức. Nó được sử dụng bởi các nhà nghiên cứu Harvard trong nghiên cứu "Tastes, Ties và Time", và nó xuất hiện trở lại vào năm 2010, khi Pete Warden, cựu kỹ sư của Apple, khai thác lỗ hổng trong kiến ​​trúc của Facebook để tích lũy cơ sở dữ liệu về tên, trang fan hâm mộ và danh sách bạn bè cho 215 triệu tài khoản Facebook công khai và công bố kế hoạch cung cấp cơ sở dữ liệu của anh ấy với hơn 100 GB dữ liệu người dùng để nghiên cứu học thuật thêm.

Trong mỗi trường hợp, bao gồm tranh cãi OKCool mới nhất, các nhà nghiên cứu đã hy vọng nâng cao hiểu biết của chúng ta về một hiện tượng bằng cách cung cấp các bộ dữ liệu lớn có sẵn công khai về thông tin người dùng mà họ cho là đã có trong phạm vi công cộng. Một trong những nền tảng của đạo đức nghiên cứu, bảo vệ sự riêng tư của các đối tượng và duy trì tính bảo mật của bất kỳ dữ liệu nào được thu thập, xuất hiện đối với các nhà nghiên cứu dữ liệu lớn này là một vấn đề không phải là vấn đề. Như Kirkegaard đã nói: "Dữ liệu đã được công khai." Không có hại, không có đạo đức hôi.

Nhưng trên thực tế, sự mới mẻ tương đối, và sự mở rộng nhanh chóng của các nghiên cứu dựa trên dữ liệu lớn cho chúng ta thấy cái mà nhà đạo đức máy tính James Moor gọi là "các khái niệm hỗn độn ": Không thể khái niệm đúng các giá trị đạo đức và các tình huống khó xử trong một công nghệ mới bối cảnh.

Xem xét các mối quan tâm về quyền riêng tư với nghiên cứu dữ liệu lớn và phát hành dữ liệu như những gì được mô tả ở trên. Quyền riêng tư thường được bảo vệ trong bối cảnh đạo đức nghiên cứu thông qua sự kết hợp của nhiều chiến thuật và thực tiễn khác nhau, bao gồm tham gia thu thập dữ liệu trong môi trường được kiểm soát hoặc ẩn danh, hạn chế thông tin cá nhân được thu thập, lọc dữ liệu để xóa hoặc che khuất thông tin nhận dạng cá nhân và sử dụng các hạn chế truy cập và các phương pháp bảo mật dữ liệu liên quan để ngăn chặn truy cập trái phép và sử dụng dữ liệu nghiên cứu. Tuy nhiên, bản chất và sự hiểu biết về quyền riêng tư trở nên lộn xộn, trong bối cảnh nghiên cứu dữ liệu lớn, và kết quả là, việc đảm bảo nó được tôn trọng và bảo vệ trong lĩnh vực mới này trở nên thách thức.

Ví dụ, việc xác định những gì cấu thành "thông tin cá nhân", do đó, gây ra những lo ngại về quyền riêng tư đặc biệt, trở nên khó khăn trong bối cảnh nghiên cứu dữ liệu lớn. Sự khác biệt trong định nghĩa quy định của "thông tin cá nhân", đó là chỉ áp dụng cho thông tin mà đối tượng mong đợi một cách hợp lý thường không được theo dõi hoặc thu thập và không được cung cấp công khai thông thường trở nên ít áp dụng khi xem xét các môi trường dữ liệu và thực hành thu thập tiêu biểu nghiên cứu dữ liệu, chẳng hạn như khai thác bán buôn hoạt động Facebook hoặc tài khoản OKCool công khai.

Khi được xem xét qua lăng kính của định nghĩa quy định về "thông tin cá nhân", các bài đăng trên phương tiện truyền thông xã hội thường được coi là công khai, đặc biệt là khi người dùng không thực hiện các bước rõ ràng, khẳng định để hạn chế quyền truy cập. Do đó, các nhà nghiên cứu dữ liệu lớn kết luận các đối tượng không xứng đáng được xem xét về quyền riêng tư. Ví dụ, các nhà nghiên cứu của Harvard / UCLA lập luận rằng các đối tượng không có sự kỳ vọng hợp lý về quyền riêng tư với thông tin Facebook của họ, lưu ý rằng "Chúng tôi không truy cập bất kỳ thông tin nào không có sẵn trên Facebook" và đánh đồng việc họ thu thập dữ liệu hồ sơ trong một quảng trường công cộng, quan sát các cá nhân và ghi chú về hành vi của họ. " Tương tự phần lớn sự biện minh cho sự phù hợp của việc thu hoạch và phát hành trung tâm dữ liệu hồ sơ OkCool về thực tế là thông tin hồ sơ được đăng cho mục đích hiển thị cho người dùng khác, do đó không tồn tại sự mong đợi về quyền riêng tư. Theo lời của các nhà nghiên cứu OkCool, "phát hành bộ dữ liệu này chỉ đơn thuần là trình bày [dữ liệu hồ sơ người dùng] là một hình thức hữu ích hơn."

Tuy nhiên, trên thực tế, các nền tảng truyền thông xã hội thường được sử dụng cho mục đích nghiên cứu dữ liệu lớn thể hiện một môi trường phức tạp của các tương tác kỹ thuật xã hội, nơi người dùng không hiểu đầy đủ về cách các hoạt động xã hội của họ có thể được theo dõi, thu hoạch và chia sẻ thường xuyên với các bên thứ ba, trong đó Chính sách bảo mật và điều khoản dịch vụ không được hiểu đầy đủ và thay đổi thường xuyên, và ở đó cơ sở hạ tầng và giao diện kỹ thuật được thiết kế để hạn chế luồng thông tin và bảo vệ quyền riêng tư của một người khó khăn.

Do đó, rất khó hiểu một cách chắc chắn ý định của người dùng là gì khi chia sẻ thông tin trên nền tảng truyền thông xã hội và liệu người dùng có nhận ra rằng việc cung cấp thông tin trong môi trường xã hội cũng mở ra cho các nhà nghiên cứu thu hoạch và sử dụng rộng rãi. Sự không chắc chắn này trong ý định và kỳ vọng của người dùng phương tiện truyền thông xã hội và nền tảng dựa trên internet, thường được thúc đẩy bởi thiết kế của các nền tảng. hoặc "dữ liệu đã được công khai" để giảm bớt những lo ngại về quyền riêng tư tiềm tàng trong nghiên cứu dữ liệu lớn.

Trong bài phê bình của tôi về nghiên cứu Facebook của Harvard / UCLA từ năm 2010, tôi đã cảnh báo:

Dự án nghiên cứu của Lọ rất có thể sẽ mở ra "một cách làm khoa học xã hội mới", nhưng trách nhiệm của chúng tôi là các học giả phải đảm bảo các phương pháp và quy trình nghiên cứu của chúng tôi vẫn bắt nguồn từ các thực tiễn đạo đức lâu đời. Mối quan tâm về sự đồng ý, quyền riêng tư và ẩn danh không biến mất chỉ vì các đối tượng tham gia vào các mạng xã hội trực tuyến; thay vào đó, chúng trở nên quan trọng hơn.

Sáu năm sau, với dữ liệu lớn một lần nữa hứa hẹn một cách mới "làm khoa học xã hội", cảnh báo này vẫn còn quá đúng. Bản phát hành dữ liệu OkCool nhắc nhở chúng tarằng các cộng đồng đạo đức, nghiên cứu và quản lý phải tham gia vào các nỗ lực hợp tác, tận tâm và đa hướng để giải quyết các vấn đề khái niệm có trong nghiên cứu dữ liệu lớn, điều chỉnh lại các tình huống khó xử về đạo đức vốn có trong các dự án nghiên cứu đó, mở rộng các nỗ lực giáo dục và tiếp cận, và phát triển hướng dẫn chính sách tập trung vào những thách thức độc đáo của đạo đức nghiên cứu dữ liệu lớn. Bằng cách tham gia vào các mối quan tâm như vậy, chúng tôi sẽ có vị trí tốt hơn để hiểu và giải quyết các khía cạnh đạo đức của các dự án nghiên cứu dữ liệu lớn, đóng các vũng lầy khái niệm hiện có và do đó đảm bảo nghiên cứu sáng tạo có thể diễn ra trong khi bảo vệ lợi ích của đạo đức nghiên cứu một cách rộng rãi.

Lưu ý của biên tập viên: Tiến sĩ Zimmer cũng đã tìm hiểu chủ đề này trong một bài viết cho  tạp chí Wired xuất bản ngày 14 tháng 5 năm 2016.

Michael Zimmer, Tiến sĩ, là phó giáo sư tại Trường Nghiên cứu Thông tin  và Giám đốc Trung tâm Nghiên cứu Chính sách Thông tin  tại Đại học Wisconsin-Milwaukee. Bài đăng này ban đầu xuất hiện trên Amp & rsand , blog về Trách nhiệm công cộng trong y học và nghiên cứu .

|