Tôi đã tải xuống dữ liệu Facebook Messenger của mình (trong tài khoản Facebook của bạn, đi tới cài đặt, sau đó đến Thông tin Facebook của bạn , sau đó Tải xuống thông tin của bạn , sau đó tạo tệp có ít nhất hộp Tin nhắn được chọn) để thực hiện một số thống kê thú vị
Tuy nhiên có một vấn đề nhỏ với mã hóa. Tôi không chắc nhưng có vẻ như Facebook đã sử dụng mã hóa không hợp lệ cho dữ liệu này. Khi tôi mở nó với soạn thảo văn bản tôi thấy một cái gì đó như thế này: Rados\u00c5\u0082aw
. Khi tôi cố gắng mở nó bằng python (UTF-8), tôi nhận được RadosÅ\x82aw
. Tuy nhiên tôi sẽ nhận được: Radosław
.
Tập lệnh python của tôi:
text = open(os.path.join(subdir, file), encoding='utf-8')
conversations.append(json.load(text))
Tôi đã thử một vài mã hóa phổ biến nhất. Dữ liệu ví dụ là:
{
"sender_name": "Rados\u00c5\u0082aw",
"timestamp": 1524558089,
"content": "No to trzeba ostatnie treningi zrobi\u00c4\u0087 xD",
"type": "Generic"
}