Helpex - Trao đổi & giúp đỡ Đăng nhập

Học Bayes về Phân loại Thống kê (Phần 1)

Lý thuyết xác suất là một trong những công cụ cơ bản nhất mà chúng ta có để mô tả vũ trụ. Nó đặc biệt liên quan đến phân loại thống kê và có thể được sử dụng để thu được vô số kết quả quan trọng và thông báo cho sự hiểu biết của chúng ta.

Nhóm Statsbot đã yêu cầu Peter Mills giúp bạn hiểu lý thuyết xác suất, định lý Bayes và cách chúng áp dụng cho phân loại thống kê. Cùng với nhau, chúng sẽ cho phép bạn thu được các kết quả không rõ ràng có thể cải thiện và đơn giản hóa rất nhiều các mô hình phân loại của bạn.

Học Bayes về Phân loại Thống kê (Phần 1)

Phần giới thiệu về phương pháp học Bayes để phân loại thống kê này sẽ cung cấp một số ví dụ về việc sử dụng định lý Bayes và xác suất trong phân loại thống kê. Nó cũng sẽ vượt ra ngoài xác suất cơ bản để bao gồm các lĩnh vực quan trọng khác của lĩnh vực này, bao gồm cả hiệu chuẩn và xác nhận.

Lưu ý rằng bài viết này, mặc dù dành cho người mới bắt đầu, nhưng vẫn giả định kiến ​​thức về một số toán học cấp đại học năm thứ nhất và thứ hai, đặc biệt là đại số tuyến tính nhưng cũng có một số phép tính đơn và đa biến. Nếu đôi khi các phương trình có vẻ khó hiểu, hãy cố gắng tập trung vào việc giải các bài toán thực tế.

Bạn sẽ học được nhiều hơn về xác suất và phân loại thống kê bằng cách làm việc thông qua một số ví dụ chứ không chỉ bằng cách đọc về nó hoặc duyệt qua các phương trình. Vì lý do này, chúng tôi đã chuẩn bị một tập hợp các vấn đề ở cuối bài viết.

Xem lại Xác suất Cơ bản

Giả sử chúng ta tung một con súc sắc. Sẽ có sáu khả năng xảy ra, mỗi khả năng (trong một con súc sắc được xếp khá đầy đủ) sẽ có xác suất là 1/6. Chúng ta có thể viết điều này:

Học Bayes về Phân loại Thống kê (Phần 1)

... trong đó tôi là số ở phía trên cùng của súc sắc. Vì ít nhất một mặt sẽ phải đưa ra, chúng ta cũng có thể viết:

Học Bayes về Phân loại Thống kê (Phần 1)

Phương trình 1

... trong đó n = 6 là tổng số khả năng.

Bây giờ, giả sử chúng ta tung hai con xúc xắc. Xác suất chung để nhận được một trong 36 cặp số là:

Học Bayes về Phân loại Thống kê (Phần 1)

... trong đó tôi là số trên ô đầu tiên và j ở ô thứ hai.

Nếu chúng ta bỏ qua con số trên con súc sắc thứ hai, xác suất nhận được một số nhất định (giả sử là 6) trên con súc sắc thứ nhất là:

Học Bayes về Phân loại Thống kê (Phần 1)

Phương trình 2

Đây được gọi là xác suất trước .

Đây là lúc mọi thứ bắt đầu trở nên phức tạp hơn. Xác suất để có một số nhất định trên một con xúc xắc, cho rằng một con số nhất định trên con xúc xắc kia đã xuất hiện? Trong trường hợp này, hai sự kiện không tương quan, do đó giá trị (1/6) sẽ luôn bằng nhau. Nhưng điều này không cần thiết phải như vậy.

Hãy xem xét một trò chơi Blackjack. Xác suất để thẻ tiếp theo được rút ra có giá trị mười điểm (là thẻ mười hoặc thẻ mặt) cho rằng thẻ trước đó cũng có giá trị mười điểm?

Giả sử có 7 lá mười điểm trong tổng số 34 quân bài còn lại trước lần rút cuối cùng. Bây giờ các xác suất khác nhau tùy thuộc vào kết quả của sự kiện trước đó. Nếu thẻ trước đó có giá trị mười, thì có 6/33 = 2/11 cơ hội nhận được thẻ có giá trị mười; ngược lại, xác suất là 7/33.

Vì xác suất mà quân bài trước đó có giá trị là 10 là 7/34, nên xác suất chung hoặc xác suất xảy ra của cả hai sự kiện là:

Học Bayes về Phân loại Thống kê (Phần 1)

... trong đó Pi là xác suất để thẻ trước đó có giá trị là 10 và P (j | i) là xác suất có điều kiện để thẻ tiếp theo có giá trị là 10, cho rằng thẻ trước đó cũng có giá trị là 10.

Với xác suất trước, xác suất chung và xác suất có điều kiện được xác định, chúng ta có thể viết ra định lý Bayes.

Lưu ý rằng các định nghĩa này là đối xứng trong i và j, do đó:

Học Bayes về Phân loại Thống kê (Phần 1)

Phương trình 3

... là dạng đối xứng của Định lý Bayes.

Xác suất liên tục

Việc mở rộng cho xác suất liên tục hoặc mật độ xác suất là đơn giản. Hãy tưởng tượng chúng ta có một biến ngẫu nhiên liên tục, x , bị chi phối bởi phân phối xác suất, P ( x ). Xác suất x nhận một giá trị giữa x ₒ và x ₒ + d x là:

Học Bayes về Phân loại Thống kê (Phần 1)

Phương trình 4

Khi làm việc với các biến ngẫu nhiên liên tục, các tổng trở thành tích phân để Công thức 2 trở thành:

Học Bayes về Phân loại Thống kê (Phần 1)

Phương trình 5

... trong đó P ( x , y ) là xác suất chung của cả xy và tích phân trên toàn bộ x .

Trong phân loại thống kê, chúng ta đang xử lý các xác suất có một dạng rất cụ thể. Một trong các xác suất là vô hướng và rời rạc, trong khi xác suất kia là vectơ và liên tục:

Học Bayes về Phân loại Thống kê (Phần 1)

Phương trình 6

Trong đó ilớp hoặc nhãn lớpx là vectơ của các thuộc tính hoặc tính năng .

Thông thường, mục tiêu của phân loại thống kê dựa trên Bayes là ước tính xác suất chung, P ( x , i ) hoặc xác suất có điều kiện, P ( i | x ). Việc phân loại thường được thực hiện trên cơ sở khả năng tối đa:

Học Bayes về Phân loại Thống kê (Phần 1)

Phương trình 7

... trong đó c là ước lượng có khả năng xảy ra nhất cho lớp; nghĩa là chỉ số của giá trị lớn nhất của xác suất có điều kiện.

Lưu ý rằng vì P ( x ) giống nhau đối với một điểm kiểm tra nhất định, việc sử dụng khớp hoặc xác suất có điều kiện sẽ tạo ra cùng một kết quả. Các xác suất có điều kiện của không gian đặc trưng, P ( x | i ), cũng rất quan trọng, vì chúng mô tả các phân phối của mỗi lớp biệt lập; nghĩa là, nếu bạn loại bỏ tất cả các nhãn lớp khác, chỉ để lại i , đây là bản phân phối mà bạn còn lại.

Chúng ta có thể sử dụng định nghĩa mật độ xác suất trong Công thức 4 để rút ra một trong những kỹ thuật phân loại thống kê lâu đời nhất và phức tạp nhất bằng cách loại bỏ dấu giới hạn. Cân nhắc chọn bán kính từ điểm kiểm tra, x , sau đó đếm số lượng mẫu đào tạo của lớp này hay lớp khác trong khoảng cách đó.

Vấn đề với điều này là đôi khi, tập kèm theo sẽ không chứa mẫu, trong khi những lần khác, nó có thể chứa rất nhiều mẫu. Vì vậy, thay vì khoảng cách, chúng tôi thay vào đó cố định số lượng mẫu và mặc nhiên chọn khoảng cách trên cơ sở này. Đây là cái được gọi là bộ phân loại k-láng giềng gần nhất (KNN), trong đó k là số lượng mẫu lân cận được sử dụng trong mỗi phân loại.

Bộ phân loại nhị phân

Bộ phân loại nhị phân đặc biệt vì trong nhiều trường hợp, bạn có thể vẽ một siêu phẳng duy nhất trong không gian đặc trưng phân tách hai lớp. Siêu phẳng là một không gian con có kích thước nhỏ hơn một kích thước nhúng. Vì vậy, đối với không gian đặc trưng hai chiều, ranh giới sẽ là một đường, trong khi trong không gian ba chiều, là một mặt phẳng.

Hầu hết các bộ phân loại nhị phân trả về không phải là một số nguyên chỉ có hai giá trị mà là một hàm quyết định liên tục. Một dạng thuận tiện của hàm quyết định sẽ là sự khác biệt về xác suất có điều kiện:

Học Bayes về Phân loại Thống kê (Phần 1)

Phương trình 8

... trong đó, để thuận tiện, chúng tôi đã chọn các giá trị lớp là -1 và +1.

Thật không may, hầu hết các bộ phân loại thống kê không trả về một hàm quyết định ước tính tốt đại lượng này, vì vậy một phần quan trọng của bài viết này sẽ được dành để mô tả các phương pháp hiệu chỉnh nó sao cho phù hợp.

Hãy xem xét một cặp hàm Gaussian một chiều, có kích thước bằng nhau, có chiều rộng bằng nhau, h , và cách gốc một khoảng bằng nhau, b . Sự khác biệt về xác suất có điều kiện được đưa ra:

Học Bayes về Phân loại Thống kê (Phần 1)

... mà, với một số thao tác, hoạt động để:

Học Bayes về Phân loại Thống kê (Phần 1)

Phương trình 9

Nói cách khác, đối với một cặp Gaussian có kích thước bằng nhau, hàm quyết định trong một chiều là một tiếp tuyến hyperbol.

Điều này có vẻ giống như một ví dụ tầm thường; tuy nhiên, tanhhàm được tìm thấy trong lĩnh vực máy học. Trong phân loại thống kê, nó thường được sử dụng để hiệu chỉnh hàm quyết định để ước tính tốt hơn các xác suất có điều kiện.

Ví dụ: điều này được áp dụng trong thư viện LIBSVM , cũng như trong thư viện học máy của riêng tôi, libAGF . Ví dụ minh họa tại sao - sự khác biệt về xác suất có điều kiện, R , thường xuyên hơn không, gần nghĩa với các đường biên của lớp.

Xem xét hồi quy logistic. Trong hồi quy logistic, chúng tôi sử dụng hàm quyết định sau:

Học Bayes về Phân loại Thống kê (Phần 1)

Phương trình 10

Trong đó v là một vectơ và a là một hằng số.

Các tham số hàm phù hợp bằng cách giảm thiểu hàm chi phí, ví dụ, một bình phương nhỏ nhất:

Học Bayes về Phân loại Thống kê (Phần 1)

Phương trình 11

Để phù hợp hoặc "đào tạo" thứ, chúng tôi cần một số dữ liệu đào tạo. Điều này bao gồm một tập hợp các cặp có thứ tự của một vectơ trong ánh xạ không gian đặc trưng lên giá trị lớp tương ứng của nó: { x ᵢ: y ᵢ}. Ở đây, y ᵢ nhận một trong hai giá trị: -1 hoặc +1, nghĩa là y ᵢ ∈ {-1, +1}.

Dữ liệu đào tạo đại diện cho "sự thật cơ bản" và có thể được lấy bằng nhiều cách khác nhau. Hãy xem xét một vấn đề phân loại đất - một công cụ vệ tinh đo bức xạ điện từ ở nhiều dải và trên cơ sở này, chúng tôi quan tâm đến việc phân loại loại bề mặt, chẳng hạn như ruộng, rừng, thành phố hay nước.

Dữ liệu có thể được đo bằng tay một cách tỉ mỉ - một chiếc máy bay mang một phiên bản trên mặt đất của thiết bị trên cao và đo các góc phóng xạ, trong khi các quan sát viên trong máy bay lưu ý loại đất mà họ đang bay qua.

Học Bayes về Phân loại Thống kê (Phần 1)

Nó có thể đã được mô hình hóa - có lẽ chúng tôi có một thuật toán mà chúng tôi tin tưởng rằng trả về các bán kính được mô hình hóa tùy thuộc vào các tham số khác nhau mô tả bề mặt đất. Trong trường hợp này, dữ liệu huấn luyện kết quả có thể là vô hạn, mặc dù không nhất thiết là tất cả đều chính xác.

Hoặc có lẽ nó được đo bằng dụng cụ thực tế nhưng được phân loại bằng tay. Bạn có một ứng dụng đơn giản hiển thị một hình ảnh và mỗi pixel có thể được phân loại bằng một cú nhấp chuột trên cơ sở màu sắc.

Phương trình 10 và 11 cung cấp một minh họa ngắn gọn về toàn bộ quá trình phân loại thống kê. Có một giai đoạn đào tạo, được đưa ra bởi 11, trong đó một mô hình được bắt nguồn. Trong trường hợp này, mô hình bao gồm một tập hợp nhỏ các tham số hàm làm cho điều này trở thành một bài tập về thống kê tham số.

Ngược lại điều này với mô hình thống kê phi tham số, chẳng hạn như KNN, sử dụng tất cả dữ liệu huấn luyện cho mỗi phân loại. Đối với bộ phân loại hậu cần, sự phù hợp sẽ là phi tuyến tính, một kỹ thuật phổ biến khác trong học máy.

Tối ưu hóa phi tuyến thường được thực hiện với một thuật toán số, lặp lại, giả sử vấn đề không thể được rút gọn thành một giải pháp phân tích, dạng đóng. Bản thân nó là một lĩnh vực rộng lớn và đa dạng, vì vậy chúng tôi sẽ không đi vào chi tiết chính xác. Xem vấn đề đặt ra để biết thêm thông tin.

Mô hình này sau đó được áp dụng để phân loại một loạt các điểm kiểm tra bằng cách sử dụng Công thức 10.

Vâng, đó là nó cho Phần 1! Trong Phần 2, chúng ta sẽ nói thêm về hiệu chuẩn, xác nhận và phân loại nhiều lớp.

0 hữu ích 0 bình luận 3.6k xem chia sẻ

Có thể bạn quan tâm

loading