Các thuật toán học máy hàng đầu bạn nên biết để trở thành một nhà khoa học dữ liệu


Hoang Dung
1 năm trước
Hữu ích 2 Chia sẻ Viết bình luận 0
Đã xem 2890

Giới thiệu về thuật toán học máy

Có hai cách để phân loại thuật toán Machine Learning mà bạn có thể gặp trong lĩnh vực này.

  • Đầu tiên là một nhóm các thuật toán theo phong cách học tập.
  • Thứ hai là một nhóm các thuật toán bởi sự tương đồng về hình thức hoặc chức năng.

Nói chung, cả hai cách tiếp cận đều hữu ích. Tuy nhiên, chúng tôi sẽ tập trung vào việc phân nhóm các thuật toán bằng cách tương tự và thực hiện một chuyến tham quan gồm nhiều loại thuật toán khác nhau.

Thuật toán học máy được nhóm theo phong cách học tập

Có nhiều cách khác nhau để một thuật toán có thể mô hình hóa một vấn đề vì nó liên quan đến sự tương tác với trải nghiệm. Tuy nhiên, không có vấn đề gì chúng tôi muốn gọi dữ liệu đầu vào. Ngoài ra, một thuật toán phổ biến trong Machine Learning và Artificial Intelligencesách giáo khoa. Đó là trước tiên hãy xem xét các cách học mà một thuật toán có thể thích nghi. Nói chung, chỉ có một vài kiểu học chính mà thuật toán Machine Learning có thể có. Và, chúng ta cũng sẽ trải qua chúng. Ngoài ra, chúng tôi có một vài ví dụ về thuật toán và loại vấn đề mà chúng phù hợp. Về cơ bản, cách tổ chức thuật toán Machine Learning này rất hữu ích. Vì nó buộc bạn phải suy nghĩ về vai trò của dữ liệu đầu vào và quy trình chuẩn bị mô hình. Ngoài ra, để chọn một cái phù hợp nhất cho vấn đề của bạn để có kết quả tốt nhất. Chúng ta hãy xem ba cách học khác nhau trong các thuật toán Machine Learning:

Học có giám sát

Về cơ bản, trong Máy học được giám sát này, dữ liệu đầu vào được gọi là dữ liệu đào tạo và có nhãn hoặc kết quả đã biết như thư rác / không phải thư rác hoặc giá cổ phiếu tại một thời điểm. Trong đó, một mô hình được chuẩn bị thông qua một quá trình đào tạo. Ngoài ra, trong điều này cần thiết để đưa ra dự đoán. Và được sửa chữa khi những dự đoán đó là sai. Quá trình đào tạo tiếp tục cho đến khi mô hình đạt được mức độ mong muốn.

  • Các vấn đề ví dụ là phân loại và hồi quy.
  • Các thuật toán ví dụ bao gồm hồi quy logistic và lan truyền ngược Mạng thần kinh .

Học tập không giám sát

Trong Máy học không giám sát này, dữ liệu đầu vào không được dán nhãn và không có kết quả đã biết. Chúng ta phải chuẩn bị mô hình bằng cách suy ra các cấu trúc có trong dữ liệu đầu vào. Điều này có thể là để trích xuất các quy tắc chung. Nó có thể thông qua một quá trình toán học để giảm sự dư thừa.

  • Các vấn đề ví dụ là phân cụm, giảm kích thước và học quy tắc kết hợp.
  • Các thuật toán ví dụ bao gồm thuật toán Apriori và k-Means.

Học bán giám sát

Dữ liệu đầu vào là một hỗn hợp của các ví dụ được dán nhãn và không nhãn. Có một vấn đề dự đoán mong muốn. Nhưng mô hình phải học các cấu trúc để tổ chức dữ liệu cũng như đưa ra dự đoán.

  • Các vấn đề ví dụ là phân loại và hồi quy.
  • Các thuật toán ví dụ là phần mở rộng cho các phương thức linh hoạt khác. Điều đó đưa ra các giả định về cách mô hình hóa dữ liệu chưa được gắn nhãn.

Các thuật toán được nhóm theo độ tương tự

Các thuật toán ML thường được nhóm theo một sự tương đồng về chức năng của chúng. Ví dụ, các phương thức dựa trên cây và các phương thức lấy cảm hứng từ mạng thần kinh. Tôi nghĩ rằng đây là cách hữu ích nhất để nhóm các thuật toán Machine Learning và đó là cách tiếp cận chúng tôi sẽ sử dụng ở đây. Đây là một phương pháp nhóm hữu ích, nhưng nó không hoàn hảo. Vẫn có những thuật toán có thể dễ dàng phù hợp với nhiều loại. Chẳng hạn như lượng tử học vector. Đó là cả một mạng lưới thần kinhphương thức và một phương thức dựa trên thể hiện. Cũng có những danh mục có cùng tên. Điều đó mô tả vấn đề và lớp các thuật toán. Chẳng hạn như hồi quy và phân cụm. Chúng tôi có thể xử lý các trường hợp này bằng cách liệt kê các thuật toán ML hai lần. Hoặc bằng cách chọn nhóm một cách chủ quan là phù hợp nhất với nhóm. Tôi thích cách tiếp cận sau này của việc không trùng lặp các thuật toán để giữ cho mọi thứ đơn giản.

Thuật toán hồi quy

Thuật toán hồi quy liên quan đến việc mô hình hóa mối quan hệ giữa các biến. Rằng chúng ta sử dụng để tinh chỉnh bằng cách sử dụng thước đo lỗi trong các dự đoán được đưa ra bởi mô hình.

Những phương pháp này là một đặc điểm của thống kê. Ngoài ra, đã được chọn tham gia vào Machine Learning thống kê. Điều này có thể gây nhầm lẫn bởi vì chúng ta có thể sử dụng hồi quy để chỉ lớp vấn đề và lớp thuật toán. Các thuật toán hồi quy phổ biến nhất là:

  • Hồi quy bình phương tối thiểu bình phương (OLSR)
  • Hồi quy tuyến tính
  • Hồi quy logistic
  • Hồi quy từng bước
  • Splines hồi quy thích ứng đa biến (MARS)
  • Làm mịn Scatterplot ước tính cục bộ (LOESS)

Thuật toán dựa trên sơ đồ

Mô hình này là một vấn đề quyết định với dữ liệu đào tạo cá thể. Điều đó được coi là quan trọng hoặc cần thiết cho mô hình. Phương pháp như vậy xây dựng một cơ sở dữ liệu của dữ liệu ví dụ. Và nó cần so sánh dữ liệu mới với cơ sở dữ liệu. Để so sánh, chúng tôi sử dụng một biện pháp tương tự để tìm ra kết quả phù hợp nhất và đưa ra dự đoán. Vì lý do này, các phương thức dựa trên thể hiện cũng được gọi là phương pháp thắng-lấy-tất cả và học tập dựa trên bộ nhớ. Trọng tâm được đặt vào đại diện của các trường hợp được lưu trữ. Vì vậy, các biện pháp tương tự được sử dụng giữa các trường hợp. Các thuật toán dựa trên thể hiện phổ biến nhất là:

  • k-Hàng xóm gần nhất (kNN)
  • Học lượng tử hóa vector (LVQ)
  • Bản đồ tự tổ chức (SOM)
  • Học tập tại địa phương (LWL)

Thuật toán chính quy

Một phần mở rộng được thực hiện cho một phương pháp khác. Đó là xử phạt các mô hình liên quan đến sự phức tạp của chúng. Ngoài ra, ủng hộ các mô hình đơn giản hơn cũng tốt hơn trong việc khái quát hóa. Tôi đã liệt kê các thuật toán chính quy ở đây vì chúng phổ biến, mạnh mẽ. Và nói chung sửa đổi đơn giản được thực hiện cho các phương pháp khác. Các thuật toán chính quy phổ biến nhất là:

  • Hồi quy sườn
  • Toán tử co rút tuyệt đối và chọn lọc (LASSO)
  • Lưới đàn hồi
  • Hồi quy góc nhỏ nhất (LARS)

Thuật toán cây quyết định

Phương pháp cây quyết định xây dựng một mô hình của các quyết định. Điều đó được thực hiện dựa trên các giá trị thực tế của các thuộc tính trong dữ liệu. Quyết định ngã ba trong cấu trúc cây cho đến khi quyết định dự đoán được đưa ra cho một hồ sơ nhất định. Cây quyết định được đào tạo về dữ liệu cho các vấn đề phân loại và hồi quy. Cây quyết định thường nhanh và chính xác và là một yêu thích lớn trong Machine Learning. Các thuật toán cây quyết định phổ biến nhất là:

  • Cây phân loại và hồi quy (GIỎI)
  • Lặp lại Dichotomiser 3 (ID3)
  • C4.5 và C5.0 (các phiên bản khác nhau của cách tiếp cận mạnh mẽ)
  • Phát hiện tương tác tự động Chi bình phương (CHAID)
  • Stump quyết định
  • M5
  • Cây quyết định có điều kiện

Thuật toán Bayes

Những phương pháp này là những phương pháp áp dụng Định lý Bayes cho các vấn đề. Chẳng hạn như phân loại và hồi quy. Các thuật toán Bayes phổ biến nhất là:

  • Vịnh Naive
  • Vịnh Gaussian Naive
  • Vịnh Naive đa cực
  • Công cụ ước tính trung bình một phụ thuộc (AODE)
  • Mạng tin tưởng Bayes (BBN)
  • Mạng Bayes (BN)

Thuật toán phân cụm

Phân cụm, giống như hồi quy, mô tả lớp vấn đề và lớp phương thức. Các phương pháp Clustering được tổ chức theo các phương pháp mô hình hóa như dựa trên centroid và phân cấp. Tất cả các phương pháp đều liên quan đến việc sử dụng các cấu trúc vốn có trong dữ liệu. Đó là một nhu cầu để tổ chức tốt nhất dữ liệu thành các nhóm phổ biến tối đa. Các thuật toán phân cụm phổ biến nhất là:

  • phương tiện
  • k-Median
  • Tối đa hóa kỳ vọng (EM)
  • Phân cụm phân cấp

Thuật toán học quy tắc kết hợp

Hiệp hội phương pháp học tập trích quy tắc. Điều đó giải thích tốt nhất mối quan hệ giữa các biến trong dữ liệu. Các quy tắc này có thể khám phá các hiệp hội quan trọng và hữu ích trong các bộ dữ liệu đa chiều lớn. Điều đó có thể được khai thác bởi một tổ chức. Các thuật toán học quy tắc kết hợp phổ biến nhất là:

  • Thuật toán Apriori
  • Thuật toán Eclat

Thuật toán mạng nơ ron nhân tạo

Đây là những mô hình được lấy cảm hứng từ cấu trúc của mạng lưới thần kinh sinh học. Họ là một lớp phù hợp với mô hình. Rằng chúng tôi sử dụng cho các vấn đề hồi quy và phân loại. Mặc dù, có một trường con rất lớn. Vì nó kết hợp hàng trăm thuật toán và biến thể. Các thuật toán mạng thần kinh nhân tạo phổ biến nhất là:

  • Perceptionron
  • Tuyên truyền ngược
  • Mạng Hopfield
  • Mạng chức năng cơ sở xuyên tâm (RBFN)

Thuật toán học sâu

Phương pháp Deep Learning là một bản cập nhật hiện đại cho Mạng nơ ron nhân tạo. Đó là khai thác tính toán giá rẻ dồi dào. Họ quan tâm đến việc xây dựng các mạng lưới thần kinh lớn hơn và phức tạp hơn nhiều. Các thuật toán Deep Learning phổ biến nhất là:

  • Máy Boltzmann sâu (DBM)
  • Mạng lưới niềm tin sâu sắc (DBN)
  • Mạng thần kinh chuyển đổi (CNN)
  • Bộ mã hóa tự động xếp chồng

Thuật toán giảm kích thước

Giống như các phương pháp phân cụm, giảm kích thước tìm kiếm một cấu trúc vốn có trong dữ liệu. Mặc dù, trong trường hợp này, để đặt hàng để tóm tắt.

Nói chung, nó có thể hữu ích để trực quan hóa dữ liệu chiều. Ngoài ra, chúng ta có thể sử dụng nó trong một phương pháp học có giám sát. Nhiều phương pháp chúng tôi áp dụng để sử dụng trong phân loại và hồi quy.

  • Phân tích thành phần chính (PCA)
  • Hồi quy thành phần chính (PCR)
  • Hồi quy bình phương nhỏ nhất (PLSR)
  • Bản đồ Sammon
  • Chia tỷ lệ đa chiều (MDS)
  • Theo đuổi dự kiến
  • Phân tích phân biệt tuyến tính (LDA)
  • Phân tích phân biệt hỗn hợp (MDA)
  • Phân tích phân biệt đối xử bậc hai (QDA)
  • Phân tích phân biệt đối xử linh hoạt (FDA)

Thuật toán tập hợp

Về cơ bản, các phương thức này là các mô hình bao gồm các mô hình yếu hơn. Ngoài ra, khi chúng được đào tạo và có dự đoán được kết hợp theo một cách nào đó để đưa ra dự đoán. Hơn nữa, nhiều nỗ lực được đưa vào loại người học yếu để kết hợp và cách kết hợp chúng. Do đó, đây là một lớp kỹ thuật rất mạnh và như vậy là rất phổ biến.

  • Tăng cường
  • Bootstraoped Aggregation (Đóng bao)
  • AdaBoost
  • Tổng quát hóa xếp chồng (trộn)
  • Máy tăng cường độ dốc (GBM)
  • Cây hồi quy Gradient Boosted (GBRT)
  • Rừng ngẫu nhiên

Danh sách các thuật toán học máy phổ biến

Thuật toán học máy phân loại Naïve Bayes

Nói chung, sẽ rất khó và không thể phân loại một trang web, một tài liệu, một email. Ngoài ra, ghi chú văn bản dài khác bằng tay. Đây là lúc thuật toán Máy học phân loại Naïve Bayes được giải cứu. Ngoài ra, phân loại là một hàm phân bổ giá trị phần tử của dân số. Chẳng hạn, Spam Filtering là một ứng dụng phổ biến của thuật toán Naïve Bayes. Do đó, bộ lọc thư rác ở đây là một bộ phân loại gán nhãn Nhãn Spam Spam hoặc Không phải Spam Spam cho tất cả các email. Về cơ bản, nó là một trong những phương pháp học tập phổ biến nhất được nhóm theo những điểm tương đồng. Điều đó hoạt động trên Định lý Bayes phổ biến của Xác suất. Nó là một phân loại đơn giản của các từ. Ngoài ra, được xác định cho việc phân tích chủ quan của nội dung.

K Means Thuật toán học máy cụm

Nói chung, K-mean là thuật toán Machine Learning không giám sát được sử dụng để phân tích cụm. Ngoài ra, K-Means là một phương pháp không xác định và lặp lại. Ngoài ra, thuật toán hoạt động trên một tập dữ liệu nhất định thông qua một số cụm được xác định trước, k. Do đó, đầu ra của thuật toán K Means là k cụm với dữ liệu đầu vào được phân tách giữa các cụm.

Hỗ trợ thuật toán học máy Vector

Về cơ bản, nó là một thuật toán Machine Learning được giám sát để phân loại hoặc hồi quy các vấn đề. Như trong phần này, bộ dữ liệu dạy cho SVM về các lớp. Vì vậy, SVM có thể phân loại bất kỳ dữ liệu mới. Ngoài ra, nó hoạt động bằng cách phân loại dữ liệu thành các lớp khác nhau bằng cách tìm một dòng. Mà chúng tôi sử dụng để phân tách tập dữ liệu đào tạo thành các lớp. Hơn nữa, có rất nhiều hyperplanes tuyến tính như vậy. Hơn nữa, trong điều này, SVM cố gắng tối đa hóa khoảng cách giữa các lớp khác nhau. Vì điều đó phải liên quan và điều này được gọi là tối đa hóa lợi nhuận. Ngoài ra, nếu dòng tối đa hóa khoảng cách giữa các lớp được xác định. Sau đó, xác suất để khái quát tốt để dữ liệu không nhìn thấy được tăng lên. Các SVM được phân thành hai loại:

  • Các SVM tuyến tính - Về cơ bản, trong SVM tuyến tính, dữ liệu huấn luyện tức là phải phân loại phân loại bằng một siêu phẳng.
  • SVM phi tuyến tính- Về cơ bản, trong SVM phi tuyến tính, không thể tách dữ liệu huấn luyện bằng siêu phẳng.

Thuật toán học máy Apriori

Về cơ bản, nó là một thuật toán Machine Learning không được giám sát. Chúng tôi sử dụng để tạo quy tắc kết hợp từ một tập dữ liệu nhất định. Ngoài ra, quy tắc kết hợp ngụ ý rằng nếu một mục A xảy ra, thì mục B cũng xảy ra với một xác suất nhất định. Hơn nữa, hầu hết các quy tắc kết hợp được tạo đều ở định dạng IF_THEN. Ví dụ: NẾU mọi người mua iPad THÌ họ cũng mua Vỏ iPad để bảo vệ nó. Nguyên tắc cơ bản mà Thuật toán học máy Apriori hoạt động: Nếu một bộ vật phẩm xảy ra thường xuyên thì tất cả các tập hợp con của bộ vật phẩm, cũng xảy ra thường xuyên. Nếu một bộ mục xảy ra không thường xuyên. Sau đó, tất cả các supersets của bộ vật phẩm đã xảy ra không thường xuyên.

Thuật toán học máy hồi quy tuyến tính

Nó cho thấy mối quan hệ giữa 2 biến. Ngoài ra, cho thấy sự thay đổi trong một biến ảnh hưởng đến biến khác. Về cơ bản, thuật toán cho thấy tác động lên biến phụ thuộc. Điều đó phụ thuộc vào việc thay đổi biến độc lập. Do đó, các biến độc lập như các biến giải thích. Khi họ giải thích các yếu tố tác động đến biến phụ thuộc. Hơn nữa, một biến phụ thuộc thường giống với yếu tố quan tâm hoặc dự đoán.

Thuật toán học máy quyết định

Về cơ bản, một cây quyết định là một đại diện đồ họa. Điều đó sử dụng phương pháp phân nhánh để làm gương cho tất cả các kết quả có thể có của một quyết định. Về cơ bản, trong một cây quyết định, nút bên trong đại diện cho một thử nghiệm trên thuộc tính. Vì mỗi nhánh của cây đại diện cho kết quả của bài kiểm tra. Và cũng là nút lá đại diện cho một nhãn lớp cụ thể. tức là quyết định được đưa ra sau khi tính toán tất cả các thuộc tính. Hơn nữa, chúng ta phải biểu diễn phân loại thông qua đường dẫn từ gốc đến nút lá.

Thuật toán học máy ngẫu nhiên

Đây là thuật toán đi tới Machine Learning. Rằng chúng ta sử dụng cách tiếp cận đóng bao để tạo ra một loạt các cây quyết định với một tập hợp con dữ liệu ngẫu nhiên. Mặc dù, chúng tôi phải đào tạo một mô hình nhiều lần trên mẫu ngẫu nhiên của bộ dữ liệu. Điều đó cần phải đạt được hiệu suất dự đoán tốt từ thuật toán rừng ngẫu nhiên. Ngoài ra, trong phương pháp học tập này, chúng ta phải kết hợp đầu ra của tất cả các cây quyết định. Đó là đưa ra dự đoán cuối cùng. Hơn nữa, chúng tôi rút ra dự đoán cuối cùng bằng cách bỏ phiếu kết quả của mỗi cây quyết định.

Thuật toán hồi quy máy học logistic

Nói chung, tên của thuật toán này có thể hơi khó hiểu. Vì thuật toán hồi quy logistic dành cho các nhiệm vụ phân loại và không phải là các vấn đề hồi quy. Ngoài ra, tên "Hồi quy" ở đây ngụ ý rằng một mô hình tuyến tính phù hợp với không gian tính năng. Hơn nữa, thuật toán này áp dụng một hàm logistic cho sự kết hợp tuyến tính của các tính năng. Điều đó cần dự đoán kết quả của một biến phụ thuộc phân loại. Hơn nữa, nó được dựa trên các biến dự đoán. Các xác suất mô tả kết quả của một thử nghiệm được mô hình hóa như một chức năng. Ngoài ra, chức năng của các biến giải thích.

Phần kết luận

Chúng tôi đã nghiên cứu Thuật toán học máy và cũng đã tìm hiểu về phân loại Thuật toán học máy: Thuật toán hồi quy, Thuật toán dựa trên sơ đồ, Thuật toán chính quy, Thuật toán cây quyết định, Thuật toán Bayes, Thuật toán phân cụm, Thuật toán học thuật nhân tạo Các thuật toán học tập, thuật toán giảm kích thước, thuật toán đồng bộ, học tập có giám sát, học tập không giám sát, học bán giám sát, thuật toán phân loại Naïve Bayes, thuật toán phân cụm K, thuật toán phân tích tuyến tính, thuật toán Apriori Chúng tôi cũng đã sử dụng các hình ảnh giúp dễ hiểu Thuật toán học máy. Hơn nữa, nếu bạn có bất kỳ câu hỏi nào, hãy hỏi trong phần bình luận.

Hữu ích 2 Chia sẻ Viết bình luận 0
Đã xem 2890