Học tập có nghĩa là tiếp thu kiến thức hoặc kỹ năng thông qua nghiên cứu hoặc kinh nghiệm. Dựa trên điều này, chúng ta có thể định nghĩa máy học (ML) như sau –
Nó có thể được định nghĩa là lĩnh vực khoa học máy tính, cụ thể hơn là ứng dụng trí tuệ nhân tạo, cung cấp cho hệ thống máy tính khả năng học hỏi với dữ liệu và cải thiện từ kinh nghiệm mà không cần lập trình rõ ràng.
Về cơ bản, trọng tâm chính của học máy là cho phép máy tính học tự động mà không cần sự can thiệp của con người. Bây giờ câu hỏi đặt ra là làm thế nào việc học như vậy có thể được bắt đầu và thực hiện? Nó có thể được bắt đầu với việc quan sát dữ liệu. Dữ liệu có thể là một số ví dụ, hướng dẫn hoặc một số trải nghiệm trực tiếp. Sau đó, trên cơ sở đầu vào này, máy sẽ đưa ra quyết định tốt hơn bằng cách tìm kiếm một số mẫu trong dữ liệu.
Các loại máy học (ML)
Thuật toán học máy giúp hệ thống máy tính học mà không cần lập trình rõ ràng. Các thuật toán này được phân loại thành giám sát hoặc không giám sát. Bây giờ chúng ta hãy xem một vài thuật toán –
Các thuật toán học máy có giám sát
Đây là thuật toán học máy được sử dụng phổ biến nhất. Nó được gọi là có giám sát vì quá trình học thuật toán từ tập dữ liệu huấn luyện có thể được coi như một giáo viên giám sát quá trình học. Trong loại thuật toán ML này, các kết quả có thể xảy ra đã được biết trước và dữ liệu huấn luyện cũng được gắn nhãn với các câu trả lời đúng. Nó có thể được hiểu như sau –
Giả sử chúng ta có các biến đầu vào x và một biến đầu ra y và chúng ta đã áp dụng một thuật toán để tìm hiểu hàm ánh xạ từ đầu vào đến đầu ra, chẳng hạn như –
Y = f(x)
Bây giờ, mục tiêu chính là ước tính hàm ánh xạ tốt đến mức khi chúng ta có dữ liệu đầu vào mới (x), chúng ta có thể dự đoán biến đầu ra (Y) cho dữ liệu đó.
Các vấn đề nghiêng được giám sát chủ yếu có thể được chia thành hai loại vấn đề sau –
- Phân loại – Một vấn đề được gọi là vấn đề phân loại khi chúng ta có đầu ra được phân loại, chẳng hạn như “đen”, “dạy”, “không dạy”, v.v.
- Hồi quy − Một bài toán được gọi là bài toán hồi quy khi chúng ta có đầu ra giá trị thực, chẳng hạn như “khoảng cách”, “kilôgam”, v.v.
Cây quyết định, rừng ngẫu nhiên, knn, hồi quy logistic là những ví dụ về thuật toán học máy có giám sát.
Thuật toán học máy không giám sát
Như tên cho thấy, các loại thuật toán học máy này không có bất kỳ người giám sát nào để cung cấp bất kỳ loại hướng dẫn nào. Đó là lý do tại sao các thuật toán học máy không giám sát được liên kết chặt chẽ với cái mà một số người gọi là trí tuệ nhân tạo thực sự. Nó có thể được hiểu như sau –
Giả sử ta có biến đầu vào là x thì sẽ không có biến đầu ra tương ứng như trong thuật toán học có giám sát.
Nói một cách đơn giản, chúng ta có thể nói rằng trong học tập không giám sát sẽ không có câu trả lời đúng và không có giáo viên hướng dẫn. Các thuật toán giúp khám phá các mẫu thú vị trong dữ liệu.
Các vấn đề học tập không giám sát có thể được chia thành hai loại vấn đề sau –
- Phân cụm – Trong các vấn đề phân cụm, chúng ta cần khám phá các nhóm vốn có trong dữ liệu. Ví dụ: phân nhóm khách hàng theo hành vi mua hàng của họ.
- Hiệp hội – Một vấn đề được gọi là vấn đề liên kết vì các loại vấn đề như vậy yêu cầu khám phá các quy tắc mô tả phần lớn dữ liệu của chúng tôi. Ví dụ: tìm khách hàng mua cả x và y .
Phương tiện K để phân cụm, thuật toán Apriori để liên kết là những ví dụ về thuật toán học máy không giám sát.
Tăng cường các thuật toán học máy
Những loại thuật toán học máy này được sử dụng rất ít. Các thuật toán này đào tạo các hệ thống để đưa ra các quyết định cụ thể. Về cơ bản, cỗ máy được tiếp xúc với một môi trường nơi nó tự đào tạo liên tục bằng phương pháp thử và sai. Các thuật toán này học hỏi từ kinh nghiệm trong quá khứ và cố gắng nắm bắt kiến thức tốt nhất có thể để đưa ra quyết định chính xác. Quy trình quyết định Markov là một ví dụ về thuật toán học máy tăng cường.
Các thuật toán học máy phổ biến nhất
Trong phần này, chúng ta sẽ tìm hiểu về các thuật toán học máy phổ biến nhất. Các thuật toán được mô tả dưới đây –
hồi quy tuyến tính
Đây là một trong những thuật toán nổi tiếng nhất trong thống kê và học máy.
Khái niệm cơ bản – Hồi quy tuyến tính chủ yếu là một mô hình tuyến tính giả định mối quan hệ tuyến tính giữa các biến đầu vào là x và biến đầu ra duy nhất là y. Nói cách khác, chúng ta có thể nói rằng y có thể được tính từ sự kết hợp tuyến tính của các biến đầu vào x. Mối quan hệ giữa các biến có thể được thiết lập bằng cách khớp một dòng tốt nhất.
Các loại hồi quy tuyến tính
Hồi quy tuyến tính có hai loại sau –
- Hồi quy tuyến tính đơn giản – Thuật toán hồi quy tuyến tính được gọi là hồi quy tuyến tính đơn giản nếu nó chỉ có một biến độc lập.
- Hồi quy tuyến tính bội − Một thuật toán hồi quy tuyến tính được gọi là hồi quy tuyến tính bội nếu nó có nhiều hơn một biến độc lập.
Hồi quy tuyến tính chủ yếu được sử dụng để ước tính các giá trị thực dựa trên (các) biến liên tục. Ví dụ, tổng doanh thu của một cửa hàng trong một ngày, dựa trên giá trị thực, có thể được ước tính bằng hồi quy tuyến tính.
Hồi quy logistic
Nó là một thuật toán phân loại và còn được gọi là hồi quy logit .
Chủ yếu hồi quy logistic là một thuật toán phân loại được sử dụng để ước tính các giá trị rời rạc như 0 hoặc 1, đúng hoặc sai, có hoặc không dựa trên một tập hợp biến độc lập nhất định. Về cơ bản, nó dự đoán xác suất do đó đầu ra của nó nằm trong khoảng từ 0 đến 1.
cây quyết định
Cây quyết định là một thuật toán học có giám sát chủ yếu được sử dụng cho các bài toán phân loại.
Về cơ bản, nó là một trình phân loại được biểu thị dưới dạng phân vùng đệ quy dựa trên các biến độc lập. Cây quyết định có các nút tạo thành cây gốc. Cây có gốc là cây có hướng với một nút được gọi là “gốc”. Gốc không có bất kỳ cạnh đến nào và tất cả các nút khác có một cạnh đến. Các nút này được gọi là lá hoặc nút quyết định. Ví dụ, xem xét cây quyết định sau để xem một người có phù hợp hay không.
Máy véc tơ hỗ trợ (SVM)
Nó được sử dụng cho cả vấn đề phân loại và hồi quy. Nhưng chủ yếu nó được sử dụng cho các vấn đề phân loại. Khái niệm chính của SVM là vẽ từng mục dữ liệu dưới dạng một điểm trong không gian n chiều với giá trị của mỗi đối tượng địa lý là giá trị của một tọa độ cụ thể. Ở đây n sẽ là các tính năng chúng ta sẽ có. Sau đây là một biểu diễn đồ họa đơn giản để hiểu khái niệm về SVM
Trong sơ đồ trên, chúng ta có hai đối tượng địa lý do đó trước tiên chúng ta cần vẽ hai biến này trong không gian hai chiều trong đó mỗi điểm có hai tọa độ, được gọi là vectơ hỗ trợ. Dòng chia dữ liệu thành hai nhóm được phân loại khác nhau. Dòng này sẽ là phân loại.
Naïve Bayes
Nó cũng là một kỹ thuật phân loại. Logic đằng sau kỹ thuật phân loại này là sử dụng định lý Bayes để xây dựng các bộ phân loại. Giả định là các yếu tố dự đoán là độc lập. Nói một cách đơn giản, nó giả định rằng sự hiện diện của một tính năng cụ thể trong một lớp không liên quan đến sự hiện diện của bất kỳ tính năng nào khác. Dưới đây là phương trình của định lý Bayes –
$$P\left ( \frac{A}{B} \right ) = \frac{P\left ( \frac{B}{A} \right )P\left ( A \right )}{P\left ( B \right )}$$
Mô hình Naïve Bayes rất dễ xây dựng và đặc biệt hữu ích cho các tập dữ liệu lớn.
K-Láng giềng gần nhất (KNN)
Nó được sử dụng cho cả phân loại và hồi quy của các vấn đề. Nó được sử dụng rộng rãi để giải quyết các vấn đề phân loại. Khái niệm chính của thuật toán này là nó được sử dụng để lưu trữ tất cả các trường hợp có sẵn và phân loại các trường hợp mới theo đa số phiếu bầu của k hàng xóm. Trường hợp sau đó được gán cho lớp phổ biến nhất trong số K-láng giềng gần nhất của nó, được đo bằng hàm khoảng cách. Hàm khoảng cách có thể là khoảng cách Euclidean, Minkowski và Hamming. Hãy xem xét những điều sau đây để sử dụng KNN −
- KNN tính toán đắt hơn các thuật toán khác được sử dụng cho các vấn đề phân loại.
- Việc chuẩn hóa các biến cần thiết nếu không các biến phạm vi cao hơn có thể làm sai lệch nó.
- Trong KNN, chúng tôi cần làm việc ở giai đoạn tiền xử lý như loại bỏ nhiễu.
Phân cụm K-Means
Như tên cho thấy, nó được sử dụng để giải quyết các vấn đề phân cụm. Về cơ bản nó là một kiểu học không giám sát. Logic chính của thuật toán phân cụm K-Means là phân loại tập dữ liệu thông qua một số cụm. Thực hiện theo các bước sau để tạo cụm bằng K-means –
- K-mean chọn k số điểm cho mỗi cụm được gọi là trọng tâm.
- Bây giờ, mỗi điểm dữ liệu tạo thành một cụm có trọng tâm gần nhất, tức là k cụm.
- Bây giờ, nó sẽ tìm các trọng tâm của mỗi cụm dựa trên các thành viên cụm hiện có.
- Chúng ta cần lặp lại các bước này cho đến khi hội tụ xảy ra.
rừng ngẫu nhiên
Nó là một thuật toán phân loại được giám sát. Ưu điểm của thuật toán rừng ngẫu nhiên là nó có thể được sử dụng cho cả loại bài toán phân loại và hồi quy. Về cơ bản, nó là tập hợp các cây quyết định (tức là rừng) hoặc bạn có thể nói tập hợp các cây quyết định. Khái niệm cơ bản về rừng ngẫu nhiên là mỗi cây đưa ra một phân loại và khu rừng sẽ chọn những phân loại tốt nhất từ chúng. Sau đây là những ưu điểm của thuật toán Random Forest −
- Trình phân loại rừng ngẫu nhiên có thể được sử dụng cho cả nhiệm vụ phân loại và hồi quy.
- Họ có thể xử lý các giá trị còn thiếu.
Nó sẽ không phù hợp với mô hình ngay cả khi chúng ta có nhiều cây hơn trong rừng.
Xem thêm : Chuẩn bị dữ liệu AI với Python