Trong học máy, một bộ phân loại xác suất là một bộ phân loại có khả năng dự đoán, dựa trên việc quan sát một đầu vào, một phân phối xác suất trên tập hợp các lớp thay vì chỉ đưa ra lớp có khả năng xảy ra cao nhất mà đầu vào đó thuộc về. Các bộ phân loại xác suất cung cấp kết quả phân loại không chỉ hữu ích tự thân mà còn có giá trị khi được kết hợp trong các mô hình tổng hợp ensembles.
Các loại phân loại
Một cách chính thức, một bộ phân loại "thông thường" là một quy tắc hoặc hàm số, gán cho một mẫu một nhãn lớp
:
Các mẫu dữ liệu được lấy từ một tập hợp (ví dụ, tập hợp tất cả các tài liệu hoặc tập hợp tất cả các hình ảnh), trong khi các nhãn lớp tạo thành một tập hợp hữu hạn được xác định trước khi tiến hành quá trình huấn luyện.
Các bộ phân loại xác suất mở rộng khái niệm này của bộ phân loại: thay vì là các hàm, chúng được biểu diễn dưới dạng các phân phối xác suất có điều kiện . Điều này có nghĩa là, đối với một giá trị đầu vào , chúng gán các xác suất cho tất cả (với tổng các xác suất này bằng 1). Việc phân loại "cứng" (hard classification) sau đó có thể được thực hiện bằng cách áp dụng quy tắc ra quyết định tối ưu
:
Hoặc, nói cách khác, lớp được dự đoán là lớp có xác suất cao nhất.
Các bộ phân loại xác suất nhị phân còn được gọi là các mô hình hồi quy nhị phân trong thống kê. Trong kinh tế lượng, phân loại xác suất nói chung được gọi là lựa chọn rời rạc (discrete choice).Một số mô hình phân loại, chẳng hạn như Naive Bayes,hồi quy logistic và perceptron nhiều lớp (khi được huấn luyện với hàm mất mát phù hợp), vốn dĩ mang tính chất xác suất. Ngược lại, các mô hình khác như máy vector hỗ trợ (SVM) không có tính chất xác suất tự nhiên, nhưng vẫn có các phương pháp để chuyển đổi chúng thành các bộ phân loại xác suất.
Huấn luyện sinh và huấn luyện có điều kiện
Một số mô hình, chẳng hạn như hồi quy logistic, được huấn luyện theo cách có điều kiện: chúng tối ưu hóa trực tiếp xác suất có điều kiện trên tập dữ liệu huấn luyện (xem thêm khái niệm giảm thiểu rủi ro thực nghiệm - empirical risk minimization). Các bộ phân loại khác, chẳng hạn như Naive Bayes, được huấn luyện theo phương pháp sinh: trong quá trình huấn luyện, phân phối có điều kiện theo lớp và phân phối tiên nghiệm của lớp được tìm ra, sau đó phân phối có điều kiện được suy ra bằng cách sử dụng định lý Bayes.. Trong trường hợp của cây quyết định, nơi mà là tỷ lệ các mẫu huấn luyện có nhãn trong lá mà kết thúc, những biến dạng này xảy ra vì các thuật toán học máy như C4.5 hoặc CART rõ ràng nhắm đến việc tạo ra các lá đồng nhất (cung cấp các xác suất gần bằng không hoặc một, từ đó tạo ra độ chệch cao) trong khi sử dụng ít mẫu để ước lượng tỷ lệ liên quan (độ phương sai cao).
Hiệu chỉnh có thể được đánh giá bằng cách sử dụng đồ thị hiệu chỉnh (còn được gọi là biểu đồ độ tin cậy). Một đồ thị hiệu chỉnh thể hiện tỷ lệ các đối tượng trong mỗi lớp đối với các khoảng xác suất hoặc điểm số dự đoán (chẳng hạn như phân phối xác suất bị biến dạng hoặc "khoảng cách có dấu đến siêu phẳng" trong máy vector hỗ trợ). Các sai lệch so với hàm đồng nhất chỉ ra một bộ phân loại được hiệu chỉnh kém, trong đó các xác suất hoặc điểm số dự đoán không thể được sử dụng như các xác suất thực tế. Trong trường hợp này, có thể sử dụng một phương pháp để chuyển các điểm số này thành các xác suất thành viên lớp được hiệu chỉnh một cách chính xác.
Trong trường hợp nhị phân, một phương pháp phổ biến là áp dụng hiệu chỉnh Platt, phương pháp này học một mô hình hồi quy logistic trên các điểm số. Một phương pháp thay thế sử dụng hồi quy isotonic thường vượt trội hơn phương pháp của Platt khi có đủ dữ liệu huấn luyện.
Đánh giá phân loại xác suất
Các chỉ số đánh giá thường được sử dụng để so sánh xác suất dự đoán với kết quả quan sát bao gồm log loss, điểm Brier và một loạt các lỗi hiệu chỉnh. Chỉ số log loss cũng được sử dụng như một hàm mất mát trong quá trình huấn luyện các mô hình hồi quy logistic.
Các chỉ số lỗi hiệu chỉnh nhằm mục đích định lượng mức độ mà đầu ra của bộ phân loại xác suất được hiệu chỉnh tốt. Như Philip Dawid đã phát biểu, "một người dự báo được hiệu chỉnh tốt nếu, ví dụ, đối với những sự kiện mà anh ta gán xác suất 30%, tỷ lệ sự kiện thực sự xảy ra trong dài hạn là 30%.". Công trình nền tảng trong lĩnh vực đo lường lỗi hiệu chỉnh là chỉ số Lỗi Hiệu Chỉnh Mong Đợi (Expected Calibration Error - ECE). Các công trình gần đây đề xuất các biến thể của ECE nhằm giải quyết các hạn chế của chỉ số ECE có thể phát sinh khi các điểm số của bộ phân loại tập trung vào một tập con hẹp của khoảng [0,1], bao gồm Lỗi Hiệu Chỉnh Thích Ứng (Adaptive Calibration Error - ACE) và Lỗi Hiệu Chỉnh Dựa Trên Kiểm Tra (Test-based Calibration Error - TCE)
.
Một phương pháp được sử dụng để gán điểm số cho các cặp xác suất dự đoán và kết quả rời rạc thực tế, nhằm so sánh các phương pháp dự đoán khác nhau, được gọi là quy tắc tính điểm (scoring rule).
Các Triển Khai Phần Mềm
MoRPE là một bộ phân loại xác suất có thể huấn luyện, sử dụng hồi quy isotonic để hiệu chỉnh xác suất. Nó giải quyết bài toán phân loại đa lớp thông qua phương pháp giảm bớt thành các nhiệm vụ nhị phân. Đây là một loại máy hạt nhân sử dụng hạt nhân đa thức không đồng nhất.
Tài liệu tham khảo
Category:Probabilistic models
Category:Statistical classification
👁️
0 | 🔗 | 💖 | ✨ | 🌍 | ⌚
Trong học máy, một bộ **phân loại xác suất** là một bộ phân loại có khả năng dự đoán, dựa trên việc quan sát một đầu vào, một **phân phối xác suất** trên tập hợp
nhỏ|250x250px|Xác suất của việc tung một số con số bằng cách sử dụng hai con xúc xắc. **Xác suất** (Tiếng Anh: _probability_) là một nhánh của toán học liên quan đến các mô tả bằng
phải|nhỏ|280x280px|Hàm đặc trưng của một biến ngẫu nhiên với phân phối đều _U_(–1,1). Hàm này là giá trị thực bởi vì nó tương ứng với một biến ngẫu nhiên đối xứng qua gốc; tuy nhiên
Trong lý thuyết xác suất, một **biến cố** (_event_) là một tập các kết quả đầu ra (_outcomes_) (hay còn gọi là một tập con của không gian mẫu) mà tương ứng với nó người
Trong toán học, **không gian xác suất** là nền tảng của lý thuyết xác suất. ## Định nghĩa Một không gian xác suất (_Ω_, _F_, _P_) là một không gian được trang bị một độ
\; \exp\left(-\frac{\left(x-\mu\right)^2}{2\sigma^2} \right) \!| cdf =| mean =| median =| mode =| variance =| skewness = 0| kurtosis = | entropy =| mgf =| char =| **Phân phối
\!| kurtosis =| entropy =| mgf =| char =| **Phân phối nhị thức** (Tiếng Anh:
**Nghịch lý Bertrand** là một bài toán trong diễn giải cổ điển của lý thuyết xác suất, được Joseph Bertrand công bố lần đầu trong công trình của ông _Calcul des probabilités_ (1889), như là
**Phân loại bằng thống kê** là một thủ tục thống kê trong đó các thể riêng biệt sẽ được sắp vào từng nhóm dựa trên số lượng thông tin về một hay nhiều tính chất
**Phân loại nhị phân** (tiếng Anh: _Binary classification_) là nhiệm vụ phận loại các phần tử của một tập hợp các đối tượng ra thành 2 nhóm dựa trên cơ sở là chúng có một
[[Tập tin:Köppen-Geiger Climate Classification Map.png|thumb|upright=2.5|Bản đồ khí hậu Köppen–Geiger được cập nhật ]]**Phân loại khí hậu Köppen** là một trong những hệ thống phân loại khí hậu được sử dụng rộng rãi nhất. Nó được
Phân bố đều liên quan đến: * Phân bố đều (toán học), phân bố xác suất: ** Phân bố đều (liên tục) ** Phân bố đều (rời rạc) * Phân bố đều (sinh thái học),
Trong toán học, **phân phối ngẫu nhiên đều** hay ngắn gọn là **phân phối đều** là một dạng phân phối xác suất đơn giản. Có hai loại: * Phân phối đều rời rạc * Phân
Trong thiên văn học, **phân loại sao** là phân loại của các sao ban đầu dựa trên nhiệt độ quang quyển và các đặc trưng quang phổ liên quan của nó, rồi sau đó chuyển
**Hệ thống kiểm duyệt và phân loại phim điện ảnh** có vai trò kiểm duyệt, chỉnh sửa và sắp xếp các phim điện ảnh sao cho phù hợp từng đối tượng khán giả dựa trên
nhỏ|[[Biểu đồ Venn cho thấy hợp của _A_ và _B_]] Trong tổ hợp, một nhánh của toán học, **nguyên lý bao hàm-loại trừ** (hay **nguyên lý bao hàm và loại trừ** hoặc **nguyên lý bù
**Phân tích độ nhạy (SA)** là kỹ thuật làm thế nào để phân chia _sự không chắc chắn_ trong kết quả đầu ra của một _mô hình toán học_ hoặc _một hệ thống_ (hệ thống
Cuốn sách Phương pháp giải toán xác suất sinh học được bám sát chương trình thi tuyển sinh Đại Học và thi Học sinh giỏi cấp tỉnh, cấp Quốc Gia. Trong cuốn sách này chúng
Cuốn sách Phương pháp giải toán xác suất sinh học được bám sát chương trình thi tuyển sinh Đại Học và thi Học sinh giỏi cấp tỉnh, cấp Quốc Gia. Trong cuốn sách này chúng
**Điểm phần trăm (percentage point)** là đơn vị cho khác biệt số học của hai trị số phần trăm. Ví dụ: tăng từ 40% lên 44% là mức tăng 4 _điểm phần trăm_, nhưng là
right|thumb|Sơ đồ biểu diễn một quá trình Markov với hai trạng thái E và A. Mỗi số biểu diễn xác suất của quá trình Markov chuyển từ trạng thái này sang trạng thái khác theo
**Kiểm thử phần mềm** (tiếng Anh: **Software testing**) là một cuộc kiểm tra được tiến hành để cung cấp cho các bên liên quan thông tin về chất lượng của sản phẩm hoặc dịch vụ
**Vòng loại Giải vô địch bóng đá thế giới** hay **vòng loại World Cup**, là quá trình mà một đội tuyển bóng đá đại diện cho một quốc gia phải trải qua để đạt đủ
**Phân tích website (Website analytics)** là việc đo lường, thu thập, phân tích và báo cáo dữ liệu web nhằm mục đích hiểu và tối ưu hóa việc sử dụng web. Tuy nhiên, phân tích
Trong toán học và thống kê, **biến ngẫu nhiên** (Tiếng Anh: _random variable_) là một ánh xạ toán học với đặc điểm là nó gán một giá trị cho kết quả đầu ra của một
thumb|right|Máy bay tiêm kích [[F-15E Strike Eagles của Không quân Mỹ]] thumb|Động cơ phản lực không khí của một chiếc máy bay chở khách đang cất cánh, có thể thấy rõ luồng khí phụt phía
thumb|right|[[Tàu điện ngầm Glasgow]] thumb|right|[[Rapid Rail|Rapid KL – Tuyến Kelana Jaya]] thumb|right|[[Tuyến Văn Hồ (Tuyến Nâu), Đường sắt đô thị Đài Bắc]] thumb|[[Tuyến 3 Scarborough trước đây của hệ thống tàu điện ngầm Toronto được
**Thiên kiến xác nhận** (còn gọi là **thiên kiến (thiên lệch) khẳng định**) là một khuynh hướng của con người ưa chuộng những thông tin nào xác nhận các niềm tin hoặc giả thuyết của
**Ngựa Phần Lan** (tiếng Phần Lan: _Suomenhevonen_, nghĩa là "_con ngựa của Phần Lan_"; biệt danh:_Suokki_, hoặc tiếng Thụy Điển: _Finskt kallblod_, nghĩa đen "_ngựa máu lạnh Phần Lan_"; Trong tiếng Anh, đôi khi nó
**Mô hình phân biệt** (tiếng Anh: **_discriminative model_**, **conditional model**) là lớp các mô hình logistic dùng cho phân loại bằng thống kê hay hồi quy. Chúng phân biệt ranh giới quyết định thông qua
nhỏ|Chiếc bánh pizza được cắt nhỏ; mỗi miếng bánh là chiếc bánh. **Phân số đơn vị** là phân số dương có tử số bằng 1, tức có dạng với là
MÁY ĐO HUYẾT ÁP BẮP TAY TỰ ĐỘNGThân thiện , dễ dùng , giọng nói tiếng việt, kiểu dáng nhỏ gọn , chíp cử lý thông minh , tốc độ đo nhanh và chính xác,
MÁY ĐO HUYẾT ÁP BẮP TAY TỰ ĐỘNG Thân thiện , dễ dùng , giọng nói tiếng việt, kiểu dáng nhỏ gọn , chíp cử lý thông minh , tốc độ đo nhanh và chính
MÁY ĐO HUYẾT ÁP BẮP TAY TỰ ĐỘNGThân thiện , dễ dùng , giọng nói tiếng việt, kiểu dáng nhỏ gọn , chíp cử lý thông minh , tốc độ đo nhanh và chính xác,
MÁY ĐO HUYẾT ÁP BẮP TAY TỰ ĐỘNG ĐẠT CHUẨN WHOThân thiện , dễ dùng , kiểu dáng nhỏ gọn , chíp cử lý thông minh , tốc độ đo nhanh và chính xác, sản
MÁY ĐO HUYẾT ÁP BẮP TAY TỰ ĐỘNG ĐẠT CHUẨN WHOThân thiện , dễ dùng , kiểu dáng nhỏ gọn , chíp cử lý thông minh , tốc độ đo nhanh và chính xác, sản
[[Phần cứng|Phần cứng máy tính là nền tảng cho xử lý thông tin (sơ đồ khối). ]] **Lịch sử phần cứng máy tính** bao quát lịch sử của phần cứng máy tính, kiến trúc của
**Khu vực châu Á** của **vòng loại Giải vô địch bóng đá thế giới 2018** đóng vai trò là vòng loại cho Giải vô địch bóng đá thế giới 2018, được tổ chức tại Nga,
Trong phân loại bằng thống kê, có hai cách tiếp cận chính là tiếp cận **tạo sinh** (sinh mẫu) và tiếp cận **phân biệt**. Hai cách này tính toán các bộ phân lớp (classifier) bằng
nhỏ|Một [[neutron được bắn vào một hạt nhân urani-235, biến nó thành một hạt nhân urani-236 với năng lượng kích thích được cung cấp bởi động năng của neutron cộng với các lực liên kết
thumb|upright=1.2|Tinh thể [[osmi, một kim loại nặng có khối lượng riêng lớn gấp hai lần chì]] **Kim loại nặng** (tiếng Anh: _heavy metal_) thường được định nghĩa là kim loại có khối lượng riêng, khối
**Phân tích tính toán** (Analytics) là phân tích tính toán có hệ thống của dữ liệu hoặc thống kê. Đây là quá trình phát hiện, giải thích và truyền đạt các mô hình có ý
Kinh nghiệm mua máy đo huyết áp điện tử,Nên mua máy đo huyết áp loại nào - Mua Ngay Máy Đo Huyết Áp Arm Style máy đo huyết áp của NHẬT bán chạy nhat tại
**Vốn tư nhân** ( **PE** ) là cổ phần trong một công ty tư nhân không chào bán cổ phiếu cho công chúng. Trong lĩnh vực tài chính, vốn cổ phần tư nhân được cung
Siêu hót Nhiệt kế điện tử mẫu mới không thủy ngân siêu an toàn tuyệt đối với khả năng đo chính xác tuyệt đối và cho tốc độ đo cực nhanh chỉ khoảng 30sĐặc biệt
Siêu hót Nhiệt kế điện tử mẫu mới không thủy ngân siêu an toàn tuyệt đối với khả năng đo chính xác tuyệt đối và cho tốc độ đo cực nhanh chỉ khoảng 30sĐặc biệt
Siêu hót Nhiệt kế điện tử mẫu mới không thủy ngân siêu an toàn tuyệt đối với khả năng đo chính xác tuyệt đối và cho tốc độ đo cực nhanh chỉ khoảng 30sĐặc biệt
Siêu hót Nhiệt kế điện tử mẫu mới không thủy ngân siêu an toàn tuyệt đối với khả năng đo chính xác tuyệt đối và cho tốc độ đo cực nhanh chỉ khoảng 30sĐặc biệt
Siêu hót Nhiệt kế điện tử mẫu mới không thủy ngân siêu an toàn tuyệt đối với khả năng đo chính xác tuyệt đối và cho tốc độ đo cực nhanh chỉ khoảng 30sĐặc biệt
Siêu hót Nhiệt kế điện tử mẫu mới không thủy ngân siêu an toàn tuyệt đối với khả năng đo chính xác tuyệt đối và cho tốc độ đo cực nhanh chỉ khoảng 30sĐặc biệt