✨Phân loại nhị phân

Phân loại nhị phân

Phân loại nhị phân (tiếng Anh: Binary classification) là nhiệm vụ phận loại các phần tử của một tập hợp các đối tượng ra thành 2 nhóm dựa trên cơ sở là chúng có một thuộc tính nào đó hay không (hay còn gọi là tiêu chí). Một số nhiệm vụ phân loại nhị phân điển hình:

  • kiểm tra y khoa xem một bệnh nhân có bệnh nào đó hay không (thuộc tính để phân loại là căn bệnh đó)
  • quản lý chất lượng trong nhà máy, ví dụ: xác định xem một sản phẩm làm ra là đủ tốt để bán chưa, hay nên loại bỏ nó (thuộc tính để phân loại là tính đủ tốt)
  • xác định xem một trang hay một bài báo có nên nằm trong tập kết quả của một truy vấn hay không (thuộc tính là độ liên quan của bài báo - thường là sự hiện diện của một số từ nào đó trong bài báo đó)

Phân loại nói chung là một trong những vấn đề được nghiên cứu trong khoa học máy tính với mục đích học tự động các hệ thống phân loại. Một số phương pháp thích hợp cho việc học phân loại nhị phân gồm có: cây quyết định, mạng Bayes, support vector machine, và mạng nơron.

Đánh giá bộ phân loại nhị phân

Để đánh giá độ hiệu quả của một xét nghiệm y khoa, người ta thường sử dụng các khái niệm độ nhạy và đặc trưng. Những khái niệm này rất hữu ích cho việc đánh giá bộ phân loại nhị phân. Giả sử chúng ta xét nghiệm xem một vài người nào đó có bệnh hay không. Một số người có bệnh, và kết quả xét nghiệm là dương tính (positive). Họ được gọi là các dương tính đúng. Một số người có bệnh, nhưng kết quả xét nghiệm âm tính (negative). Họ được gọi là các âm tính sai. Một số không có bệnh, và kết quả xét nghiệm cũng là âm tính. Họ được gọi là các âm tính đúng. Một số không có bệnh, nhưng kết quả xét nghiệm lại là dương tính. Họ được gọi là các dương tính sai.

Tổng số người dương tính đúng, âm tính đúng, dương tính sai, âm tính sai chiếm 100% tổng số người được xét nghiệm.

Độ nhạy (sensitivity) là tỉ lệ của số người bị bệnh được xác định đúng là có bệnh trên tổng số người bị bệnh, nghĩa là (dương tính đúng)/(dương tính đúng + âm tính sai). Nó có thể được coi là "xác suất xét nghiệm cho kết quả dương tính khi người được xét nghiệm có bị bệnh". Độ nhạy càng cao, càng ít khả năng bệnh không được phát hiện (hoặc, trong trường hợp quản lý chất lượng ở nhà máy, càng ít sản phẩm lỗi được đưa ra thị trường).

Đặc trưng (specificity) là tỉ lệ của số người không bị bệnh có kết quả xét nghiệm âm tính trên tổng số người không có bệnh (thực), nghĩa là (âm tính đúng)/(âm tính đúng + dương tính sai). Nó còn được coi là xác suất xét nghiệm cho kết quả âm tính đối với người không có bệnh. Độ đặc trưng càng cao, càng ít người mạnh khỏe được coi là bị bệnh (hoặc trong trường hợp nhà máy, càng ít tiền bị tốn phí do loại bỏ các sản phẩm chất lượng tốt thay vì đem bán chúng).

Về mặt lý thuyết, độ nhạyđặc trưng là độc lập, tức là cả hai đều có thể đạt đến 100%. Trong thực tế, chúng ta phải đánh đổi cái này để được cái kia - cái này tốt lên thì cái kia xấu đi, không thể đạt được cả hai.

Một điểm cần chú ý nữa, là độ nhạyđặc trưng là độc lập với tỉ lệ giữa số cá thể âm tính và số cá thể dương tính. Tuy nhiên, giá trị của chúng thì lại phụ thuộc vào tổng số cá thể kiểm tra (population). Ví dụ: kiểm tra có kết quả: độ nhạy 99%, đặc trưng 99%.

  • Giả sử số người kiểm tra là 2000 người, trong đó 1000 có bệnh và 1000 khỏe mạnh. Như vậy, ta phát hiện đúng 990 người dương tính đúng, 990 người âm tính đúng, và 10 âm tính sai, 10 dương tính sai. Cuối cùng, tỉ lệ dự đoán trúng là 99% cho cả kết quả dương tínhâm tính. Như vậy, hệ thống này được coi là khá đáng tin cậy.
  • Giả sử số người kiểm tra là 2000 người, trong đó chỉ có 100 là thực sự bị bệnh. Giả sử ta có 99 dương tính đúng, 1 âm tính sai, 1881 âm tính đúng, và 19 dương tính sai. Trong số 19+99 người xét nghiệm dương tính, chỉ có 99 người thực sự có bệnh. Như vậy, tỉ lệ dự đoán trúng dương tính là 99/(99+19)= 84%, còn dự đoán trúng âm tính là 1881/(1881+1)= 99,9%. Nghĩa là, nếu bạn đi xét nghiệm được kết quả dương tính thì khả năng bạn bị bệnh là 84%, còn nếu kết quả là âm tính thì khả năng bạn bị bệnh chỉ là 1/1881, hay 0,05%.
👁️ 0 | 🔗 | 💖 | ✨ | 🌍 | ⌚
**Thổ Nhĩ Kỳ** ( ), tên chính thức là nước **Cộng hòa Thổ Nhĩ Kỳ** ( ), thường được gọi ngắn là **Thổ**, là một quốc gia xuyên lục địa, phần lớn nằm tại Tây
**Cáp Nhĩ Tân** là một địa cấp thị và thủ phủ của tỉnh Hắc Long Giang ở phía Đông Bắc Trung Quốc. Cáp Nhĩ Tân là thành phố đông dân thứ 8 của Trung Quốc
Trong tính toán, **tiền tố nhị phân** được dùng để định lượng những con số lớn mà ở đó dùng lũy thừa hai có ích hơn dùng lũy thừa 10 (như kích thước bộ nhớ
**Phân loại nhị phân** (tiếng Anh: _Binary classification_) là nhiệm vụ phận loại các phần tử của một tập hợp các đối tượng ra thành 2 nhóm dựa trên cơ sở là chúng có một
thumb|Một cây nhị phân được gắn nhãn có kích thước là 9 và chiều cao là 3, với nút gốc có giá trị là 2. Cây trên không cân bằng và không được sắp xếp.
**Họ Lan** (danh pháp khoa học: **Orchidaceae**) được nhiều nhà phân loại học phân chia khác nhau, liên tục thay đổi cả về sắp xếp và số lượng chi, loài. Nhà khoa học người Thụy
thumbnail|right|upright=1.35|Đồ thị của dưới dạng là hàm của một số thực dương Trong toán học, **logarit nhị phân** () là lũy thừa mà số cần phải được nâng lên để được số , nghĩa là
thumb|[[:en:Martin van Maële|Martin van Maële - La Grande Danse macabre des vifs - trang 13]] **Ái nhi** (tiếng Anh: _pedophilia_, còn gọi là _paedophilia_) là một rối loạn tâm thần trong đó thanh thiếu niên
phải|nhỏ|250x250px|Các nhị của một bông hoa _[[Chi Lan Huệ|Hippeastrum_ với các chỉ nhị màu trắng và bao phấn nổi bật mang phấn hoa]] **Nhị** là cơ quan sinh dục sản sinh ra phấn hoa của
nhỏ **Mèo nhị thể**, còn có thể gọi là _mèo hai màu lông_, là một con mèo có lông trắng kết hợp với một số màu lông khác, ví dụ như màu đen hoặc đốm.
nhỏ|Trẻ em cùng đọc sách truyện. **Văn học thiếu nhi** bao gồm những câu chuyện, sách, tạp chí và những bài thơ được làm cho trẻ em. Văn học thiếu nhi hiện đại được phân
[[Phần cứng|Phần cứng máy tính là nền tảng cho xử lý thông tin (sơ đồ khối). ]] **Lịch sử phần cứng máy tính** bao quát lịch sử của phần cứng máy tính, kiến trúc của
thumb|Rừng ở tỉnh [[Giresun (tỉnh)|Giresun của Thổ Nhĩ Kỳ.]] **Rừng ở Thổ Nhĩ Kỳ** hiện nay chỉ bao phủ hơn một phần tư diện tích, nhưng vào khoảng 4000 năm trước đây thì chúng bao
**Hệ bát phân** hay còn gọi là hệ cơ số 8 (_Octal Number System_). Hệ bát phân gồm: 0, 1, 2, 3, 4, 5, 6, 7. Giá trị gia tăng là các lũy thừa của
nhỏ|Một [[neutron được bắn vào một hạt nhân urani-235, biến nó thành một hạt nhân urani-236 với năng lượng kích thích được cung cấp bởi động năng của neutron cộng với các lực liên kết
Kết quả:
Liên đoàn bóng đá châu Phi (CAF) được chia 5 suất tham dự vòng chung kết giải vô địch bóng đá thế giới 2010, thêm một suất nữa của đội chủ nhà
**Tiếng Thổ Nhĩ Kỳ** (_Türkçe_, IPA ), cũng được gọi là **tiếng Thổ Nhĩ Kỳ Istanbul**, là một ngôn ngữ được 65-73 triệu người nói trên khắp thế giới, khiến nó là ngôn ngữ được
nhỏ| Một sơ đồ cho thấy cách người dùng tương tác với [[phần mềm ứng dụng trên một máy tính để bàn thông thường. Lớp phần mềm ứng dụng giao tiếp với hệ điều hành,
Liên đoàn bóng đá châu Âu được chia 13 suất tham dự vòng chung kết giải vô địch bóng đá thế giới 2014. 53 quốc gia và vùng lãnh thổ thành viên đã đăng ký
nhỏ| Để tìm kiếm một mục đã cho trong một danh sách theo thứ tự nhất định, có thể sử dụng cả thuật toán [[Tìm kiếm tuần tự|tìm kiếm nhị phân và tuyến tính (bỏ
Tính đến ngày 31/5/2018, Giáo hội Công giáo bao gồm 3,160 khu vực thuộc quyền tài phán giáo hội, trong đó có 645 Tổng giáo phận và 2,236 Giáo phận, cũng như Đại diện Tông
thế=Membership of the Convention on the Elimination of All Forms of Racial Discrimination|phải|nhỏ|400x400px| Tư cách thành viên của Công ước về xóa bỏ mọi hình thức phân biệt chủng tộc: **Công ước quốc tế về
Lan hài (_Cypripedium pubescens_) nhỏ|Lan hài (_Paphiopedilum purpuratum_) **Phân họ Lan hài** (danh pháp khoa học: **_Cypripedioideae_**) là một phân họ trong họ Lan (_Orchidaceae_), bao gồm các chi _Cypripedium, Mexipedium, Paphiopedilum, Phragmipedium_, _Selenipedium_ và
liên_kết=https://en.wikipedia.org/wiki/File:ClamTk_5.27.png|nhỏ|300x300px|[[ClamTk, một phần mềm diệt vi-rút mã nguồn mở dựa trên công cụ diệt virus ClamAV, ban đầu được Tomasz Kojm phát triển vào năm 2001.]] nhỏ|255x255px|Ảnh chụp giao diện phần mềm diệt virus có
**Phân họ Gạo** (danh pháp khoa học: **_Bombacoideae_**) là một phân họ trong họ Cẩm quỳ (_Malvaceae_) nghĩa rộng (_sensu lato_). Nó là một phần của họ Gạo (_Bombacaceae_) kinh điển, được nhập vào trong
Dưới đây là các ngày thi đấu và kết quả của **vòng loại Giải vô địch bóng đá thế giới 1974** **– Khu vực châu Á và châu Đại Dương (AFC và OFC).** Để có
Phần mềm là các lệnh được lập trình mà được lưu trữ trong bộ nhớ được lưu trữ của các máy tính kỹ thuật số để bộ xử lý thực hiện. Phần mềm là một
**Phần Lan**, quốc hiệu là **Cộng hòa Phần Lan**, là một quốc gia thuộc khu vực Bắc Âu. Phần Lan giáp với Thụy Điển về phía Tây, Nga về phía Đông, Na Uy về phía
\!| kurtosis =\frac{1-6p(1-p)}{np(1-p)}\!| entropy = \frac{1}{2} \ln \left(2 \pi n e p (1-p) \right) + O \left(\frac{1}{n} \right) | mgf =(1-p + pe^t)^n \!| char =(1-p + pe^{it})^n \!| **Phân phối nhị thức** (Tiếng Anh:
Vườn quốc gia là một trong năm loại hình khu bảo tồn tại Thổ Nhĩ Kỳ, chiếm 1% diện tích của quốc gia này. Hiện nay, tại Thổ Nhĩ Kỳ có năm loại hình khu
**Khu vực châu Á** của **vòng loại Giải vô địch bóng đá thế giới 2018** đóng vai trò là vòng loại cho Giải vô địch bóng đá thế giới 2018, được tổ chức tại Nga,
**Bộ Dương nhị tiên** (danh pháp khoa học: **Gunnerales**, đồng nghĩa: Myrothamnales Reveal, Myrothamnanae Takhtadjan) là một bộ trong thực vật có hoa. Trong hệ thống APG II năm 2003 người ta coi nó chứa
**Họ Dương nhị tiên** (danh pháp khoa học: **_Gunneraceae_**) là một họ thực vật hạt kín. Họ này được nhiều nhà phân loại học công nhận. ## Đặc điểm Họ này chứa các loài cây
thumb|Kết quả của Đảng HDP tại cuộc tổng tuyển cử của Thổ Nhĩ Kỳ, tháng 11 năm 2015 **Người Kurd ở Thổ Nhĩ Kỳ** là dân tộc thiểu số lớn nhất ở **Thổ Nhĩ Kỳ**.
**Vòng 3** của vòng loại Giải vô địch bóng đá thế giới 2026 khu vực Bắc, Trung Mỹ và Caribe dự kiến sẽ diễn ra vào các tháng 9, 10 và 11 năm 2025. Vòng
**RPM Package Manager** (**RPM**) (ban đầu là **Red Hat Package Manager**; bây giờ là một từ viết tắt đệ quy) là một trình quản lý gói. Tên gọi RPM đề cập đến: định dạng file.rpm,
**Wine** là một lớp tương thích tự do nguồn mở dùng để chạy các phần mềm viết cho Windows trên các hệ điều hành tương tự Unix (Linux, FreeBSD,...). Wine cũng cung cấp một thư
Bài viết sau đây là tóm tắt của các trận đấu ở vòng 2, **vòng loại giải vô địch bóng đá thế giới 2010 khu vực châu Phi**. Tại vòng đấu này, 48 đội tuyển
Danh sách dưới đây là ngày thi đấu và kết quả **vòng loại** **Giải vô địch bóng đá thế giới 1982 – Khu vực châu Á và châu Đại Dương** (AFC và OFC). Để có
**Y tế nhi khoa khẩn cấp** (Pediatric emergency medicine - **PEM**) là một chuyên ngành y tế của cả khoa nhi và y học cấp cứu. Nó liên quan đến việc chăm sóc những đứa
**Túi cơ nhị đầu - lồi củ xương quay** (tiếng Anh: **bursa bicipitoradial**) là một túi hoạt dịch nằm giữa gân đầu xa của cơ nhị đầu bắp tay và phần trước của lồi củ
**Trẽ cân cơ nhị đầu cánh tay** (tiếng Anh: **Bicipital aponeurosis**) là một mạc nông có kích thước rộng, nằm ở đoạn bám tận của cơ nhị đầu cánh tay, nằm ở vị trí hố
\; \exp\left(-\frac{\left(x-\mu\right)^2}{2\sigma^2} \right) \!| cdf =\frac12 \left(1 + \mathrm{erf}\,\frac{x-\mu}{\sigma\sqrt2}\right) \!| mean =\mu| median =\mu| mode =\mu| variance =\sigma^2| skewness = 0| kurtosis = 0| entropy =\ln\left(\sigma\sqrt{2\,\pi\,e}\right)\!| mgf =M_X(t)= \exp\left(\mu\,t+\frac{\sigma^2 t^2}{2}\right)| char =\phi_X(t)=\exp\left(\mu\,i\,t-\frac{\sigma^2 t^2}{2}\right)| **Phân phối
**Họ Nhĩ cán** hay **họ Rong ly** (danh pháp khoa học: **Lentibulariaceae**) là một họ thực vật có hoa ăn côn trùng trong các môi trường sống ẩm ướt, chứa 3 chi với khoảng 320-350
**Phân họ Lỗ bình** (danh pháp khoa học: **_Lobelioideae_**) là một phân họ trong họ Campanulaceae. Theo APG thì phân họ này chứa 29 chi với tổng cộng khoảng 1.200 loài. Một số chi đa
Bài viết sau đây là tóm tắt của các trận đấu ở vòng play-off, **vòng loại giải vô địch bóng đá thế giới 2010 khu vực châu Âu**. Vòng play-off diễn ra giữa 8 đội
**Git** (, đọc là "Ghít") là phần mềm quản lý mã nguồn phân tán được phát triển bởi Linus Torvalds vào năm 2005, ban đầu dành cho việc phát triển nhân Linux. Hiện nay, Git
nhỏ|235x235px|_cis_-chlordane, một loại chất ô nhiễm hữu cơ khó phân hủy. **Chất ô nhiễm hữu cơ khó phân hủy** (tiếng Anh: Persistent organic pollutant, viết tắt: **POP**) là các hợp chất hữu cơ khó bị
[[Tập tin:Köppen-Geiger Climate Classification Map.png|thumb|upright=2.5|Bản đồ khí hậu Köppen–Geiger được cập nhật ]]**Phân loại khí hậu Köppen** là một trong những hệ thống phân loại khí hậu được sử dụng rộng rãi nhất. Nó được
Trong ngữ pháp truyền thống, **từ loại** (còn được gọi là **lớp từ**, **lớp từ vựng** hoặc **bộ phận dùng trong lời nói** trong Ngữ pháp truyền thống) (**tiếng Anh**: _part of speech_ hoặc _part-of-speech_;