✨Phân loại bằng thống kê

Phân loại bằng thống kê

Phân loại bằng thống kê là một thủ tục thống kê trong đó các thể riêng biệt sẽ được sắp vào từng nhóm dựa trên số lượng thông tin về một hay nhiều tính chất kế thừa của cá thể đó (được xem như là các điểm, các biến, các đặc điểm, v.v...) và dựa vào một tập huấn luyện của các cá thể đã được đánh nhãn sẵn.

Về mặt hình thức, bài toán có thể diễn giải như sau: cho sẵn một tập huấn luyện {(\mathbf{x_1},y),\dots,(\mathbf{x_n}, y)} ta cần tạo ra một phân loại h:\mathcal{X}\rightarrow\mathcal{Y} mà có thể ánh xạ một đối tượng \mathbf{x} \in \mathcal{X} vào nhãn phân loại y \in \mathcal{Y} của nó. Ví dụ, nếu bài toán là lọc spam, thì \mathbf{x_i} là một biểu diễn nào nó cho một thư điện tử và y thì hoặc là "Spam" hoặc "Không Spam".

Các giải thuật phân loại bằng thống kê thường được sử dụng trong các hệ thống nhận dạng mẫu.

Chú ý: trong cộng đồng sinh thái học, thuật ngữ "phân loại" là đồng nghĩa với từ được biết đến (trong ngành học máy) là phân nhóm (clustering). Xem bài viết đó để biết rõ hơn về các kĩ thuật không có giám sát.

Các kĩ thuật phân loại bằng thống kê

Trong khi có rất nhiều phương pháp phân loại, chúng thường buộc phải giải quyết một trong ba vấn đề liên quan đến toán học sau.

Vấn đề đầu tiên là tìm một ánh xạ của một không gian đặc trưng (thường là một không gian vec-tơ đa chiều) đến một tập các nhãn. Điều này là tương đương với việc phân hoạch không gian đặc trưng thành các vùng nhỏ hơn, sau đó gán một nhãn vào mỗi vùng. Các giải thuật dạng này (ví dụ, giải thuật hàng xóm gần nhất) thường không đem lại sự tin cậy hay xác suất class (posterior probability), trừ phi quá trình xử lý sau được áp dụng. Một tập các giải thuật khác để giải quyết vấn đề này trước tiên là áp dụng việc phân mảnh không có giám sát không gian đặc trưng ra, sau đó cố gắng đánh nhãn cho mỗi mảnh (hay vùng) được phân ra đó.

Vấn đề thứ hai là xem xét việc phân loại như là một bài toán về ước lượng, với mục tiêu là ước lượng xem một hàm có dạng :P({\rm class}|{\vec x}) = f\left(\vec x;\vec \theta\right) với vec-tơ đặc trưng đầu vào là \vec x, và hàm f là được tham số hóa bởi một số tham số \vec \theta. Trong hướng tiếp cận Bayes cho vấn đề này, thay vì chọn một tham số vec-tơ đơn lẻ \vec \theta, kết quả sẽ tích hợp trên mọi thê-ta có thể có, với cách đánh trọng số dựa vào như cách đưa ra tập huấn luyện D: :P({\rm class}|{\vec x}) = \int f\left(\vec x;\vec \theta\right)P(\vec \theta|D) d\vec \theta

Bài toán thứ ba liên quan tới bài toán thứ hai, nhưng yêu cầu của nó là ước lượng xác suất có điều kiện-class P(\vec x|{\rm class}) và rồi sử dụng quy luật Bayes để đưa về xác suất lớp nhu bài toán số hai.

Các ví dụ về các giải thuật phân loại bao gồm:

  • Linear classifier Fisher's linear discriminant Logistic regression Naive Bayes classifier Perceptron
  • k hàng xóm gần nhất
  • Boosting
  • Cây quyết định
  • Mạng nơ-ron
  • Mạng Bayes
  • Support vector machine
  • Mô hình Markov ẩn

Lĩnh vực ứng dụng

  • Thị giác máy tính Phân tích hình ảnh y học (Medical image analysis) Nhận dạng ký tự quang học
  • Nhân dạng tiếng nói
  • Nhận dạng chữ viết tay
  • Nhận dạng sinh trắc học (Biometric identification)
  • Phân loại tài liệu (Document classification)
  • Động cơ tìm kiếm trên Internet
  • Credit scoring
👁️ 0 | 🔗 | 💖 | ✨ | 🌍 | ⌚
**Phân loại bằng thống kê** là một thủ tục thống kê trong đó các thể riêng biệt sẽ được sắp vào từng nhóm dựa trên số lượng thông tin về một hay nhiều tính chất
**Phân loại Bằng sáng chế Quốc tế** (**IPC**, **International Patent Classification**) là một hệ thống phân loại bằng sáng chế theo cấu trúc cây được xây dựng sau Hiệp định Phân loại Sáng chế Quốc
**Phân loại nhị phân** (tiếng Anh: _Binary classification_) là nhiệm vụ phận loại các phần tử của một tập hợp các đối tượng ra thành 2 nhóm dựa trên cơ sở là chúng có một
Trong toán học, một **phân loại** là một ánh xạ từ một không gian của các đặc trưng _X_ (rời rạc hay liên tục) vào một nhóm rời rạc của các nhãn _Y_. Phân loại
**Dịch máy thống kê** (**SMT**) là một phương pháp dịch máy, trong đó các bản dịch được tạo ra trên cơ sở các mô hình thống kê có các tham số được bắt nguồn từ
Trong thống kê, **giải thuật _k_ hàng xóm gần nhất** (hay còn gọi là **thuật toán k hàng xóm gần nhất**, viết tắt từ tiếng Anh **_k_-NN**) là một phương pháp thống kê phi tham
**Khung phân loại** hay còn gọi là **Bảng phân loại** ám chỉ việc phân loại đã được thu gọn hoặc phản ánh vào một giản đồ, bảng (Scheme, Table) nhất định theo chủ ý của
[[Tập tin:High accuracy Low precision.svg | nhỏ | Biểu đồ này miêu tả độ chính xác cao và độ chính xác thấp bằng cách suy luận, phân tích dữ liệu.
Chú thích:
_Màu đỏ_: độ chính
Trong phân loại sinh học, **Phân loại giới Động vật** cũng như phân loại sinh học là khoa học nghiên cứu cách sắp xếp các động vật sống thành các nhóm khác nhau dựa vào:
**Thống kê mô tả** được sử dụng để mô tả những đặc tính cơ bản của dữ liệu thu thập được từ nghiên cứu thực nghiệm qua các cách thức khác nhau. Thống kê mô
Dưới đây là chi tiết về **các kỷ lục và số liệu thống kê của Giải vô địch bóng đá thế giới**. Số liệu được cập nhật đến hết vòng chung kết FIFA World Cup
[[Tập tin:Köppen-Geiger Climate Classification Map.png|thumb|upright=2.5|Bản đồ khí hậu Köppen–Geiger được cập nhật ]]**Phân loại khí hậu Köppen** là một trong những hệ thống phân loại khí hậu được sử dụng rộng rãi nhất. Nó được
phải|nhỏ|350x350px|Hình minh họa các "con đường" mà mỗi nhóm Baltimore trải qua để tổng hợp mRNA. **Hệ thống phân loại Baltimore** là một hệ thống được sử dụng để phân loại virus dựa trên cách
[[Tập_tin:UEFA_members_Champions_League_stages.png|nhỏ|450x450px|Bản đồ các quốc gia UEFA, các vòng đấu đạt được bởi các đội ở UEFA Champions League và Cúp C1 châu Âu. ]] Trang này liệt kê chi tiết **thống kê Cúp C1 châu
**Cục Tin học và Thống kê tài chính** là cơ quan trực thuộc Bộ Tài chính, có chức năng tham mưu, giúp Bộ trưởng Bộ Tài chính thực hiện nhiệm vụ quản lý nhà nước
**Phân loại Sibley-Ahlquist** là một hệ thống phân loại chim do Charles Sibley và Jon E. Ahlquist đề xuất. Hệ thống này dựa trên các nghiên cứu lai DNA-DNA tiến hành vào cuối những năm
nhỏ|[[Biểu đồ hộp của dữ liệu từ thí nghiệm Michelson–Morley cho thấy bốn điểm bất thường ở cột chính giữa, và một điểm bất thường ở cột đầu tiên.]] Trong thống kê, một **điểm bất
Trong mạng máy tính, **băng thông** hay còn gọi là _băng thông mạng_,**_' _băng thông dữ liệu,_**** hoặc _băng thông kỹ thuật số**__' là tốc độ truyền dữ liệu tối đa trên một đường dẫn
Trong viễn thông, **băng thông rộng** là một đường truyền dữ liệu mà cho phép truyền nhiều tín hiệu và nhiều đường cùng lúc. Đường dẫn truyền có thể là cáp đồng trục, cáp quang,
**Thống kê Fermi-Dirac** là một lý thuyết mô tả sự phân bổ các hạt ở các cấp năng lượng khác nhau trong các hệ thống vật lý bao gồm các hạt đồng nhất tuân theo
**Kiểm định giả thuyết thống kê** (statistical hypothesis test) là phương pháp ra quyết định sử dụng dữ liệu, hoặc từ thí nghiệm hoặc từ nghiên cứu quan sát (observational study)(không có kiểm soát). Trong
**Hệ thống Thông tin Phân loại Tích hợp** (, được viết tắt là **ITIS**) là một đối tác được thiết kế để cung cấp các thông tin phù hợp và đáng tin cậy về phân
**Thống kê Bose–Einstein** là lý thuyết thống kê miêu tả hệ lượng tử trong đó không giới hạn số các hạt phân bố trên cùng một mức năng lượng. Cách miêu tả này áp dụng
Biểu trưng của Ủy ban Quốc tế về Phân loại Virus **Ủy ban Quốc tế về Phân loại Virus** (**ICTV**) () là cơ quan ủy quyền tổ chức phân loại và danh pháp cho virus.
**Hệ thống phân loại giải phẫu - điều trị - hoá học** được dùng để phân loại thuốc. Hệ thống phân loại này được kiểm soát bởi Trung tâm hợp tác về phương pháp thống
thumb|upright=1.3|Sơ đồ hình cái dĩa của chuỗi Hubble **Phân loại hình thái của thiên hà** là một hệ thống được sử dụng bởi các nhà thiên văn học để chia các thiên hà thành các
**Hệ thống hài hoà toàn cầu về phân loại và ghi nhãn hoá chất - Globally Harmonized System of Classification and Labeling of Chemicals** (viết tắt GHS) là hệ thống toàn cầu được xây đựng
nhỏ|Ý nghĩa của thông kê Trong thống kê, một kết quả được gọi là có _ý nghĩa thống kê_ nếu nó không có khả xảy ra là do ngẫu nhiên. Cụm từ _Ý nghĩa thống
**Thống kê lãnh thổ** là việc phản ánh khách quan bằng số liệu sự phát triển và biến đổi của sự vật và sự việc, phân loại theo phương pháp thống kê học trên lãnh
**Phần mềm hệ thống** là phần mềm máy tính thiết kế cho việc vận hành và điều khiển phần cứng máy tính và cung cấp một kiến trúc cho việc chạy _phần mềm ứng dụng_.
**Máy vectơ hỗ trợ** (**SVM** - viết tắt tên tiếng Anh **support vector machine**) là một khái niệm trong thống kê và khoa học máy tính cho một tập hợp các phương pháp học có
Trong lý thuyết phát hiện tín hiệu, đường cong ROC, tiếng Anh **receiver operating characteristic** (**ROC**), còn gọi là **receiver operating curve** (đường cong đặc trưng hoạt động của bộ thu nhận - để xác
thumb|[[Thùng rác tái chế ở Singapore]] thumb|Phân loại rác thủ công để tái chế thumb|right|Thùng container tái chế rác tư nhân ở [[Portovenere, Italy]] thumb|right|Thùng container chứa rác ở [[Fuchū, Tokyo, Nhật Bản]] thumb|Các rác
Trong lý thuyết học thống kê, còn gọi là lý thuyết học tính toán, **chiều VC ** (viết tắt của **chiều Vapnik–Chervonenkis**) là một độ đo của khả năng phân loại của các thuật toán
nhỏ|Một hệ thống phân loại nhạc cụ dựa trên cơ sở vật lý. Trong lịch sử nghiên cứu về các loại nhạc cụ, đã có nhiều ý kiến khác nhau và nhiều khi mâu thuẫn
Trong phân loại bằng thống kê, có hai cách tiếp cận chính là tiếp cận **tạo sinh** (sinh mẫu) và tiếp cận **phân biệt**. Hai cách này tính toán các bộ phân lớp (classifier) bằng
**Mô hình phân biệt** (tiếng Anh: **_discriminative model_**, **conditional model**) là lớp các mô hình logistic dùng cho phân loại bằng thống kê hay hồi quy. Chúng phân biệt ranh giới quyết định thông qua
Thương hiệu Xuất xứ Việt Nam Thành phần Vải không dệt, bề mặt Cotton, Màng PE, bột giấy, hạt siêu thấm, giấy không dính, chiết xuất hương thảo dược Quy cách đóng gói 2 miếnggói
Thương hiệu Xuất xứ Việt Nam Thành phần Vải không dệt, bề mặt Cotton, Màng PE, bột giấy, hạt siêu thấm, giấy không dính, chiết xuất hương thảo dược Quy cách đóng gói 2 miếnggói
Thương hiệu Xuất xứ Việt Nam Thành phần Vải không dệt, bề mặt Cotton, Màng PE, bột giấy, hạt siêu thấm, giấy không dính, chiết xuất hương thảo dược Quy cách đóng gói 2 miếnggói
MÔ TẢ SẢN PHẨMBăng Vệ Sinh Hằng Ngày Laurier Active Fit Hương Hoa Gói40 MiếngTHÔNG TIN CHI TIẾTThương hiệu : LaurierSản xuất tại : Việt NamHướng dẫn bảo quản : Bảo quản nơi khô ráo,
MÔ TẢ SẢN PHẨMBăng Vệ Sinh Hằng Ngày Laurier Active Fit Hương Hoa Gói 20 MiếngTHÔNG TIN CHI TIẾTThương hiệu : LaurierSản xuất tại : Việt NamHướng dẫn bảo quản : Bảo quản nơi khô
MÔ TẢ SẢN PHẨMBăng Vệ Sinh Hằng Ngày Laurier Active Fit Hương Hoa Gói40 MiếngTHÔNG TIN CHI TIẾTThương hiệu : LaurierSản xuất tại : Việt NamHướng dẫn bảo quản : Bảo quản nơi khô ráo,
MÔ TẢ SẢN PHẨMBăng Vệ Sinh Hằng Ngày Laurier Active Fit Hương Hoa Gói 20 MiếngTHÔNG TIN CHI TIẾTThương hiệu : LaurierSản xuất tại : Việt NamHướng dẫn bảo quản : Bảo quản nơi khô
thumb|right|Một _hệ thống nhúng_ trên thẻ trình cắm có bộ xử lý, bộ nhớ, nguồn điện và giao diện bên ngoài **Hệ thống nhúng** () là một thuật ngữ để chỉ một hệ thống có
Bảng tuần hoàn tiêu chuẩn 18 cột. Màu sắc thể hiện các nhóm [[nguyên tố hoá học của nguyên tử khác nhau và tính chất hóa học trong từng nhóm (cột)]] **Bảng tuần hoàn** (tên
**Phần mềm ác ý**, còn gọi là **phần mềm ác tính**, **phần mềm độc hại**, **phần mềm gây hại** hay **mã độc** (tiếng Anh: **malware** là sự ghép của hai chữ _malicious_ và _software_) là
**Tài khoản quốc gia** hay **hệ thống tài khoản quốc gia** là hệ thống tài khoản kế toán phục vụ cho việc đo lường các hoạt động tài chính của một nước hay thu nhập
**Phan Thiết** là một thành phố ven biển cũ và là tỉnh lỵ, khu chính trị, kinh tế, văn hóa và khoa học kỹ thuật của tỉnh Bình Thuận, Việt Nam. ## Địa lý ###
Trong tính toán, **tiền tố nhị phân** được dùng để định lượng những con số lớn mà ở đó dùng lũy thừa hai có ích hơn dùng lũy thừa 10 (như kích thước bộ nhớ