Học có giám sát là một kĩ thuật của ngành học máy để xây dựng một hàm (function) từ dữ liệu huấn luyện. Dữ liệu huấn luyện bao gồm các cặp gồm đối tượng đầu vào (thường dạng vec-tơ), và đầu ra mong muốn. Đầu ra của một hàm có thể là một giá trị liên tục (gọi là hồi qui), hay có thể là dự đoán một nhãn phân loại cho một đối tượng đầu vào (gọi là phân loại). Nhiệm vụ của chương trình học có giám sát là dự đoán giá trị của hàm cho một đối tượng bất kì là đầu vào hợp lệ, sau khi đã xem xét một số ví dụ huấn luyện (nghĩa là, các cặp đầu vào và đầu ra tương ứng). Để đạt được điều này, chương trình học phải tổng quát hóa từ các dữ liệu sẵn có để dự đoán được những tình huống chưa gặp phải theo một cách "hợp lý" (xem thiên kiến quy nạp - inductive bias).
(So sánh với học không có giám sát.)
Học có giám sát có thể tạo ra hai loại mô hình. Phổ biến nhất, học có giám sát tạo ra một mô hình toàn cục (global model) để ánh xạ đối tượng đầu vào đến đầu ra mong muốn. Tuy nhiên, trong một số trường hợp, việc ánh xạ được thực hiện dưới dạng một tập các mô hình cục bộ (như trong phương pháp lập luận theo tình huống (case-based reasoning) hay giải thuật láng giềng gần nhất).
Để có thể giải quyết một bài toán nào đó của học có giám sát (ví dụ: học để nhận dạng chữ viết tay) người ta phải xem xét nhiều bước khác nhau:
Xác định loại của các ví dụ huấn luyện. Trước khi làm bất cứ điều gì, người kĩ sư nên quyết định loại dữ liệu nào sẽ được sử dụng làm ví dụ. Chẳng hạn, đó có thể là một ký tự viết tay đơn lẻ, toàn bộ một từ viết tay, hay toàn bộ một dòng chữ viết tay.
Thu thập tập huấn luyện. Tập huấn luyện cần đặc trưng cho thực tế sử dụng của hàm chức năng. Vì thế, một tập các đối tượng đầu vào được thu thập và đầu ra tương ứng được thu thập, hoặc từ các chuyên gia hoặc từ việc đo đạc tính toán.
Xác định việc biểu diễn các đặc trưng đầu vào cho hàm chức năng cần tìm. Sự chính xác của hàm chức năng phụ thuộc lớn vào cách các đối tượng đầu vào được biểu diễn. Thông thường, đối tượng đầu vào được chuyển đổi thành một vec-tơ đặc trưng, chứa một số các đặc trưng nhằm mô tả cho đối tượng đó. Số lượng các đặc trưng không nên quá lớn, do sự bùng nổ tổ hợp (curse of dimensionality); nhưng phải đủ lớn để dự đoán chính xác đầu ra.
Xác định cấu trúc của hàm chức năng cần tìm và giải thuật học tương ứng. Ví dụ, người kĩ sư có thể lựa chọn việc sử dụng mạng nơ-ron nhân tạo hay cây quyết định.
Hoàn thiện thiết kế. Người kĩ sư sẽ chạy giải thuật học từ tập huấn luyện thu thập được. Các tham số của giải thuật học có thể được điều chỉnh bằng cách tối ưu hóa hiệu năng trên một tập con (gọi là tập kiểm chứng -validation set) của tập huấn luyện, hay thông qua kiểm chứng chéo (cross-validation). Sau khi học và điều chỉnh tham số, hiệu năng của giải thuật có thể được đo đạc trên một tập kiểm tra độc lập với tập huấn luyện.
Cực tiểu hóa rủi ro kinh nghiệm
Mục tiêu của việc học có giám sát một mô hình toàn cục là tìm ra một hàm g, khi cho sẵn một tập các điểm có dạng (x, g(x)).
Giả thiết rằng đã biết trước đặc điểm của hàm g đối với một tập điểm. Tập điểm đó đã được lấy mẫu độc lập và có cùng phân bố (independent and identically distributed (i.i.d.)) theo một xác suất phân bố p chưa biết từ một tập lớn hơn và có thể vô hạn. Ngoài ra, giả sử tồn tại một hàm hàm tổn thất (loss function) theo tác vụ L có dạng:
:
trong đó Y là trùng với miền xác định của g và L ánh xạ tới các số thực không âm (có thể đặt thêm hạn chế cho L). Giá trị L(z, y) là tổn thất nảy sinh khi đoán giá trị của g tại một điểm cho trước là z trong khi giá trị thực của nó là y.
Hàm rủi ro f được định nghĩa là giá trị kỳ vọng của hàm tổn thất và có công thức như sau:
:
nếu xác suất phân bố p là rời rạc (trường hợp xác suất phân bố liên tục cần một tích phân xác định (definite integral) và một hàm mật độ xác suất.
Mục tiêu là tìm một hàm f trong số một lớp con cố định các hàm để cho rủi ro R(f) là cực tiểu.
Tuy nhiên, do thường chỉ biết được đặc điểm của hàm g cho một tập hữu hạn điểm (x1, y1),..., (xn, yn), người ta chỉ có thể xác định gần đúng rủi ro thực sự, ví dụ, với rủi ro kinh nghiệm (empirical risk):
:
Nguyên lý của cực tiểu hóa rủi ro kinh nghiệm là chọn hàm f* sao cho rủi ro kinh nghiệm là nhỏ nhất. Lý thuyết học bằng thống kê tìm hiểu xem việc cực tiểu hóa rủi ro kinh nghiệm có thể đạt được trong những điều kiện nào và có thể trông đợi các tính toán xấp xỉ tốt đến đâu.
Hướng tiếp cận và giải thuật
- học bằng phân tích (analytical learning)
- mạng nơ-ron nhân tạo
** Instantaneously trained neural networks
- kỹ thuật lan truyền ngược (backpropagation)
- boosting
- thống kê Bayes
- lập luận theo tình huống (case-based reasoning)
- học cây quyết định
- inductive logic programming
- hồi quy Gauss (Gaussian process regression)
- learning automata theory
- Minimum message length (cây quyết định, đồ thị quyết định, v.v.)
- naive Bayes classifier
- thuật toán láng giềng gần nhất
- probably approximately correct learning (PAC) learning
- symbolic machine learning algorithms
- subsymbolic machine learning algorithms
- support vector machines
- Random Forests
Ứng dụng
- Tin sinh học
- Nhận dạng chữ viết tay
- Thu thập thông tin (information retrieval)
- Nhận dạng đối tượng trong computer vision
- Nhận dạng ký tự quang học
- Phát hiện spam
- Nhận dạng mẫu
- Nhận dạng tiếng nói
Vấn đề chung
- computational learning theory (ngành toán học liên quan đến việc phân tích các thuật toán học máy)
- thiên kiến quy nạp (inductive bias)
- overfitting (hàm học được quá thích nghi với tập huấn luyện)
- version space
👁️
0 | 🔗 | 💖 | ✨ | 🌍 | ⌚
**Học không có giám sát** (tiếng Anh: **unsupervised learning**) là một phương pháp của ngành học máy nhằm tìm ra một mô hình mà phù hợp với các quan sát. Nó khác biệt với học
**Học có giám sát** là một kĩ thuật của ngành học máy để xây dựng một hàm (_function_) từ dữ liệu huấn luyện. Dữ liệu huấn luyện bao gồm các cặp gồm đối tượng đầu
**Học tự giám sát** (**self-supervised learning** hay **SSL**) là một kỹ thuật trong học máy mà trong đó, một mô hình được huấn luyện trên một tác vụ bằng cách sử dụng chính dữ liệu
Trong khoa học máy tính, **học nửa giám sát** là một lớp của kỹ thuật học máy, sử dụng cả dữ liệu đã gán nhãn và chưa gán nhãn để huấn luyện - điển hình
**Giám sát môi trường** mô tả các quá trình và các hoạt động cần được thực hiện để giám sát chất lượng môi trường. Giám sát môi trường là một bước chuẩn bị để đánh
**Học viện Cảnh sát nhân dân** còn được gọi là **T02**, **T18** hoặc **T32** (tiếng Anh: _the Vietnam People's Police Academy - VPPA_) là cơ sở đào tạo đại học, sau đại học hệ công
**_Mạng lưới giám sát Không gian Sâu** (**DSN**)_ hoặc _**Mạng lưới giám sát Sâu trong Không gian**_ là một mạng lưới các cơ sở giám sát thông tin liên lạc toàn cầu về các chương
**Giám sát COVID-19** liên quan đến việc theo dõi sự lây lan của dịch bệnh virus corona để thiết lập các mô hình tiến triển bệnh. Tổ chức Y tế Thế giới (WHO) khuyến nghị
nhỏ| Camera giám sát tại [[Quảng trường Thiên An Môn năm 2009. Năm 2019, _Comparitech_ đã báo cáo rằng 8 trong số 10 thành phố được giám sát nhiều nhất trên thế giới là ở
nhỏ|Một mô hình tế bào học phổ biến thường gặp trong di truyền học cổ điển, với các hình que tượng trưng cho nhiễm sắc thể mang gen. **Di truyền học cổ điển** là giai
**Kinh tế học cổ điển** hay **kinh tế chính trị cổ điển** là một trường phái kinh tế học được xây dựng trên một số nguyên tắc và giả định về nền kinh tế để
**Cơ học cổ điển** là một phần của cơ học, một lĩnh vực của vật lý học. Các vấn đề cơ bản của nó có từ thời Hy Lạp cổ đại, nó phát triển rực
**Bệnh viện đa khoa y học cổ truyền Hà Nội **là bệnh viện chuyên khoa hạng II, bệnh viện chuyên khoa đầu ngành Y học cổ truyền, đơn vị sự nghiệp trực thuộc Sở Y
thumb|354x354px|Sơ đồ mô hình học đặc trưng trong học máy, được áp dụng cho các nhiệm vụ hạ nguồn, có thể được áp dụng cho dữ liệu thô như hình ảnh hoặc văn bản, hoặc
**Học sâu** (tiếng Anh: **deep learning**, còn gọi là **học cấu trúc sâu**) là một phần trong một nhánh rộng hơn các phương pháp học máy dựa trên mạng thần kinh nhân tạo kết hợp
**Giám sát tình trạng** (tiếng Anh là Condition monitoring) là quá trình theo dõi một tham số điều kiện làm việc của máy móc (độ rung, nhiệt độ, vv), để xác định một thay đổi
**Uỷ ban Giám sát Nhà nước của nước Cộng hoà Nhân dân Trung Hoa** (chữ Anh: _National Supervisory Commission of the People's Republic of China_, chữ Trung phồn thể: 中華人民共和國國家監察委員會, chữ Trung giản thể: 中华人民共和国国家监察委员会,
nhỏ|Sơ đồ của một máy Boltzmann hạn chế với ba đơn vị nhìn thấy và bốn đơn vị ẩn (không có đơn vị thiên vị) **Máy Boltzmann hạn chế** (**restricted Boltzmann machine**, hoặc **RBM**) là
**Học máy** hay **máy học** (_machine learning_) là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc nghiên cứu và xây dựng các kĩ thuật cho phép các hệ thống "học" tự
**Mạng đối nghịch tạo sinh** (hay còn gọi là **mạng đối nghịch phát sinh**, tiếng Anh: **generative adversarial network** hay viết tắt **GAN**) là một lớp của khung (framework) học máy do Ian Goodfellow và
**Giám sát dịch bệnh** là một thực hành dịch tễ học theo đó sự lan truyền bệnh tật được theo dõi để thiết lập các mô hình tiến triển. Vai trò chính của giám sát
**ChatGPT**, viết tắt của **Chat Generative Pre-training Transformer**, là một chatbot do công ty OpenAI của Mỹ phát triển và ra mắt vào tháng 11 năm 2022. ChatGPT được xây dựng dựa trên GPT-3.5 -
Trong ngành khoa học máy tính, **học tăng cường** (tiếng Anh: _reinforcement learning_) là một lĩnh vực con của học máy, nghiên cứu cách thức một _agent_ trong một _môi trường_ nên chọn thực hiện
Trong khoa học máy tính, **học tiệm tiến** là một phương pháp học máy trong đó dữ liệu đầu vào được sử dụng liên tục để mở rộng tri thức của mô hình hiện có,
**Trường Trung học cơ sở Trần Bội Cơ** () là một trường trung học tại Quận 5, Thành phố Hồ Chí Minh. ## Vị trí Trường Trần Bội Cơ có địa chỉ tại số 266
**Trường Trung học cơ sở Đặng Thai Mai** là một trường công lập ở thành phố Vinh, tỉnh Nghệ An. Trường được thành lập năm 1978. Trường là một trong những gương mặt điển hình
**Trường Trung học Võ Trường Toản** là một trường trung học cơ sở công lập tại Thành phố Hồ Chí Minh. Trường được thành lập năm 1955. Tên trường được đặt theo danh sĩ Võ
**Trường Trung học cơ sở và Trung học phổ thông Nguyễn Khuyến** là một ngôi trường tại Thành phố Hồ Chí Minh, được sáng lập bởi Giáo sư – Nhà giáo Nhân dân Lê Trí
**Vụ tai nạn tàu E1 tại Lăng Cô 2005** là một vụ tai nạn giao thông đường sắt xảy ra vào 11 giờ 49 phút (UTC+07:00) ngày 12 tháng 3 năm 2005 tại địa phận
thumb|Camera quan sát trên nóc một tòa nhà. thumb|Camera quan sát. liên_kết=https://vi.wikipedia.org/wiki/T%E1%BA%ADp tin:CCTV_dome_camera_subway_Rotterdam.jpg|nhỏ|Camera mái vòm trong nhà ga: [[Nhà ga Rotterdam Centraal|Ga tàu điện ngầm trung tâm Rotterdam]] **Camera quan sát**, **camera giám sát** hay
Liên đoàn Lao động huyện Vĩnh Thuận thành lập Đoàn giám sát do đồng chí Lê Kim Thoa - Huyện ủy viên, Chủ tịch LĐLĐ huyện làm Trưởng đoàn. Cùng tham gia với Đoàn gồm
phải|nhỏ|Huy hiệu của NSA **Cơ quan An ninh Quốc gia Hoa Kỳ**/**Cục An ninh Trung ương** (tiếng Anh: _National Security Agency_/C_entral Security Service_, viết tắt _NSA_/_CSS_) là cơ quan thu thập các tin tức tình
**Tàu giám sát đại dương lớp Hibiki** (Tiếng Nhật: **ひびき型音響測定艦**) là một lớp tàu giám sát thuộc Lực lượng Phòng vệ trên biển Nhật Bản (JMSDF). Các tàu lớp Hibiki sở hữu hai đáy và
**Người giám sát** (tiếng ; tiếng Anh: **_Watcher_** ; cách điệu là **_WATCHER_**) là một bộ phim truyền hình Hàn Quốc năm 2019 với sự tham gia của Han Suk-kyu, Seo Kang-joon và Kim Hyun-joo.
**Giám sát trực tuyến** là giám sát hoạt động máy tính hoặc dữ liệu được truyền tải qua mạng máy tính như Internet. Việc theo dõi thường được thực hiện một cách bí mật và
**Ủy ban Dân nguyện và Giám sát của Quốc hội** là một trong những ủy ban của Quốc hội Việt Nam, phụ trách các vấn đề về hoạt động dân nguyện và giám sát. Ủy
thumb|Không gian học tập là những bối cảnh vật lý cho môi trường học tập thuộc mọi loại. thumb|Đại học Simon Fraser , tứ giác học thuật thumb|Cao đẳng Kings, Đại học Cambridge thumb|Phòng máy
**Chuyển động học** là một nhánh của cơ học cổ điển, có mục đích mô tả chuyển động của các điểm, vật thể và hệ vật trong khi bỏ qua nguyên nhân dẫn đến các
Nhận dạng dấu vân tay tại Mỹ **Sinh trắc học** là môn khoa học ứng dụng phân tích toán học thống kê xác suất để nghiên cứu các hiện tượng sinh học hoặc các chỉ
**Ủy ban Giám sát và Quản lý Tài sản thuộc Sở hữu Nhà nước của Quốc vụ viện** (**SASAC**) là một ủy ban đặc biệt của nước Cộng hòa Nhân dân Trung Hoa, trực thuộc
Bệnh viện Đa khoa Y học cổ truyền Hà Nội là bệnh viện chuyên khoa hạng II, bệnh viện chuyên khoa đầu ngành Y học cổ truyền, đơn vị sự nghiệp trực thuộc Sở Y
**Tâm lý học tham vấn** là một chuyên ngành tâm lý học bao gồm những nghiên cứu và ứng dụng trong nhiều lĩnh vực rộng lớn khác nhau: đào tạo và đầu ra; giám sát
**Lập luận không có gì để giấu** nói rằng một cá nhân không có lý do gì để sợ hãi hoặc phản đối các chương trình giám sát, trừ khi họ sợ rằng nó sẽ
**_Học viện cảnh sát_** (Hangul: 경찰수업; Romanja: _Kyeongchalsueob;_ tiếng Anh: **_Police University_**) là một bộ phim truyền hình Hàn Quốc năm 2021 với sự tham gia của Cha Tae-hyun, Jung Jin-young và Krystal Jung. Bộ
## Học có giám sát * AODE * Mạng nơ-ron nhân tạo ** Truyền ngược ** Autoencoders ** Hopfield networks ** Máy Boltzmann ** Máy Boltzmann hạn chế ** Spiking neural networks * Thống kê
**Bộ tự mã hóa** (tiếng Anh: **autoencoder**) là một dạng mạng thần kinh nhân tạo được dùng để học các mã hóa dữ liệu hiệu quả theo cách học không có giám sát. Mục tiêu
Rau má là một loại cây quen thuộc mọc nhiều ở các vùng quê Việt Nam, được dùng nhiều vào việc chữa bệnh. Vậy rau má có tác dụng gì đối nền y học cổ
**Bản đồ tự tổ chức** (tiếng Anh: **self-organizing map** (**SOM**) hay **self-organizing feature map** (**SOFM**) là một dạng mạng thần kinh nhân tạo (ANN) được huấn luyện sử dụng học không có giám sát để
**Đông y học tân biên khái yếu** là một y thư Y học cổ truyền tiếng Việt do lương y Thái Thanh Nguyên biên soạn lại trên cơ sở Lý luận y học cổ truyền
nhỏ|300x300px|Một hình dạng đặc trưng trong khí động học, giả định một môi trường nhớt từ trái qua phải, biểu đồ thể hiện phân bố áp suất như trên đường viền màu đen (độ dày