Học tự giám sát (self-supervised learning hay SSL) là một kỹ thuật trong học máy mà trong đó, một mô hình được huấn luyện trên một tác vụ bằng cách sử dụng chính dữ liệu để tạo ra các tín hiệu giám sát, thay vì dựa vào các nhãn bên ngoài do con người cung cấp. Trong bối cảnh của mạng thần kinh nhân tạo, học tự giám sát hướng tới việc khai thác các cấu trúc hoặc mối quan hệ nội tại trong dữ liệu đầu vào để tạo ra các tín hiệu huấn luyện có ý nghĩa. Các nhiệm vụ trong SSL được thiết kế sao cho việc giải quyết yêu cầu nắm bắt được các đặc điểm hoặc mối quan hệ quan trọng trong dữ liệu. Dữ liệu đầu vào thường được tăng cường hoặc biến đổi để tạo ra các cặp mẫu liên quan. Một mẫu sẽ đóng vai trò làm đầu vào, và mẫu còn lại được dùng để hình thành tín hiệu giám sát. Việc tăng cường này có thể bao gồm thêm nhiễu, cắt, xoay, hoặc các biến đổi khác. Học tự giám sát mô phỏng cách con người học cách phân loại các đối tượng.
Phương pháp học tự giám sát thông thường dựa trên mạng thần kinh nhân tạo hoặc các mô hình khác như
danh sách quyết định (decision list). Mô hình học theo hai bước. Đầu tiên, tác vụ được giải quyết dựa trên một nhiệm vụ phân loại phụ hoặc tiền đề, sử dụng các nhãn giả để giúp khởi tạo các tham số của mô hình. Sau đó, tác vụ chính được thực hiện bằng học có giám sát hoặc không giám sát. Các nhiệm vụ phụ khác liên quan đến việc hoàn thành các mẫu từ các mẫu đầu vào bị che (khoảng dừng trong lời nói hoặc các phần hình ảnh bị che đen).
Học tự giám sát đã cho thấy những kết quả hứa hẹn trong những năm gần đây và đã được ứng dụng thực tiễn trong xử lý âm thanh và đang được Facebook cùng các bên khác sử dụng cho nhận dạng tiếng nói.
Các loại
Học tự giám sát liên kết tự động
Học tự giám sát liên kết tự động là một loại học của học tự giám sát, trong đó mạng thần kinh được huấn luyện để tái tạo hoặc tái cấu trúc chính dữ liệu đầu vào của nó. Nói cách khác, mô hình có nhiệm vụ học một biểu diễn của dữ liệu mà nắm bắt được các đặc điểm hoặc cấu trúc cốt lõi, giúp nó tái tạo lại đầu vào ban đầu.
Thuật ngữ "liên kết tự động" xuất phát từ thực tế rằng mô hình về cơ bản là liên kết dữ liệu đầu vào với chính nó. Điều này thường được thực hiện bằng cách sử dụng bộ tự mã hóa, một loại kiến trúc mạng thần kinh được sử dụng để học biểu diễn. Bộ tự mã hóa bao gồm một mạng mã hóa ánh xạ dữ liệu đầu vào thành một không gian biểu diễn có chiều thấp hơn (không gian tiềm ẩn), và một mạng giải mã tái tạo lại dữ liệu đầu vào từ biểu diễn này.
Quá trình huấn luyện bao gồm việc trình bày mô hình với dữ liệu đầu vào và yêu cầu nó tái tạo lại dữ liệu đó một cách gần nhất có thể. Hàm mất mát được sử dụng trong quá trình huấn luyện thường phạt sự khác biệt giữa dữ liệu đầu vào gốc và đầu ra tái tạo. Bằng cách giảm thiểu lỗi tái tạo này, bộ tự mã hóa học được một biểu diễn có ý nghĩa của dữ liệu trong không gian tiềm ẩn của nó.
Học tự giám sát tương phản
Đối với một tác vụ phân loại nhị phân, dữ liệu huấn luyện có thể được chia thành ví dụ tích cực và ví dụ tiêu cực. Các ví dụ tích cực là những ví dụ phù hợp với mục tiêu. Ví dụ, nếu bạn đang học để nhận diện chim, dữ liệu huấn luyện tích cực là những bức ảnh chứa chim. Các ví dụ tiêu cực là những bức ảnh không chứa chim. Học tự giám sát tương phản sử dụng cả ví dụ tích cực và tiêu cực. Hàm mất mát của học tương phản tối thiểu hóa khoảng cách giữa các cặp mẫu tích cực trong khi tối đa hóa khoảng cách giữa các cặp mẫu tiêu cực.
Huấn luyện một bộ tự mã hóa vốn dĩ là một quá trình tự giám sát, vì mẫu đầu ra cần phải trở thành một tái tạo tối ưu của mẫu đầu vào chính nó. Tuy nhiên, trong ngôn ngữ hiện đại, thuật ngữ "tự giám sát" đã trở nên liên quan đến các nhiệm vụ phân loại dựa trên việc huấn luyện bằng các nhiệm vụ giả định. Điều này đòi hỏi (con người) thiết kế các nhiệm vụ giả định, khác với trường hợp huấn luyện bộ tự mã hóa hoàn toàn tự động.
Ví dụ
Học tự giám sát đặc biệt phù hợp với nhận dạng tiếng nói. Ví dụ, Facebook đã phát triển wav2vec, một thuật toán tự giám sát, để thực hiện nhận dạng tiếng nói bằng cách sử dụng hai mạng thần kinh tích chập sâu liên kết với nhau.
OpenAI đã phát triển GPT-3, một mô hình ngôn ngữ tự hồi quy có thể được sử dụng trong xử lý ngôn ngữ. Nó có thể được dùng để dịch văn bản hoặc trả lời câu hỏi, cùng nhiều tác vụ khác.
Bootstrap Your Own Latent (BYOL) là một phương pháp học tự giám sát không tương phản (NCSSL) đã mang lại kết quả xuất sắc trên ImageNet và các bài kiểm tra truyền tải và bán giám sát.
Thuật toán Yarowsky là một ví dụ về học tự giám sát trong xử lý ngôn ngữ tự nhiên. Từ một số lượng nhỏ các ví dụ được gán nhãn, nó học cách dự đoán nghĩa của một từ đa nghĩa sử dụng tại một điểm trong văn bản.
DirectPred là một phương pháp học tự giám sát không tương phản (NCSSL) đặt trực tiếp các "trọng số dự báo" (predictor weight) thay vì học nó thông qua suy giảm độ dốc.
👁️
6 | 🔗 | 💖 | ✨ | 🌍 | ⌚
**Học tự giám sát** (**self-supervised learning** hay **SSL**) là một kỹ thuật trong học máy mà trong đó, một mô hình được huấn luyện trên một tác vụ bằng cách sử dụng chính dữ liệu
**Học có giám sát** là một kĩ thuật của ngành học máy để xây dựng một hàm (_function_) từ dữ liệu huấn luyện. Dữ liệu huấn luyện bao gồm các cặp gồm đối tượng đầu
**Giám sát môi trường** mô tả các quá trình và các hoạt động cần được thực hiện để giám sát chất lượng môi trường. Giám sát môi trường là một bước chuẩn bị để đánh
**Học viện Cảnh sát nhân dân** còn được gọi là **T02**, **T18** hoặc **T32** (tiếng Anh: _the Vietnam People's Police Academy - VPPA_) là cơ sở đào tạo đại học, sau đại học hệ công
**_Mạng lưới giám sát Không gian Sâu** (**DSN**)_ hoặc _**Mạng lưới giám sát Sâu trong Không gian**_ là một mạng lưới các cơ sở giám sát thông tin liên lạc toàn cầu về các chương
**Giám sát COVID-19** liên quan đến việc theo dõi sự lây lan của dịch bệnh virus corona để thiết lập các mô hình tiến triển bệnh. Tổ chức Y tế Thế giới (WHO) khuyến nghị
nhỏ| Camera giám sát tại [[Quảng trường Thiên An Môn năm 2009. Năm 2019, _Comparitech_ đã báo cáo rằng 8 trong số 10 thành phố được giám sát nhiều nhất trên thế giới là ở
thumb|354x354px|Sơ đồ mô hình học đặc trưng trong học máy, được áp dụng cho các nhiệm vụ hạ nguồn, có thể được áp dụng cho dữ liệu thô như hình ảnh hoặc văn bản, hoặc
**Giám sát tình trạng** (tiếng Anh là Condition monitoring) là quá trình theo dõi một tham số điều kiện làm việc của máy móc (độ rung, nhiệt độ, vv), để xác định một thay đổi
nhỏ|289x289px|_Khuê Văn Các_ - biểu tượng của Thủ đô [[Hà Nội. Đây là nơi học sinh thường hay chụp ảnh trong những lễ tốt nghiệp]]**Văn Miếu – Quốc Tử Giám** là quần thể di tích
**Uỷ ban Giám sát Nhà nước của nước Cộng hoà Nhân dân Trung Hoa** (chữ Anh: _National Supervisory Commission of the People's Republic of China_, chữ Trung phồn thể: 中華人民共和國國家監察委員會, chữ Trung giản thể: 中华人民共和国国家监察委员会,
Trong xử lý ngôn ngữ tự nhiên (NLP), **vectơ từ** (còn được gọi là **biểu diễn từ**, **nhúng từ**, hay **word embedding**) là một cách biểu diễn từ ngữ. Vectơ từ được sử dụng trong
**Giám sát dịch bệnh** là một thực hành dịch tễ học theo đó sự lan truyền bệnh tật được theo dõi để thiết lập các mô hình tiến triển. Vai trò chính của giám sát
**Ủy ban Giám sát và Quản lý Tài sản thuộc Sở hữu Nhà nước của Quốc vụ viện** (**SASAC**) là một ủy ban đặc biệt của nước Cộng hòa Nhân dân Trung Hoa, trực thuộc
**Đại học Tự do Berlin** (, thường được viết tắt là **FU Berlin** hoặc đơn giản là **FU**) là một trường đại học nghiên cứu công lập ở Berlin, Đức. Trường được thành lập vào
**Học sâu** (tiếng Anh: **deep learning**, còn gọi là **học cấu trúc sâu**) là một phần trong một nhánh rộng hơn các phương pháp học máy dựa trên mạng thần kinh nhân tạo kết hợp
thumb|right|Quang học nghiên cứu hiện tượng [[tán sắc của ánh sáng.]] **Quang học** là một ngành của vật lý học nghiên cứu các tính chất và hoạt động của ánh sáng, bao gồm tương tác
thumb|Camera quan sát trên nóc một tòa nhà. thumb|Camera quan sát. liên_kết=https://vi.wikipedia.org/wiki/T%E1%BA%ADp tin:CCTV_dome_camera_subway_Rotterdam.jpg|nhỏ|Camera mái vòm trong nhà ga: [[Nhà ga Rotterdam Centraal|Ga tàu điện ngầm trung tâm Rotterdam]] **Camera quan sát**, **camera giám sát** hay
nhỏ| Biển lưu niệm tại địa điểm thí nghiệm nhà tù Stanford
(_Nơi diễn ra
THÍ NGHIỆM NHÀ TÙ STANFORD
Tiến hành bởi
Tiến sĩ [[Philip Zimbardo|Philip G. Zimbardo_)]]**Thí nghiệm nhà tù Stanford** là một thí nghiệm tâm lý
thumb|upright=1.4|[[Đất xấu khắc vào đá phiến sét dưới chân cao nguyên Bắc Caineville, Utah, trong đèo được khắc bởi sông Fremont và được gọi là the Blue Gate. Grove Karl Gilbert đã nghiên cứu các
**Học máy** hay **máy học** (_machine learning_) là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc nghiên cứu và xây dựng các kĩ thuật cho phép các hệ thống "học" tự
**Viện Đại học Yale** (tiếng Anh: _Yale University_), còn gọi là **Đại học Yale**, là viện đại học tư thục ở New Haven, Connecticut. Thành lập năm 1701 ở Khu định cư Connecticut, Yale là
Liên đoàn Lao động huyện Vĩnh Thuận thành lập Đoàn giám sát do đồng chí Lê Kim Thoa - Huyện ủy viên, Chủ tịch LĐLĐ huyện làm Trưởng đoàn. Cùng tham gia với Đoàn gồm
**Giám sát trực tuyến** là giám sát hoạt động máy tính hoặc dữ liệu được truyền tải qua mạng máy tính như Internet. Việc theo dõi thường được thực hiện một cách bí mật và
**Tàu giám sát đại dương lớp Hibiki** (Tiếng Nhật: **ひびき型音響測定艦**) là một lớp tàu giám sát thuộc Lực lượng Phòng vệ trên biển Nhật Bản (JMSDF). Các tàu lớp Hibiki sở hữu hai đáy và
**Người giám sát** (tiếng ; tiếng Anh: **_Watcher_** ; cách điệu là **_WATCHER_**) là một bộ phim truyền hình Hàn Quốc năm 2019 với sự tham gia của Han Suk-kyu, Seo Kang-joon và Kim Hyun-joo.
**Ủy ban Dân nguyện và Giám sát của Quốc hội** là một trong những ủy ban của Quốc hội Việt Nam, phụ trách các vấn đề về hoạt động dân nguyện và giám sát. Ủy
**Trường Đại học Văn Lang** (English:**_Van Lang University**,_ Latin: _Universitas Vanlangensis_), thường được gọi tắt là **VLU** là một trường đại học tư thục đa ngành ở Thành phố Hồ Chí Minh, Việt Nam. Thành
Nhận dạng dấu vân tay tại Mỹ **Sinh trắc học** là môn khoa học ứng dụng phân tích toán học thống kê xác suất để nghiên cứu các hiện tượng sinh học hoặc các chỉ
**_Học viện cảnh sát_** (Hangul: 경찰수업; Romanja: _Kyeongchalsueob;_ tiếng Anh: **_Police University_**) là một bộ phim truyền hình Hàn Quốc năm 2021 với sự tham gia của Cha Tae-hyun, Jung Jin-young và Krystal Jung. Bộ
**Bộ tự mã hóa** (tiếng Anh: **autoencoder**) là một dạng mạng thần kinh nhân tạo được dùng để học các mã hóa dữ liệu hiệu quả theo cách học không có giám sát. Mục tiêu
Trong ngành khoa học máy tính, **học tăng cường** (tiếng Anh: _reinforcement learning_) là một lĩnh vực con của học máy, nghiên cứu cách thức một _agent_ trong một _môi trường_ nên chọn thực hiện
**Bản đồ tự tổ chức** (tiếng Anh: **self-organizing map** (**SOM**) hay **self-organizing feature map** (**SOFM**) là một dạng mạng thần kinh nhân tạo (ANN) được huấn luyện sử dụng học không có giám sát để
**Anh Cả** (tên gốc trong tác phẩm: **Big Brother**) là một nhân vật và biểu tượng hư cấu trong tác phẩm Một chín tám tư của George Orwell. Ông được coi là người lãnh đạo
**Đặng Tu Minh** (tiếng Trung giản thể: 邓修明, bính âm Hán ngữ: _Dèng Xiūmíng_, sinh tháng 12 năm 1964, người Hán) là chính trị gia nước Cộng hòa Nhân dân Trung Hoa. Ông là Ủy
**Nguyễn Hữu Đức** (sinh ngày 15 tháng 12 năm 1958) là một nhà khoa học về lĩnh vực Khoa học Tự nhiên. Ông là giáo sư, nhà giáo nhân dân, nhà vật lý và quản
nhỏ|430x430px|BrdU (màu đỏ), thể hiện quá trình neurogenesis trong trung khu dưới hạt (SGZ) của vùng DG hồi hải mã. Hình ảnh minh họa này của Faiz và cộng sự, năm 2005. **Khoa học thần
John F. Kennedy, tổng thống thứ 35 của Hoa Kỳ, bị ám sát vào ngày 22 tháng 11 năm 1963 khi đang trên đoàn xe hộ tống đi qua Dealey Plaza tại Dallas, Texas. Kennedy,
Hình chụp lỗ thủng ozon lớn nhất ở [[Nam Cực từ trước đến nay vào tháng 9 năm 2000.]] **Sự suy giảm tầng ozon** bao gồm hai sự kiện liên quan được quan sát thấy
**Địa hóa học**, theo định nghĩa đơn giản của thuật ngữ này là hóa học của Trái Đất, bao gồm việc ứng dụng những nguyên lý cơ bản của hóa học để giải quyết các
Một số nhân vật chính và phụ của trong truyện Đây là danh sách các nhận vật trong bộ truyện tranh _Thám tử lừng danh Conan_ được tạo ra bởi tác giả Aoyama Gosho. Các
thumb|[[Vincent van Gogh, tháng 7 năm 1890, _Đồng lúa và những con quạ_.]] **Tâm lý học mỹ thuật** là một lĩnh vực liên ngành nghiên cứu về quan niệm, nhận thức và đặc điểm của
**James Patrick Bulger** (16 tháng 3 năm 1990 – 12 tháng 2 năm 1993) là một cậu bé sinh tại Kirkby, Merseyside, Anh, bị sát hại vào ngày 12 tháng 2 năm 1993 khi mới
Vào ngày 25 tháng 5 năm 2020, **George Perry Floyd**, một người đàn ông người Mỹ gốc Phi, đã bị sát hại tại Powderhorn ở thành phố Minneapolis, tiểu bang Minnesota, Hoa Kỳ. Trong khi
nhỏ|phải|Hematit: Loại quặng sắt chính trong các mỏ của Brasil. nhỏ|phải|Kho dự trữ quặng sắt vê viên này sẽ được sử dụng trong sản xuất [[thép.]] **Quặng sắt** là các loại đá và khoáng vật
nhỏ|Tàu cao tốc [[ICE (Intercity-Express) tại Đức]] nhỏ|phải|[[E5 Series Shinkansen|E5 Series Shinkansen tại Nhật Bản]] nhỏ|phải|[[Intercity-Express|ICE thế hệ thứ ba do Đức thiết kế trên tuyến đường sắt cao tốc Köln–Frankfurt]] **Đường sắt cao tốc**
**Học tập cải tạo tại Việt Nam** là tên gọi hình thức giam giữ mà chính quyền Việt Nam thực hiện đối với một bộ phận các nhân vật mà các chính phủ sở tại
**Lực lượng Cảnh sát Hồng Kông** (**HKPF**; , Hương Cảng cảnh vụ xứ) là cơ quan điều tra, thực thi pháp luật, và là hàng ngũ kỷ luật lớn nhất thuộc Cục Bảo an của
Vào ngày 13 tháng 7 năm 2024 theo giờ địa phương, cựu tổng thống thứ 45 của Hoa Kỳ Donald Trump đã sống sót sau một nỗ lực ám sát khi đang phát biểu tại
thumb|Bản đồ mạng đường sắt với các đường thông thường được nâng cấp hoặc xây dựng để phù hợp với CRH được hiển thị bằng màu cam (), đường cao tốc thứ cấp màu xanh