✨Học đặc trưng
thumb|354x354px|Sơ đồ mô hình học đặc trưng trong học máy, được áp dụng cho các nhiệm vụ hạ nguồn, có thể được áp dụng cho dữ liệu thô như hình ảnh hoặc văn bản, hoặc một tập hợp ban đầu các [[Đặc trưng (nhận dạng mẫu)|đặc trưng của dữ liệu. Học đặc trưng nhằm giúp quá trình huấn luyện nhanh hơn hoặc hiệu suất tốt hơn trong các bài toán cụ thể so với việc sử dụng dữ liệu đầu vào trực tiếp, so sánh với kỹ thuật "chuyển giao học tập" (transfer learning).]]
Trong học máy, học đặc trưng (feature learning) hay học biểu diễn (representation learning) là tập hợp các kỹ thuật cho phép hệ thống tự động khám phá các biểu diễn cần thiết cho việc phát hiện hoặc phân loại đặc trưng từ dữ liệu thô. Điều này thay thế cho việc xây dựng đặc trưng (feature engineering) thủ công và cho phép máy học cả đặc trưng lẫn thực hiện nhiệm vụ cụ thể.
Học đặc trưng được thúc đẩy bởi thực tế rằng các bài toán trong học máy như phân loại thường yêu cầu đầu vào dễ dàng và thuận tiện cho việc xử lý toán học và tính toán. Tuy nhiên, dữ liệu thực tế như hình ảnh, video và dữ liệu từ cảm biến không thể dễ dàng xác định các đặc trưng cụ thể thông qua các thuật toán rõ ràng. Một phương pháp thay thế là khám phá các đặc trưng hoặc biểu diễn này thông qua quá trình quan sát, mà không phụ thuộc vào các thuật toán cụ thể.
Học đặc trưng có thể là có giám sát, không giám sát hoặc tự giám sát.
- Trong học có giám sát, các đặc trưng được học từ dữ liệu đã gán nhãn. Dữ liệu có nhãn bao gồm cặp "đầu vào-nhãn", trong đó đầu vào được đưa vào mô hình và nó phải tạo ra nhãn đúng. Điều này có thể tận dụng để tạo ra các biểu diễn đặc trưng giúp mô hình đạt độ chính xác cao trong dự đoán nhãn. Ví dụ bao gồm mạng thần kinh nhân tạo, perceptron nhiều lớp và supervised dictionary learning (học từ điển có giám sát).
- Trong học không có giám sát, các đặc trưng được học từ dữ liệu không có nhãn bằng cách phân tích mối quan hệ giữa các điểm trong tập dữ liệu. Ví dụ bao gồm học từ điển, phân tích thành phần độc lập (independent component analysis), phân rã ma trận và các dạng khác của phân tích cụm.
- Trong học tự giám sát, các đặc trưng được học từ dữ liệu không có nhãn như học không giám sát, nhưng các cặp "đầu vào-nhãn" được tạo ra từ mỗi điểm dữ liệu. Điều này cho phép học cấu trúc của dữ liệu thông qua các phương pháp có giám sát như suy giảm độ dốc (gradient descent). Ví dụ kinh điển bao gồm các vectơ từ và bộ tự mã hóa. Học tự giám sát từ đó đã được áp dụng cho nhiều dạng dữ liệu thông qua việc sử dụng các kiến trúc mạng nơ-ron sâu như mạng thần kinh tích chập và transformer. học từ điển có giám sát này áp dụng học từ điển vào các bài toán phân loại bằng cách tối ưu hóa đồng thời các phần tử từ điển, các trọng số để biểu diễn các điểm dữ liệu, và các tham số của bộ phân loại dựa trên dữ liệu đầu vào. Cụ thể, một bài toán tối ưu hóa được hình thành, trong đó hàm mục tiêu bao gồm lỗi phân loại, lỗi biểu diễn, chính quy hóa L1 trên các trọng số biểu diễn của mỗi điểm dữ liệu (để tạo ra biểu diễn thưa của dữ liệu), và chính quy hóa L2 trên các tham số của bộ phân loại.
Mạng thần kinh
Mạng thần kinh nhân tạo là một họ các thuật toán học sử dụng một "mạng" gồm nhiều lớp các nút kết nối với nhau. Nó được lấy cảm hứng từ hệ thần kinh của động vật, trong đó các nút được xem như là các tế bào thần kinh và các cạnh là các khớp thần kinh. Mỗi cạnh có một trọng số liên kết, và mạng định nghĩa các quy tắc tính toán để chuyển dữ liệu đầu vào từ lớp đầu vào của mạng đến lớp đầu ra. Một hàm mạng (network function) liên quan đến mạng thần kinh đặc trưng hóa mối quan hệ giữa các lớp đầu vào và đầu ra, được tham số hóa bởi các trọng số. Với các hàm mạng được định nghĩa một cách hợp lý, có thể thực hiện các nhiệm vụ học bằng cách giảm thiểu một hàm mất mát (cost function) trên hàm mạng (các trọng số).
Các mạng thần kinh đa tầng có thể được sử dụng để thực hiện học đặc trưng, vì chúng học một biểu diễn của đầu vào tại các lớp ẩn, sau đó được sử dụng để phân loại hoặc hồi quy ở lớp đầu ra. Kiến trúc mạng phổ biến nhất thuộc loại này là "mạng thần kinh song sinh" (Siamese neural network).
Học không giám sát
Học đặc trưng không giám sát là quá trình học các đặc trưng từ dữ liệu không được gán nhãn. Mục tiêu của học đặc trưng không giám sát thường là khám phá ra các đặc trưng có kích thước thấp hơn mà nắm bắt được một số cấu trúc cơ bản trong dữ liệu đầu vào có kích thước cao. Khi học đặc trưng được thực hiện theo cách không giám sát, nó cho phép một dạng học bán giám sát, nơi các đặc trưng học được từ tập dữ liệu không có nhãn được sử dụng để cải thiện hiệu suất trong môi trường học có giám sát với dữ liệu có nhãn.). Coates và Ng lưu ý rằng các biến thể nhất định của K-means hoạt động tương tự như các thuật toán mã hóa thưa thớt (sparse coding).
Trong một đánh giá so sánh các phương pháp học đặc trưng không giám sát, Coates, Lee và Ng phát hiện rằng phân cụm K-means với một biến đổi thích hợp vượt trội hơn so với các phương pháp tự mã hóa và RBM (Restricted Boltzmann Machine) gần đây trong bài toán phân loại hình ảnh. ở đó, nó cạnh tranh với phân cụm Brown (Brown clustering), cũng như với các biểu diễn từ phân tán (còn được gọi là các "biểu diễn từ" bằng mạng thần kinh).
Phép phân tích thành phần chính
Phép phân tích thành phần chính (Principal component analysis - PCA) thường được sử dụng để giảm chiều dữ liệu. Với một tập hợp không nhãn gồm n vectơ dữ liệu đầu vào, PCA tạo ra p (thường nhỏ hơn nhiều so với chiều của dữ liệu đầu vào) các "vectơ kỳ dị bên phải" tương ứng với p giá trị kỳ dị lớn nhất của ma trận dữ liệu, trong đó hàng thứ k của ma trận dữ liệu là vectơ dữ liệu đầu vào thứ k đã được dịch chuyển bởi trung bình mẫu (sample mean) của đầu vào (tức là trừ trung bình mẫu khỏi vectơ dữ liệu). Tương đương, các vectơ kỳ dị này là các vectơ riêng tương ứng với p giá trị riêng lớn nhất của "ma trận hiệp phương sai mẫu" (sample covariance matrix) của các vectơ đầu vào. Các vectơ kì dị p này là các vectơ đặc trưng học được từ dữ liệu đầu vào và chúng đại diện cho các hướng mà dữ liệu có sự biến đổi lớn nhất.
PCA là một phương pháp học đặc trưng tuyến tính vì các vectơ kỳ dị p là các hàm tuyến tính của ma trận dữ liệu. Các vectơ kỳ dị có thể được tạo ra thông qua một thuật toán đơn giản với p vòng lặp. Trong vòng lặp thứ i, phép chiếu của ma trận dữ liệu lên vectơ riêng thứ (i-1) được trừ đi, và vectơ kỳ dị thứ i được tìm thấy là vectơ kỳ dị bên phải tương ứng với giá trị kỳ dị lớn nhất của ma trận dữ liệu dư thừa.
PCA có một số hạn chế. Thứ nhất, nó giả định rằng các hướng có phương sai lớn là quan trọng nhất, điều này có thể không đúng. PCA chỉ dựa vào các phép biến đổi trực giao của dữ liệu gốc và chỉ khai thác các mô men bậc nhất và bậc hai của dữ liệu, điều này có thể không mô tả tốt phân bố dữ liệu. Hơn nữa, PCA chỉ có thể giảm chiều một cách hiệu quả khi các vectơ dữ liệu đầu vào có sự tương quan (dẫn đến một vài giá trị riêng chiếm ưu thế).
Nhúng tuyến tính cục bộ
Nhúng tuyến tính cục bộ (Nonlinear dimensionality reduction - LLE) là một phương pháp học phi tuyến tính để tạo ra các "biểu diễn bảo toàn lân cận" có chiều thấp từ đầu vào có kích thước cao (không nhãn). Phương pháp này được đề xuất bởi Roweis và Saul (2000). Ý tưởng chung của LLE là tái tạo dữ liệu đầu vào có kích thước cao bằng các điểm có kích thước thấp hơn trong khi bảo toàn một số tính chất hình học của các lân cận (hoặc còn được gọi là "hàng xóm", "láng giềng") trong tập dữ liệu gốc.
LLE bao gồm hai bước chính. Bước đầu tiên là "bảo toàn lân cận", trong đó mỗi điểm dữ liệu đầu vào Xi được tái tạo như một tổng trọng số của giải thuật k hàng xóm gần nhất và các trọng số tối ưu được tìm ra bằng cách giảm thiểu lỗi tái tạo bình phương trung bình (tức là sự khác biệt giữa một điểm đầu vào và tái tạo của nó) dưới ràng buộc rằng tổng các trọng số liên quan đến mỗi điểm bằng một. Bước thứ hai là "giảm chiều", bằng cách tìm các vectơ trong không gian có kích thước thấp hơn mà giảm thiểu lỗi biểu diễn sử dụng các trọng số tối ưu trong bước đầu tiên. Lưu ý rằng trong bước đầu tiên, các trọng số được tối ưu hóa với dữ liệu cố định, có thể giải quyết được như một bài toán bình phương tối thiểu. Trong bước thứ hai, các điểm có kích thước thấp hơn được tối ưu hóa với các trọng số cố định, có thể giải quyết thông qua phân rã giá trị riêng thưa thớt (sparse eigenvalue decomposition).
Các trọng số tái tạo thu được trong bước đầu tiên nắm bắt được các "tính chất hình học nội tại" (intrinsic geometric property) của hàng xóm trong dữ liệu đầu vào. Giả định về tính "phi Gauss" được áp đặt vì trọng số không thể được xác định duy nhất khi tất cả các thành phần đều tuân theo phân phối Gauss.
Học từ điển không giám sát
Học từ điển không giám sát không sử dụng nhãn dữ liệu và khai thác cấu trúc tiềm ẩn trong dữ liệu để tối ưu hóa các phần tử của từ điển. Một ví dụ về học từ điển không giám sát là "mã hóa thưa thớt" (sparse coding), với mục tiêu học các hàm cơ sở (phần tử từ điển) để biểu diễn dữ liệu từ dữ liệu đầu vào không có nhãn. Mã hóa thưa thớt có thể được áp dụng để học các từ điển thừa, nơi số lượng phần tử từ điển lớn hơn kích thước của dữ liệu đầu vào. Michal Aharon và cộng sự đã đề xuất thuật toán K-SVD để học một từ điển các phần tử cho phép biểu diễn thưa thớt (sparse representation).
Kiến trúc đa tầng/sâu
Kiến trúc phân cấp của hệ thống thần kinh sinh học đã truyền cảm hứng cho các kiến trúc học sâu để học đặc trưng bằng cách xếp chồng nhiều lớp nút học (learning node). Các kiến trúc này thường được thiết kế dựa trên giả thuyết về "biểu diễn phân tán" (distributed representation): dữ liệu quan sát được tạo ra bởi sự tương tác của nhiều yếu tố khác nhau trên nhiều cấp độ. Trong một kiến trúc học sâu, đầu ra của mỗi lớp trung gian có thể được xem như một biểu diễn của dữ liệu đầu vào gốc. Mỗi cấp độ sử dụng biểu diễn do cấp thấp hơn tạo ra làm đầu vào, và sản xuất các biểu diễn mới làm đầu ra, sau đó được chuyển đến các cấp độ cao hơn. Đầu vào ở lớp thấp nhất là dữ liệu thô, và đầu ra của lớp cuối cùng, lớp cao nhất là đặc trưng hoặc biểu diễn cuối cùng có kích thước thấp.
Máy Boltzmann hạn chế
Máy Boltzmann hạn chế hay Máy Boltzmann giới hạn (Restricted Boltzmann machine - RBM) thường được sử dụng như một khối xây dựng cho các kiến trúc học nhiều tầng. Một RBM có thể được biểu diễn dưới dạng một đồ thị hai phía không có hướng bao gồm một nhóm các biến nhị phân, các biến tiềm ẩn, một nhóm các biến nhìn thấy, và các cạnh kết nối các nút ẩn và nút nhìn thấy. Đây là một trường hợp đặc biệt của máy Boltzmann tổng quát hơn với giới hạn không có kết nối nội bộ giữa các nút. Mỗi cạnh trong RBM được gán với một trọng số. Các trọng số cùng với các kết nối xác định một "hàm năng lượng" (energy function), dựa trên đó có thể tạo ra một phân phối xác suất đồng thời của các nút ẩn và nút nhìn thấy. Dựa trên cấu trúc của RBM, các biến ẩn (biến nhìn thấy) là độc lập, khi được điều kiện hoá theo các biến nhìn thấy (biến ẩn). Sự độc lập điều kiện này tạo thuận lợi cho việc tính toán.
RBM có thể được xem như một kiến trúc một lớp cho học đặc trưng không giám sát. Cụ thể, các biến nhìn thấy tương ứng với dữ liệu đầu vào, và các biến ẩn tương ứng với bộ phát hiện đặc trưng. Các trọng số có thể được huấn luyện bằng cách tối đa hóa xác suất của các biến nhìn thấy sử dụng thuật toán "divergence tương phản" (contrastive divergence - CD) của Geoffrey Hinton. đã được đề xuất để cho phép các biểu diễn thưa thớt. Ý tưởng là thêm một thuật toán chính quy hóa trong hàm mục tiêu của khả năng dữ liệu, để phạt việc sai lệch của các biến ẩn kỳ vọng khỏi một hằng số nhỏ . RBM cũng đã được sử dụng để đạt được các biểu diễn "tách biệt" của dữ liệu, trong đó các đặc trưng thú vị được ánh xạ (mapping) tới các đơn vị ẩn riêng biệt.
Bộ tự mã hóa
Một bộ tự mã hóa (autoencoder) bao gồm bộ mã hóa và bộ giải mã là một mô hình cho các kiến trúc học sâu. Một ví dụ được cung cấp bởi Hinton và Salakhutdinov Học biểu diễn tương phản huấn luyện các biểu diễn cho các cặp dữ liệu liên quan, được gọi là mẫu dương (posive sample), để chúng đồng bộ, trong khi các cặp không có mối quan hệ, được gọi là mẫu âm (negative sample), bị đối chiếu. Thông thường, một phần lớn hơn các mẫu âm là cần thiết để ngăn chặn hiện tượng sụp đổ thảm khốc, đó là khi tất cả các đầu vào đều được ánh xạ đến cùng một biểu diễn (vectơ). Mô hình này có hai sơ đồ huấn luyện khả thi để tạo ra các biểu diễn vectơ từ, một là tạo sinh và một là tương phản. trong khi BERT che dấu các token ngẫu nhiên để cung cấp ngữ cảnh hai chiều.
Các kỹ thuật tự giám sát khác mở rộng các nhúng từ bằng cách tìm các biểu diễn cho các cấu trúc văn bản lớn hơn như "vectơ câu" hoặc "nhúng câu" (sentence embedding) hoặc đoạn văn trong dữ liệu đầu vào.
Hình ảnh
Lĩnh vực học biểu diễn hình ảnh đã sử dụng nhiều kỹ thuật huấn luyện tự giám sát khác nhau, bao gồm chuyển đổi (transformation), tô màu lại hình ảnh (inpainting), phân biệt vùng ảnh (patch discrimination) và phân cụm (clustering).
Ví dụ của các phương pháp tạo sinh là Context Encoders, huấn luyện một kiến trúc mạng thần kinh tích chập "AlexNet" để tạo ra một vùng hình ảnh bị loại bỏ dựa trên hình ảnh bị che làm đầu vào,
Nhiều phương pháp tự giám sát khác sử dụng "mạng song sinh" (siamese network), tạo ra các quan điểm khác nhau của hình ảnh thông qua nhiều phép tăng cường khác nhau, sau đó được căn chỉnh để có các biểu diễn tương tự nhau. Thách thức là tránh các giải pháp sụp đổ khi mô hình mã hóa tất cả các hình ảnh thành cùng một biểu diễn. SimCLR là một phương pháp tương phản sử dụng các ví dụ âm để tạo ra các biểu diễn hình ảnh với một mạng thần kinh tích chập "ResNet" (Residual neural network).
Đồ thị
Mục tiêu của nhiều kỹ thuật học biểu diễn đồ thị là tạo ra một biểu diễn nhúng của mỗi "nút" hoặc "đỉnh" (vertex) dựa trên tổng thể cấu trúc mạng. node2vec mở rộng kỹ thuật huấn luyện word2vec sang các nút trong một đồ thị bằng cách sử dụng đồng xuất hiện trong các "bước đi ngẫu nhiên" (random walk) qua đồ thị như một thước đo sự liên kết. Một cách tiếp cận khác là tối đa hóa "thông tin tương hỗ" (mutual information), một thước đo sự tương đồng, giữa các biểu diễn của các cấu trúc liên quan trong đồ thị.
Video
Với các kết quả tương tự trong dự đoán "mặt nạ video" (masked prediction) và phân cụm, các phương pháp học biểu diễn video thường tương tự như các kỹ thuật hình ảnh nhưng phải sử dụng chuỗi khung video như một cấu trúc học thêm. Các ví dụ bao gồm VCP, mặt nạ (mask) các đoạn video và huấn luyện để chọn đoạn chính xác từ một tập hợp các đoạn video, và Xu (và cộng sự), huấn luyện một mạng tích chập 3D để xác định thứ tự ban đầu dựa trên một tập hợp các đoạn video bị xáo trộn.
Âm thanh
Các kỹ thuật tự giám sát biểu diễn cũng đã được áp dụng cho nhiều định dạng dữ liệu âm thanh, đặc biệt là cho xử lý giọng nói. Điều này tương tự như mô hình ngôn ngữ BERT, ngoại trừ, như trong nhiều cách tiếp cận học tự giám sát cho video, mô hình chọn từ một tập hợp các lựa chọn thay vì toàn bộ từ vựng. hoặc các chú thích được viết để mô tả hình ảnh. CLIP tạo ra một không gian biểu diễn "hình ảnh-văn bản" chung bằng cách huấn luyện để căn chỉnh các mã hóa hình ảnh và văn bản từ một tập dữ liệu lớn các cặp "hình ảnh-chú thích" sử dụng một hàm mất mát tương phản.
Học biểu diễn động
Các phương pháp học biểu diễn động tạo ra các biểu diễn ẩn cho các hệ thống động như mạng động (dynamic network). Vì các hàm khoảng cách cụ thể không thay đổi dưới các phép biến đổi tuyến tính cụ thể, các tập hợp vectơ biểu diễn khác nhau thực chất có thể biểu diễn cùng một thông tin hoặc thông tin tương tự. Do đó, đối với một hệ thống động, sự khác biệt theo thời gian trong các biểu diễn có thể được giải thích bởi sự sai lệch trong biểu diễn do các phép biến đổi tùy ý và/hoặc do các thay đổi thực sự trong hệ thống. Vì vậy, nói chung, các biểu diễn theo thời gian học được thông qua các phương pháp học biểu diễn động cần được kiểm tra để tìm các thay đổi không hợp lý và cần được căn chỉnh trước khi tiến hành các phân tích động tiếp theo.