✨Transformer (mô hình học máy)

Transformer (mô hình học máy)

Transformer là một mô hình học sâu được giới thiệu năm 2017, được dùng chủ yếu ở lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) và thị giác máy tính (CV).

Giống như các mạng thần kinh hồi quy (recurrent neural network - RNN), các Transformer được thiết kế để xử lý dữ liệu tuần tự, chẳng hạn như ngôn ngữ tự nhiên, cho các tác vụ như dịch máy thống kê hay tóm tắt tự động. Tuy nhiên, khác với RNN, các Transformer không yêu cầu dữ liệu tuần tự được xử lý theo thứ tự. Ví dụ, nếu dữ liệu đầu vào là một câu ngôn ngữ tự nhiên, Transformer không cần phải xử lý phần đầu câu trước phần cuối câu. Do tính năng này, Transformer cho phép nhiều phép tính toán song song và vì vậy giảm thời gian huấn luyện. để thay thế các mô hình RNN như Bộ nhớ dài-ngắn hạn (LSTM). Transformer có khả năng đào tạo song song (training parallelization) cho phép đào tạo trên các tập dữ lớn hơn. Điều này mở ra thời kỳ phát triển của các mô hình đào tạo trước như BERT (Bidirectional Encoder Representations from Transformers) và GPT (Generative Pre-trained Transformer). Các mô hình này được đào tạo với các bộ dữ liệu ngôn ngữ lớn như Wikipedia Corpus và Common Crawl, và có thể được tinh chỉnh phù hợp cho các nhiệm vụ cụ thể.

Cơ sở lý thuyết

Trước khi có transformer, hầu hết các hệ thống NLP tiên tiến dựa trên các mạng RNN có cổng, chẳng hạn như LSTMs và đơn vị hồi tiếp có cổng (GRUs), kết hợp với cơ chế chú ý. Transformer cũng sử dụng cơ chế chú ý nhưng, không giống như RNN, không có cấu trúc hồi tiếp. Điều này có nghĩa là, với đủ dữ liệu huấn luyện, cơ chế chú ý đơn thuần có thể đạt được hiệu suất tương đương với RNN kèm cơ chế chú ý.

Xử lý chuỗi

Các RNN có cổng xử lý các token theo chuỗi, duy trì một vector trạng thái chứa đại diện của dữ liệu đã xem trước token hiện tại. Để xử lý token n thứ, mô hình kết hợp trạng thái biểu diễn câu đến token n-1 với thông tin của token mới để tạo ra một trạng thái mới, đại diện cho câu đến token n. Lý thuyết cho rằng thông tin từ một token có thể lan truyền xa xôi trong chuỗi, nếu tại mỗi điểm trạng thái tiếp tục mã hóa thông tin ngữ cảnh về token. Trên thực tế, cơ chế này có nhược điểm: vấn đề suy giảm độ dốc khiến trạng thái của mô hình ở cuối một câu dài không có thông tin chính xác và có thể trích xuất về các token trước đó. Sự phụ thuộc vào kết quả tính toán token trước đó cũng khiến việc tính toán song song trên phần cứng học sâu hiện đại trở nên khó khăn. Điều này có thể khiến việc huấn luyện RNN trở nên kém hiệu quả.

Tự chú ý

Những vấn đề này đã được giải quyết bằng cơ chế chú ý. Cơ chế chú ý cho phép mô hình rút ra thông tin từ trạng thái tại bất kỳ điểm nào trước đó trên chuỗi. Lớp chú ý có thể truy cập tất cả các trạng thái trước đó và đánh trọng số chúng theo một thước đo tầm quan trọng đã học, cung cấp thông tin liên quan về các token xa xôi.

Một ví dụ rõ ràng về giá trị của sự chú ý là trong dịch thuật, nơi ngữ cảnh rất quan trọng để gán ý nghĩa của một từ trong câu. Trong hệ thống dịch từ tiếng Anh sang tiếng Pháp, từ đầu tiên của đầu ra tiếng Pháp rất có thể phụ thuộc nặng nề vào vài từ đầu tiên của đầu vào tiếng Anh. Tuy nhiên, trong một mô hình LSTM cổ điển, để tạo ra từ đầu tiên của đầu ra tiếng Pháp, mô hình chỉ được cung cấp vector trạng thái sau khi xử lý từ cuối cùng tiếng Anh. Trên lý thuyết, vector này có thể mã hóa thông tin về cả câu tiếng Anh, cung cấp cho mô hình tất cả kiến ​​thức cần thiết. Trên thực tế, thông tin này thường không được LSTM bảo tồn tốt. Một cơ chế chú ý có thể được thêm vào để giải quyết vấn đề này: bộ giải mã được cung cấp truy cập vào vector trạng thái của mỗi từ đầu vào tiếng Anh, không chỉ từ cuối cùng, và có thể học trọng số chú ý quyết định mức độ chú ý đến từng vector trạng thái đầu vào tiếng Anh.

Khi được thêm vào RNN, cơ chế chú ý làm tăng hiệu suất. Sự phát triển của kiến trúc Transformer cho thấy rằng cơ chế chú ý rất mạnh mẽ và không cần thiết phải xử lý tuần tự dữ liệu hồi tiếp để đạt được những lợi ích về chất lượng của RNN với cơ chế chú ý. Transformer sử dụng cơ chế chú ý mà không có RNN, xử lý tất cả các token cùng một lúc và tính trọng số chú ý giữa chúng trong các lớp tiếp theo. Vì cơ chế chú ý chỉ sử dụng thông tin về các token khác từ các lớp thấp hơn, nó có thể được tính toán cho tất cả các token song song, dẫn đến tốc độ huấn luyện được cải thiện.

👁️ 2 | 🔗 | 💖 | ✨ | 🌍 | ⌚
**Transformer** là một mô hình học sâu được giới thiệu năm 2017, được dùng chủ yếu ở lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) và thị giác máy tính (CV). Giống như các
**Biểu diễn Thể hiện Mã hóa Hai chiều từ Transformer** (tiếng Anh: **Bidirectional Encoder Representations from Transformers** hay viết tắt là **BERT**) là một kỹ thuật học máy dựa trên các transformer được dùng cho
thumb|354x354px|Sơ đồ mô hình học đặc trưng trong học máy, được áp dụng cho các nhiệm vụ hạ nguồn, có thể được áp dụng cho dữ liệu thô như hình ảnh hoặc văn bản, hoặc
**Học sâu** (tiếng Anh: **deep learning**, còn gọi là **học cấu trúc sâu**) là một phần trong một nhánh rộng hơn các phương pháp học máy dựa trên mạng thần kinh nhân tạo kết hợp
**Kỹ thuật tạo lệnh** hoặc **kỹ thuật ra lệnh** (prompt engineering) là quá trình cấu trúc một **văn bản đầu vào** cho AI tạo sinh giải thích và diễn giải. Một **văn bản đầu vào**
nhỏ|Một chiếc laptop [[Lenovo "thời hiện đại"]] **Máy tính xách tay** hay **máy vi tính xách tay** (Tiếng Anh: **laptop computer** hay **laptop PC**) là một chiếc máy tính cá nhân nhỏ gọn có thể
**Trí tuệ nhân tạo** (**TTNT**) (tiếng Anh: **_Artificial intelligence_**, viết tắt: **_AI_**) là khả năng của các hệ thống máy tính thực hiện các nhiệm vụ liên quan đến trí thông minh của con người,
**Máy tính bảng** (Tiếng Anh: Tablet computer hay tablet PC), là một thiết bị di động, thông thường có hệ điều hành di động và mạch xử lý, màn hình cảm ứng và viên pin
**OpenAI** là một phòng thí nghiệm nghiên cứu trí tuệ nhân tạo (AI) của Mỹ bao gồm tổ chức phi lợi nhuận **OpenAI Incorporated** (**OpenAI Inc.**) và công ty con hoạt động vì lợi nhuận
**Trí tuệ nhân tạo tạo sinh** hoặc **AI tạo sinh** là một loại hệ thống AI có khả năng tạo ra văn bản, hình ảnh hoặc các phương tiện truyền thông khác dựa trên các
**ChatGPT**, viết tắt của **Chat Generative Pre-training Transformer**, là một chatbot do công ty OpenAI của Mỹ phát triển và ra mắt vào tháng 11 năm 2022. ChatGPT được xây dựng dựa trên GPT-3.5 -
Chat GPT làm một công cụ trợ lý trên điện thoại hay laptop tương tự như: Siri, Google Assitant,... và được phát triển bởi OpenAI. Vậy ChatGPT là gì? Tìm hiểu về Lợi ích và
**_Siêu đại chiến_** (tựa gốc tiếng Anh: **_Pacific Rim_**; tên khác: **_Vành đai Thái Bình Dương_**) là một bộ phim điện ảnh đề tài quái vật và khoa học viễn tưởng của Mỹ năm 2013
**George Adamski** (17 tháng 4 năm 1891 – 23 tháng 4 năm 1965) là một công dân Mỹ gốc Ba Lan trở nên nổi tiếng trong giới nghiên cứu UFO, và ở một mức độ
Trong học máy, thuật ngữ **stochastic parrot**, tức **con vẹt ngẫu tính** hay **con vẹt ngẫu nhiên**, là phép ẩn dụ để mô tả cái lý thuyết cho rằng các mô hình ngôn ngữ lớn
ChatGPT là một công cụ Trí tuệ Nhân tạo (AI) được phát triển bởi OpenAI. Đây là một hệ thống tự động có khả năng tương tác với con người thông qua các cuộc trò
**_Transformers: Chiến binh cuối cùng_** (tên gốc tiếng Anh: **_Transformers: The Last Knight_**) là một bộ phim hành động khoa học viễn tưởng năm 2017. Đây là phần phim thứ năm của loạt phim _Transformers_
**_Robot đại chiến_** (tựa gốc tiếng Anh: **_Transformers_**) là một phim hành động khoa học viễn tưởng của Mỹ năm 2007 dựa trên dòng đồ chơi cùng tên của Hasbro. Đây là phần đầu tiên
**_Transformers: Quái thú trỗi dậy_** (tựa gốc tiếng Anh: **_Transformers: Rise of the Beasts_**) là một phim hành động khoa học viễn tưởng của Mỹ năm 2023 dựa trên dòng đồ chơi _Transformers_ của Hasbro
**Bảo Định** (tiếng Trung giản thể: 保定市) là một địa cấp thị của tỉnh Hà Bắc, cách thủ đô Bắc Kinh khoảng 150 km về phía tây nam. Bảo Định có diện tích 22.185 km² (8.566
"**New Divide**" là một bài hát của ban nhạc rock người Mỹ Linkin Park. Bài hát được phát hành làm đĩa đơn và được thu âm riêng cho bộ phim _Transformers: Bại binh phục hận_