Biểu diễn Thể hiện Mã hóa Hai chiều từ Transformer (tiếng Anh: Bidirectional Encoder Representations from Transformers hay viết tắt là BERT) là một kỹ thuật học máy dựa trên các transformer được dùng cho việc huấn luyện trước xử lý ngôn ngữ tự nhiên (NLP) được phát triển bởi Google. Jacob Devlin và cộng sự từ Google đã tạo ra và công bố BERT vào năm 2018. , Google đã tận dụng BERT để hiểu rõ hơn các tìm kiếm của người dùng.
Mô hình BERT bằng tiếng Anh ban đầu đi kèm với hai dạng tổng quát được đào tạo trước: với 800M từ, và một phiên bản của Wikipedia tiếng Anh với 2,500M từ.
Hiệu suất
Khi BERT được công bố, nó đạt hiệu suất state of the art trên một vào tác vụ hiểu ngôn ngữ tự nhiên: Generative Pre-Training, ELMo, and ULMFit. Không như các mô hình trước đó, BERT là một
biểu diễn ngôn ngữ không giám sát và hai chiều sâu, được đào tạo trước chỉ sử dụng một kho ngữ liệu văn bản thuần túy.
Các mô hình không có ngữ cảnh như Word2vec hay GloVe (học máy) tạo ra các biểu diễn từ nhúng đơn cho mỗi từ trong tập từ vựng, trong khi đó BERT tính đến ngữ cảnh cho mỗi lần xuất hiện của một từ cho trước. Ví dụ: vectơ của từ "running" sẽ có một biểu diễn vectơ Word2vec giống nhau trong hai lần xuất hiện của từ "running" trong các câu "He is running a company" và "He is running a marathon", trong khi đó BERT sẽ cung cấp một nhúng theo ngữ cảnh mà sẽ là khác nhau tùy thuộc theo câu ví dụ.
Vào ngày 25 tháng 10 năm 2019, Google Tìm kiếm thông báo rằng họ đã bắt đầu áp dụng các mô hình BERT cho các truy vấn tìm kiếm bằng Tiếng Anh tại Hoa Kỳ. Vào ngày 09 tháng 12 năm 2019, có báo báo cho biết BERT đã được Google Tìm kiếm áp dụng cho hơn 70 ngôn ngữ.
Dựa trên kiến trúc gốc, nhiều phiên bản của BERT được đào tạo trước riêng cho các ngôn ngữ được triển khai và giới thiệu đến cộng đồng trong đó có Tiếng Việt .
Giải thưởng
BERT giành giải Bài viết Dài Tốt nhất (Best Long Paper Award) tại Hội thảo Thường niên 2019 của North American Chapter thuộc Association for Computational Linguistics (NAACL).
👁️
3 | 🔗 | 💖 | ✨ | 🌍 | ⌚
**Biểu diễn Thể hiện Mã hóa Hai chiều từ Transformer** (tiếng Anh: **Bidirectional Encoder Representations from Transformers** hay viết tắt là **BERT**) là một kỹ thuật học máy dựa trên các transformer được dùng cho
Trong xử lý ngôn ngữ tự nhiên (NLP), **vectơ từ** (còn được gọi là **biểu diễn từ**, **nhúng từ**, hay **word embedding**) là một cách biểu diễn từ ngữ. Vectơ từ được sử dụng trong
**Kỹ thuật tạo lệnh** hoặc **kỹ thuật ra lệnh** (prompt engineering) là quá trình cấu trúc một **văn bản đầu vào** cho AI tạo sinh giải thích và diễn giải. Một **văn bản đầu vào**
Trong học máy, thuật ngữ **stochastic parrot**, tức **con vẹt ngẫu tính** hay **con vẹt ngẫu nhiên**, là phép ẩn dụ để mô tả cái lý thuyết cho rằng các mô hình ngôn ngữ lớn
**Transformer** là một mô hình học sâu được giới thiệu năm 2017, được dùng chủ yếu ở lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) và thị giác máy tính (CV). Giống như các
**_Hawkeye_** (tạm dịch tiếng Việt: **_Mắt diều hâu_**) là bộ phim truyền hình ngắn tập Mỹ được tạo ra bởi Jonathan Igla và phát sóng trên nền tảng chiếu phim trực tuyến Disney+, phim được
**Jean-Baptiste Petrus Trương Vĩnh Ký** (chữ Hán: 張永記, 1837–1898), tên hồi nhỏ là **Trương Chánh Ký**, hiệu **Sĩ Tải**, là một nhà văn, nhà ngôn ngữ học, nhà giáo dục và khảo cứu văn hóa,
nhỏ|Tổng hợp giọng nói Trên máy tính, **tổng hợp giọng nói** là việc tạo ra giọng nói của người từ đầu vào là văn bản hay các mã hóa việc phát âm. Hệ thống này
thumb|354x354px|Sơ đồ mô hình học đặc trưng trong học máy, được áp dụng cho các nhiệm vụ hạ nguồn, có thể được áp dụng cho dữ liệu thô như hình ảnh hoặc văn bản, hoặc
**_The Wizard of Oz_** (Tạm dịch: **_Phù thủy xứ Oz_**) là một bộ phim ca nhạc giả tưởng của Mỹ năm 1939 do Metro-Goldwyn-Mayer sản xuất. Được nhiều người coi là một trong những bộ
**Pháp thuộc** là một giai đoạn trong lịch sử Việt Nam kéo dài 61 năm, bắt đầu từ 1884 khi Pháp ép triều đình Huế kí Hòa ước Giáp Thân cho đến 1945 khi Pháp
**Bánh mì** là một loại baguette của Việt Nam với lớp vỏ ngoài giòn tan, ruột mềm, còn bên trong là phần nhân. Tùy theo văn hóa vùng miền hoặc sở thích cá nhân mà
**Đồng Khánh Đế** (chữ Hán: 同慶 19 tháng 2 năm 1864 – 28 tháng 1 năm 1889), tên húy là **Nguyễn Phúc Ưng Thị** (阮福膺豉) và **Nguyễn Phúc Ưng Đường** (阮福膺禟 ), lên ngôi lấy
**_Câu chuyện phía Tây_** (tiếng Anh: **_West Side Story_**) là một bộ phim điện ảnh Mỹ thuộc thể loại nhạc kịchtình cảmchính kịch của công chiếu vào năm 2021 do Steven Spielberg làm đạo diễn
**Thuộc địa của các Nghệ sĩ Darmstadt** đề cập đến một nhóm các nghệ sĩ theo phong cách Thanh niên cũng như các tòa nhà tại **Mathildenhöhe** ở Darmstadt, nơi mà các nghệ sĩ sống
**Cuộc quyết đấu giữa hổ và sư tử** hay là sự so sánh hổ (cọp) và sư tử ai mạnh hơn ai, kẻ nào mới thực sự là vua của muông thú luôn là một
**Danh sách các nhà phát minh** được ghi nhận. ## Danh sách theo bảng chữ cái ### A * Vitaly Abalakov (1906–1986), Nga – các thiết bị cam, móng neo leo băng không răng ren
Đây là chủ đề về ** Lịch sử của Chelsea Football Club**, một câu lạc bộ bóng đá Anh có trụ sở tại Fulham, Tây Luân Đôn. Về thông tin chung của câu lạc bộ,
300x300px|thumb ## Sự kiện ### Tháng 1 * 1 tháng 1 ** Roger Bonvin trở thành tổng thống liên bang Thụy Sĩ. ** Angola, Mozambique, Cabo Verde, Timor, São Tomé và Príncipe và Ma Cao
thumb|Máy đánh chữ hiệu "Underwood" được sản xuất từ năm 1896 **Máy đánh chữ** là một dụng cụ viết chữ bằng tay chạy trên thiết bị cơ khí, điện cơ hoặc điện tử-cơ, được trang
Một dãy hàng đồ chơi trên phố Lương Văn Can, Hà Nội liên_kết=https://vi.wikipedia.org/wiki/T%E1%BA%ADp tin:Wooden_toys_(cropped).JPG|nhỏ|252x252px|Nhiều loại [[đồ chơi Channapatna bằng gỗ truyền thống từ Ấn Độ]] **Đồ chơi** hay **đồ hàng** là một đồ vật được
nhỏ|300x300px|[[Đại lộ Thăng Long đoạn qua Mễ Trì, Nam Từ Liêm]] [[Autobahn ở Đức và nút giao thông khác mức với cầu nối, cầu vượt và đường dẫn, đoạn gần tháp truyền hình Berlin]] nhỏ|200x200px|Biển
**Francis Sellers Collins** (sinh ngày 14 tháng 4 năm 1950) là bác sĩ y khoa và là nhà di truyền học người Mỹ. Ông trở nên nhân vật nổi tiếng sau khi tìm ra gen
**Sherlock Holmes** () là một nhân vật thám tử tư hư cấu, do nhà văn người Anh Arthur Conan Doyle sáng tạo nên. Tự coi mình là "thám tử tư vấn" trong các câu chuyện,
**Nam Định** là thành phố tỉnh lỵ cũ của tỉnh Nam Định, Việt Nam. Đây là một trong những thành phố được Pháp lập ra đầu tiên ở Liên bang Đông Dương. Nằm ở phía
**Tài liệu Panama** hay **Hồ sơ Panama** () là một bộ 11,5 triệu tài liệu mật được tạo ra bởi nhà cung cấp dịch vụ của công ty Panama Mossack Fonseca cung cấp thông tin
**The Beatles** là một ban nhạc rock người Anh được thành lập tại Liverpool vào năm 1960, bao gồm John Lennon, Paul McCartney, George Harrison và Ringo Starr. Họ được coi là ban nhạc có
John Lennon, Paul McCartney, George Harrison, Stuart Sutcliffe và Pete Best thường xuyên lưu diễn tại thành phố Hamburg, Tây Đức trong khoảng từ tháng 8 năm 1960 tới tháng 12 năm 1962. Giai đoạn
**Edwin van der Sar** (; sinh ngày 29 tháng 10 năm 1970) là một cựu cầu thủ bóng đá người Hà Lan chơi ở vị trí thủ môn. Anh là cầu thủ khoác áo Đội
Quảng trường Ba Đình **Quảng trường Ba Đình** là quảng trường lớn nhất Việt Nam, nằm trên đường Hùng Vương, quận Ba Đình và là nơi Lăng Chủ tịch Hồ Chí Minh được xây dựng.
nhỏ|382x382px|Ảnh phục dựng chân dung vua Hàm Nghi **Hàm Nghi** (chữ Hán: 咸宜 3 tháng 8 năm 1871 – 14 tháng 1 năm 1944), tên thật **Nguyễn Phúc Ưng Lịch** (阮福膺𧰡), là vị hoàng đế
**Diệp Văn Cương** (葉文疆, 1862- 1929), tự **Thọ Sơn**, hiệu **Yên Sa**, bút hiệu **Cuồng Sĩ**; là nhà báo, nhà giáo Việt Nam ở đầu thế kỷ 20. Ông được Vương Hồng Sển xem là