✨UTF-8

UTF-8

UTF-8 (8-bit Unicode Transformation Format - Định dạng chuyển đổi Unicode 8-bit) là một bộ mã hóa ký tự với chiều rộng biến thiên dành cho Unicode. Tương tự như UTF-16 và UTF-32, UTF-8 có thể biểu diễn tất cả các chữ cái trong bộ ký tự Unicode, nhưng điểm khác biệt quan trọng nhất là nó có thể tương thích ngược với ASCII. Vì lý do này, UTF-8 nhanh chóng trở thành bộ mã hóa thống trị trong các tập tin, thư điện tử, trang web, và các phần mềm xử lý văn bản.

UTF-8 mã hóa mỗi ký tự (điểm mã) thành 1 đến 8 octet (tức là byte gồm 8-bit). 128 ký tự đầu tiên của bộ ký tự Unicode (tương ứng một-một với bộ ASCII) chỉ dùng một octet có cùng giá trị nhị phân như bộ ASCII.

Lực lượng Chuyên trách về Kỹ thuật Liên mạng (Internet Engineering Task Force - IETF) bắt buộc mọi giao thức Internet phải xác định bộ mã hóa dùng trong dữ liệu ký tự, và trong các bộ mã hóa ký tự hỗ trợ phải có UTF-8. Liên minh Thư tín Internet (Internet Mail Consortium - IMC) khuyến cáo tất cả các chương trình thư điện tử phải hiển thị và tạo được thư bằng UTF-8.

Lịch sử

Cho đến đầu năm 1992, người ta vẫn đang tìm kiếm một bộ mã hóa thành byte cho các tập ký tự có nhiều byte. Tiêu chuẩn ISO 10646 ở dạng nháp có một phần phụ không bắt buộc có tên là UTF cung cấp một cách mã hóa ra dạng byte cho các điểm mã 32-bit của nó. Cách mã hóa này không tốt về mặt hiệu suất, nhưng đã giới thiệu cách ký hiệu ở dạng byte trong dải 0–127 của ASCII theo UTF, từ đó tạo ra khả năng tương thích ngược.

Vào tháng 7 năm 1992, ủy bản XoJIG của X/Open bắt đầu tìm kiếm một cách mã hóa tốt hơn. Dave Prosser thuộc Phòng thí nghiệm Hệ thống Unix đề xuất một cách mã hóa có đặc tính hiện thực nhanh hơn và giới thiệu cải tiến sao cho các ký tự ASCII 7-bit chỉ đại diện cho chính chúng; còn mọi chuỗi nhiều byte khác sẽ chỉ thêm các byte có bit cao bằng 1.

Vào tháng 8 năm 1992, đề xuất này đã được đại diện của IBM X/Open chuyển giao cho các bên có quan tâm. Ken Thompson thuộc nhóm hệ điều hành Plan 9 tại Bell Labs sau đó đã thực hiện một chỉnh sửa quan trọng cho bộ mã hóa, cho phép nó tự đồng bộ, tức là, không cần phải đọc từ đầu dãy để tìm các biên điểm mã nữa. Thiết kế của Thompson được mô tả tổng quan vào ngày 2 tháng 9 năm 1992 trong bữa ăn với Rob Pike. Những ngày sau, Pike và Thompson hiện thực nó và cập nhật Plan 9 để sử dụng nó rộng rãi, rồi thông báo thành công của họ lại cho X/Open.

UTF-8 lần đầu tiên được giới thiệu chính thức là tại hội nghị USENIX ở San Diego, diễn ra từ ngày 25-29 tháng 1 năm 1993.

👁️ 0 | 🔗 | 💖 | ✨ | 🌍 | ⌚
**UTF-8** (_8-bit Unicode Transformation Format_ - _Định dạng chuyển đổi Unicode 8-bit_) là một bộ mã hóa ký tự với chiều rộng biến thiên dành cho Unicode. Tương tự như UTF-16 và UTF-32, UTF-8 có
utf-8 charset {} thân máy, ul, ol, dl, dd, dt, li, a, h1, h2, h3, h4, h5, h6, from, table, tr, td, th, textarea, input, button, select, p {padding: 0;lề: 0;} img {border: 0;} thân
utf-8 charset {} thân máy, ul, ol, dl, dd, dt, li, a, h1, h2, h3, h4, h5, h6, from, table, tr, td, th, textarea, input, button, select, p {padding: 0;lề: 0;} img {border: 0;} thân
utf-8 charset {} thân máy, ul, ol, dl, dd, dt, li, a, h1, h2, h3, h4, h5, h6, from, table, tr, td, th, textarea, input, button, select, p {padding: 0;lề: 0;} img {border: 0;} thân
utf-8 charset {} thân máy, ul, ol, dl, dd, dt, li, a, h1, h2, h3, h4, h5, h6, from, table, tr, td, th, textarea, input, button, select, p {padding: 0;lề: 0;} img {border: 0;} thân
thumb|[[Băng đục lỗ với từ "Wikipedia" được biên mã theo ASCII. Sự xuất hiện và không xuất hiện một lỗ lần lượt tượng trưng cho 1 và 0; ví dụ, "W" được biên mã thành
**Amartya Kumar Sen** (sinh ngày 3 tháng 11 năm 1933) là nhà kinh tế học, triết gia Ấn Độ. Năm 1998, ông được trao giải Nobel kinh tế (tức giải thưởng về khoa học kinh
**XML** (viết tắt từ , tức "**Ngôn ngữ đánh dấu mở rộng**") là ngôn ngữ đánh dấu với mục đích chung do W3C đề nghị, để tạo ra các ngôn ngữ đánh dấu khác. Đây
**Notepad** là một trình soạn thảo văn bản đơn giản cho Microsoft Windows và một chương trình chỉnh sửa văn bản cơ bản cho phép người dùng máy tính tạo tài liệu. Nó được phát
**Hồ Thành Việt** (20 tháng 7 năm 1955 tại Nha Trang - 28 tháng 8 năm 2003) (còn có tên tiếng Anh là **John Ho**) là một kỹ sư điện toán người Mỹ gốc Việt.
Apache **Log4j** là một trình ghi nhật ký trên nền tảng Java. Ban đầu, Log4j được phát triển bởi Ceki Gülcü và hiện nay là một dự án của Quỹ Phần mềm Apache. Log4j là
**WinRAR** là phần mềm nén tập tin và dữ liệu do Yevgeny Roshal phát triển. Bản đầu tiên ra mắt là vào mùa thu năm 1993. Đây là một phần mềm thương mại. WinRAR có
nhỏ|Hypertext Transfer Protocol **HTTP** (tiếng Anh: **HyperText Transfer Protocol** - _Giao thức truyền tải siêu văn bản_) là một giao thức lớp ứng dụng nằm trong bộ giao thức dành cho hệ thống thông tin
nhỏ|alt=Solar oven|Solar oven nhỏ|alt=Parabolic Solar Cooker|Parabolic Solar Cooker nhỏ|Một bếp năng lượng Mặt Trời đơn giản. nhỏ|Một bếp năng lượng Mặt Trời dùng gương lõm. **Bếp năng lượng Mặt Trời** là một thiết bị giữ
**Lập trình meta** hay còn gọi là **siêu lập trình** là việc tiến hành một trong hai thao tác (hay cả hai) sau: * Công việc viết một chương trình máy tính mà chương trình
**HTML động** hay **DHTML** (viết tắt tiếng Anh: _Dynamic HTML_) là một thể hiện của việc tạo ra một trang web bằng cách kết hợp các thành phần: ngôn ngữ đánh dấu HTML tĩnh, ngôn
**Văn bản thuần túy** (Tiếng Anh: Plain text, trái với Formatted text, styled text hay rich text) là dạng trình bày văn bản trên máy tính mà không sử dụng các định dạng văn bản
nhỏ|phải|Một hình ảnh ninja thường thấy trong văn hóa đại chúng hoặc là danh xưng để chỉ những cá nhân hay tổ chức gián điệp hoặc lính đánh thuê chuyên về hoạt động bí mật
**Ký tự rỗng** (null character) hay còn được gọi là **dấu kết rỗng** (null terminator), viết tắt: **NULL**, là một ký tự điều khiển có giá trị zero. Ký tự rỗng hiện diện ở nhiều
**Kiểu phương tiện** (trước đây gọi là **kiểu MIME**) là định danh hai phần cho định dạng file và nội dung định dạng được truyền trên Internet. Internet Assigned Numbers Authority (IANA) là cơ quan
**Apache Kafka** là một nền tảng theo kiến trúc phân tán cho phép lưu trữ sự kiện và xử lý dữ liệu luồng (streaming) mã nguồn mở được phát triển bởi Apache Software Foundation được
**Notepad2** là một trình chỉnh sửa text nguồn mở cho Microsoft Windows, phát hành dưới giấy phép phần mềm BSD. Phần mềm được viết bởi Florian Balmer sử dụng thành phần chỉnh sửa Scintilla, và
là bộ anime thuộc series Gundam của Nhật Bản do Fukuda Mitsuo đạo diễn và được sản xuất bởi công ty Sunrise. Tương tự như các loạt phim Gundam đi trước, tuy vẫn lấy bối
**Bugzilla** là một hệ thống giám sát lỗi và công cụ kiểm tra lỗi mục đích chung dựa trên web ban đầu được phát triển và sử dụng bởi dự án Mozilla và được cấp
**SHA** (Secure Hash Algorithm hay Thuật toán Băm An toàn) là năm thuật toán được chấp nhận bởi FIPS dùng để chuyển một đoạn dữ liệu nhất định thành một đoạn dữ liệu có chiều
**Red Hat Linux**, được phát triển bởi công ty RedHat, là hệ điều hành dựa trên Linux phổ biến cho đến khi ngừng phát triển trong năm 2004. Red Hat Linux 1.0 được phát hành
**Trương Dư Hi** (giản thể: 张予曦, phồn thể: 張予曦, bính âm: _Zhāng Yǔxī_; sinh ngày 30 tháng 1 năm 1991) là nữ diễn viên, người mẫu người Trung Quốc trực thuộc công ty giải trí
**Raoul Wallenberg** (4.8.1912 – 17.7.1947) là doanh nhân, nhà ngoại giao và người theo chủ nghĩa nhân đạo người Thụy Điển. Ông rất nổi tiếng về những nỗ lực thành công để cứu hàng ngàn
Trang đầu _[[Phép giảng tám ngày_ in năm 1651 của nhà truyền giáo Alexandre de Rhodes. Bên trái là tiếng Latinh, bên phải là tiếng Việt viết bằng chữ Quốc ngữ.]] **Chữ Quốc ngữ** là
**Pháo đài Brest** (tiếng Belarus: _Берасьцейская крэпасьць_, tiếng Nga: **Брестская крепость**, tiếng Anh: **The Brest Fortress** hay **Fortress of War**) là một bộ phim lịch sử - chiến tranh Nga sản xuất năm 2010 để
**Joomla!** là một hệ quản trị nội dung nguồn mở, được cung cấp miễn phí theo giấy phép GNU. Joomla được phát triển từ Mambo, được viết bằng ngôn ngữ PHP và kết nối tới
**TWiki** là một ứng dụng wiki dựa trên ngôn ngữ lập trình Perl. Dự án TWiki được lập bởi Peter Thoeny vào năm 1998 như là một nền tảng ứng dụng dựa trên wiki mã
thumb|Minh họa mã nguồn [[Java (programming language)|Java với comment **mở đầu** được biểu thị bằng màu **đỏ** và comment **nội dòng** bằng màu **lục**. **Mã chương trình** là bằng màu **lam**.]]Trong lập
**43 Club** hay **"The 43"** là một hộp đêm ở [http://maps.google.co.uk/maps?source=ig&hl=en&rlz=1G1GGLQ_ENUK314&lr=&um=1&ie=UTF-8&q=43+gerrard+street&fb=1&gl=uk&hq=43+gerrard+street&hnear=London&cid=0,0,17097337536659122434&ei=DFwIS7LyCc_14AalmbS5Cw&sa=X&oi=local_result&ct=image&resnum=1&ved=0CAgQnwIwAA 43 phố Gerrard], Soho, London, nơi đã trở nên khét tiếng trong suốt những năm 20 vì những bữa tiệc thác loạn mà giới
**_Unidentified Mysterious Girlfriend_** (; ) là một bộ phim truyền hình Thái Lan phát sóng năm 2023 với sự tham gia của Korapat Kirdpan (Nanon), Tipnaree Weerawatnodom (Namtan) và [https://www.google.com/search?gs_ssp=eJzj4tVP1zc0LE43yjEqrDI1YPTiys3MyVYoSMwrTgQAb4UIbg&q=milk+pansa&rlz=1C1CHBF_enVN979VN979&oq=m&gs_lcrp=EgZjaHJvbWUqDAgCEC4YJxiABBiKBTIGCAAQRRg7MgYIARBFGDsyDAgCEC4YJxiABBiKBTIGCAMQRRg8MgYIBBBFGDwyBggFEEUYPDIGCAYQRRhBMgYIBxBFGDzSAQgxMTY3ajBqN6gCALACAA&sourceid=chrome&ie=UTF-8 Pansa Vosbein] (Milk). Bộ phim
**Ruby** là một ngôn ngữ lập trình hướng đối tượng, có khả năng phản ứng. Theo tác giả, Ruby chịu ảnh hưởng bởi Perl, Smalltalk, Eiffel, Ada và Lisp. Ruby cung cấp nhiều mẫu hình
nhỏ|Ký hiệu A còng, một phần của địa chỉ Email SMTP. **Thư điện tử** hay **hòm thư điện tử** (**email** hay **e-mail**) là một phương thức trao đổi tin nhắn giữa những người sử dụng
**Phương án bính âm Hán ngữ** (giản thể: 汉语拼音方案, phồn thể: 漢語拼音方案, Hán Việt: _Hán ngữ bính âm phương án_), thường gọi ngắn là **bính âm**, **phanh âm** hay **pinyin**, là cách thức sử dụng
**Windows Contacts** là trình quản lý thông tin liên lạc trong Windows Vista thay thế phần lớn các chức năng của Windows Address Book. Windows Mail được tích hợp với chương trình này. Windows Contacts
nhỏ|Email trên nền web Thuật ngữ **Email trên nền web** và **Webmail** ám chỉ việc hiện thực một chương trình xem e-mail dưới dạng một ứng dụng web cho phép người dùng truy cập e-mail
nhỏ|300x300px|Cách xác định Đường trung trực trên một đoạn thẳng Trong hình học phẳng, **đường trung trực** của một đoạn thẳng là đường thẳng vuông góc với đoạn thẳng ban đầu tại trung điểm của
**Smarty** là một hệ thống tạo mẫu web (web template system) được viết bằng ngôn ngữ lập trình PHP, thường được quảng bá như một công cụ phân tách mã nguồn sao cho mỗi phần
liên_kết=https://vi.wikipedia.org/wiki/T%E1%BA%ADptin:Leafpad-screenshot.png|phải|nhỏ|Các trình chỉnh sửa như [[Leafpad, được hiển thị ở đây, thường được bao gồm trong hệ điều hành như một ứng dụng trợ giúp mặc định để mở tệp văn bản.]] **Trình soạn thảo
**BitLord** là trình khách BitTorrent viết bằng ngôn ngữ lập trình C++ chạy trên hệ điều hành Windows. Mặc dù BitLord là phần mềm có quảng cáo nhưng nó được đánh giá là không chứa
phải|_[[Những người Zaporozhe (tranh)|Người Zaporozhe viết thư cho sultan Thổ Nhĩ Kỳ_. Tranh của Ilya Repin từ năm 1880 tới năm 1891.]] phải|Một gia đình cossaks người mỹ vào những năm 1950 phải|Một binh đoàn
**Damsdorf**[http://maps.google.com/maps?hl=en&q=Damsdorf,+Germany&um=1&ie=UTF-8&sa=X&oi=geocode_result&resnum=1&ct=title] là một đô thị ở huyện Segeberg, bang Schleswig-Holstein, Đức. Đô thị Damsdorf có diện tích 7,76 km², dân số thời điểm ngày 31 tháng 12 năm 2006 là 247 người.
**R** là một ngôn ngữ lập trình và môi trường phần mềm dành cho tính toán và đồ họa thống kê. Đây là một bản hiện thực ngôn ngữ lập trình S với ngữ nghĩa
**mIRC** là một ứng dụng máy lẻ (client) cho hệ điều hành Windows thuộc nhóm ứng dụng Internet Relay Chat được dùng để tán gẫu, giao lưu, chia sẻ hoặc giao tiếp công việc với
khung|Query String trong URL khi người dùng truy cập vào trang chính của en.wikipedia.org Trên mạng lưới World Wide Web, một **chuỗi truy vấn** () là một phần của một URL chứa dữ liệu không
**SOAP** (viết tắt từ tiếng Anh _Simple Object Access Protocol_) là một giao thức do W3C định nghĩa . SOAP áp dụng XML để xác định dữ liệu dạng văn bản (plain text) qua HTTP