✨Base64

Base64

Trong lập trình, Base64 là nhóm lược đồ mã hóa nhị phân thành văn bản đại diện cho dữ liệu nhị phân (cụ thể hơn là chuỗi byte 8 bit) ở định dạng chuỗi ASCII bằng việc dịch dữ liệu sang biểu diễn cơ số 64. Thuật ngữ Base64 bắt nguồn từ một mã hóa truyền nội dung MIME. Mỗi chữ số Base64 không phải là đại diện cuối cùng cho chính xác 6 bit dữ liệu. Do đó, ba byte 8 bit (24 bit) có thể được biểu diễn bằng bốn chữ số Base64 6 bit.

Thông thường tất cả các lược đồ mã hóa nhị phân thành văn bản, Base64 được thiết kế để mang dữ liệu được lưu trữ ở định dạng nhị phân qua các kênh chỉ hỗ trợ nội dung văn bản một cách đáng tin cậy. Base64 đặc biệt phổ biến trên World Wide Web trong đó các công dụng của nó bao gồm khả năng đính các tệp hình ảnh hoặc các nội dung nhị phân khác vào bên trong các nội dung văn bản như tệp HTML và CSS.

Base64 cũng được sử dụng rộng rãi để gửi các tệp đính kèm email. Điều này bắt buộc vì SMTP chỉ được thiết kế để vận chuyển các ký tự ASCII 7-bit. Chi phí phải trả cho mã hóa này là 33–36% (33% bởi chính mã hóa; thêm tối đa 3% do ngắt dòng được chèn).

Thiết kế

Bộ 64 ký tự cụ thể được chọn để đại diện cho các giá trị 64 chữ số cho cơ sở khác nhau giữa các lần triển khai. Chiến lược chung là chọn 64 ký tự phổ biến cho hầu hết các bảng mã và cũng có thể in được. Sự kết hợp này khiến dữ liệu khó có thể bị sửa đổi khi truyền qua các hệ thống thông tin, chẳng hạn như email, theo truyền thống không phải là 8-bit clean. Ví dụ, triển khai Base64 của MIME, ta sử dụng A-Z, a-z, và 0-9 cho 62 giá trị đầu tiên. Các biến thể khác chia sẻ thuộc tính này nhưng khác nhau về các ký hiệu được chọn cho hai giá trị cuối cùng; một ví dụ là UTF-7.

Các trường hợp sớm nhất của kiểu mã hóa này được tạo ra để liên lạc quay số giữa các hệ thống chạy cùng một hệ điều hành. Ví dụ: uuencode cho UNIX và BinHex cho TRS-80 (sau này được điều chỉnh cho Macintosh), và do đó có thể đưa ra nhiều giả định hơn về những ký tự nào an toàn để sử dụng. Ví dụ: uuencode sử dụng chữ hoa, chữ số và nhiều ký tự dấu câu, nhưng không sử dụng chữ thường.

Bảng Base64

Bảng mục lục các ký tự của Base64:

Ví dụ

Ví dụ dưới đây sử dụng văn bản ASCII để đơn giản hóa, nhưng đây không phải là trường hợp sử dụng điển hình vì nó đã có thể được chuyển một cách an toàn qua tất cả các hệ thống có thể xử lý Base64. Việc sử dụng điển hình hơn là mã hóa dữ liệu nhị phân (chẳng hạn như hình ảnh); dữ liệu Base64 kết quả sẽ chỉ chứa 64 ký tự ASCII khác nhau, tất cả đều có thể được chuyển qua các hệ thống một cách đáng tin cậy có thể làm hỏng các byte nguồn thô.

Đây là một thành ngữ nổi tiếng từ Điện toán "phân tán":

Khi trích dẫn được mã hóa thành Base64, nó được biểu diễn dưới dạng chuỗi byte gồm các ký tự ASCII có đệm 8 bit được mã hóa trong lược đồ Base64 của MIME như sau (dòng mới và khoảng trắng có thể xuất hiện ở bất kỳ đâu nhưng sẽ bị bỏ qua khi giải mã):

Trong phần trích dẫn trên, giá trị được mã hóa của Man là TWFu. Được mã hóa bằng ASCII, các ký tự M, a và n được lưu trữ dưới dạng giá trị byte 77, 97, và 110, là giá trị nhị phân 8 bit của 01001101, 01100001,và 01101110. Ba giá trị này được nối với nhau thành một chuỗi 24 bit, tạo ra 010011010110000101101110. Các nhóm gồm 6 bit (6 bit có tối đa 26 = 64 giá trị nhị phân khác nhau) được chuyển đổi thành các số riêng lẻ từ trái sang phải (trong trường hợp này, có bốn số trong một chuỗi 24 bit), sau đó được chuyển đổi thành giá trị ký tự Base64 tương ứng.

Như ví dụ này minh họa, mã hóa Base64 chuyển đổi ba octet thành bốn ký tự được mã hóa.

= các ký tự đệm có thể được thêm vào để làm cho khối được mã hóa cuối cùng chứa bốn ký tự Base64.

Phép chuyển đổi hệ thập lục phân sang hệ bát phân rất hữu ích để chuyển đổi giữa hệ nhị phân và Base64. Cả đối với máy tính nâng cao và ngôn ngữ lập trình, chuyển đổi như vậy đều có sẵn. Ví dụ: 24 bit ở trên - khi được chuyển đổi sang hệ thập lục phân - là 4D616E. 24 bit đó - khi được chuyển đổi thành bát phân là 23260556. 8 chữ số bát phân đó - khi được chia thành bốn nhóm là 23 26 05 56. Mỗi nhóm 2 chữ số - khi chuyển đổi sang thập phân là 19 22 05 46. Sử dụng bốn số thập phân đó số làm chỉ số cho bảng chỉ mục Base64, các ký tự ASCII tương ứng là TWFu.

Nếu chỉ có hai octet đầu vào quan trọng (ví dụ: 'Ma') hoặc khi nhóm đầu vào cuối cùng chỉ chứa hai octet, tất cả 16 bit sẽ được ghi lại trong ba chữ số Base64 đầu tiên (18 bit); hai bit ít quan trọng nhất của khối 6 bit mang nội dung cuối cùng sẽ trở thành 0 và bị loại bỏ khi giải mã (cùng với = ký tự đệm):

Nếu chỉ có một octet đầu vào có nghĩa (ví dụ: 'M') hoặc trong đó hai chữ số Base64 đầu tiên (12 bit); bốn bit ít quan trọng nhất của khối 6 bit mang nội dung cuối cùng sẽ trở thành 0 và bị loại bỏ khi giải mã (cùng với hai = ký tự đệm):

Đệm đầu ra

Bởi vì Base64 là mã hóa sáu bit và vì các giá trị được giải mã được chia thành các bộ tám 8 bit trên máy tính hiện đại, nên cứ bốn ký tự của văn bản được mã hóa Base64 (4 sextet = 4 × 6 = 24 bit) đại diện cho ba bộ tám chưa được mã hóa văn bản hoặc dữ liệu (3 octet = 3 × 8 = 24 bit). Điều này có nghĩa là khi độ dài của đầu vào không được mã hóa không phải là bội số của ba, thì đầu ra được mã hóa phải được thêm phần đệm để chiều dài của nó là bội số của bốn. Ký tự đệm là =, cho biết rằng không cần thêm bit nào để mã hóa đầy đủ đầu vào. (Điều này khác với A, có nghĩa là các bit còn lại đều là số không.) Ví dụ dưới đây minh họa cách cắt bớt đầu vào của câu trích dẫn trên thay đổi phần đệm đầu ra:

Ký tự đệm không cần thiết để giải mã, vì số byte bị thiếu có thể được suy ra từ độ dài của văn bản được mã hóa. Trong một số triển khai, ký tự đệm là bắt buộc, trong khi đối với những cách khác, ký tự này không được sử dụng. Một ngoại lệ trong đó các ký tự đệm là bắt buộc khi nhiều tệp được mã hóa Base64 đã được nối với nhau.

Giải mã Base64 với ký tự đệm

Khi giải mã văn bản Base64, bốn ký tự thường được chuyển đổi trở lại thành ba byte. Các ngoại lệ duy nhất là khi các ký tự đệm tồn tại. Một = chỉ ra rằng bốn ký tự sẽ chỉ giải mã thành hai byte, trong khi == chỉ ra rằng bốn ký tự sẽ chỉ giải mã thành một byte duy nhất. Ví dụ:

Giải mã Base64 không có ký tự đệm

Nếu không có phần đệm, sau khi giải mã bình thường từ bốn ký tự đến ba byte lặp đi lặp lại, có thể còn lại ít hơn bốn ký tự được mã hóa. Trong tình huống này, chỉ có thể còn lại hai hoặc ba ký tự. Một ký tự được mã hóa còn lại là không thể thực hiện được vì một ký tự Base64 chỉ chứa 6 bit và 8 bit được yêu cầu để tạo một byte, vì vậy cần có tối thiểu hai ký tự Base64: Ký tự đầu tiên đóng góp 6 bit và ký tự thứ hai đóng góp 2 bit đầu tiên của nó. Ví dụ:

Phát triển và lịch sử

Bảng tóm tắt các biến thể

Việc triển khai có thể có một số ràng buộc đối với bảng chữ cái được sử dụng để biểu diễn một số mẫu bit. Điều này đáng chú ý liên quan đến hai ký tự cuối cùng được sử dụng trong bảng chỉ mục cho chỉ mục 62 và 63 và ký tự được sử dụng để đệm (có thể là bắt buộc trong một số giao thức hoặc bị loại bỏ trong các giao thức khác). Bảng dưới đây tóm tắt các biến thể đã biết này và cung cấp liên kết đến các phần phụ bên dưới.

Thư nâng cao quyền riêng tư

Việc sử dụng mã hóa chuẩn hóa đầu tiên được biết đến hiện nay được gọi là MIME Base64 nằm trong giao thức Thư điện tử nâng cao quyền riêng tư (PEM), được đề xuất bởi vào năm 1987. PEM định nghĩa một lược đồ "mã hóa có thể in" sử dụng mã hóa Base64 để biến đổi một chuỗi octet tùy ý sang một định dạng có thể được thể hiện bằng các dòng ngắn gồm các ký tự 6 bit, theo yêu cầu của các giao thức truyền như SMTP.

Phiên bản hiện tại của PEM (được chỉ định trong ) sử dụng bảng chữ cái 64 ký tự bao gồm các chữ cái La Mã viết hoa và viết thường (AZ, az), các chữ số (09), và các ký tự +/ . Ký tự = cũng được sử dụng như một hậu tố đệm.

Bảng chữ cái "Modified Base64" bao gồm bảng chữ cái MIME Base64 nhưng không sử dụng ký tự đệm "=". UTF-7 được thiết kế để sử dụng trong tiêu đề thư (được định nghĩa trong ),và ký tự "=" là được dành riêng trong ngữ cảnh đó làm ký tự thoát cho mã hóa "có thể in được trích dẫn". Base64 được sửa đổi chỉ cần bỏ qua phần đệm và kết thúc ngay sau chữ số Base64 cuối cùng chứa các bit hữu ích để lại tối đa ba bit không sử dụng trong chữ số Base64 cuối cùng.

OpenPGP

OpenPGP, được dựa trên , mô tả mã hóa Radix-64, còn được gọi là "ASCII armor". Radix-64 giống với kiểu mã hóa "Base64" được mô tả từ MIME, với việc bổ sung CRC 24 bit tùy chọn. Tổng kiểm tra được tính toán trên dữ liệu đầu vào trước khi mã hóa; sau đó tổng kiểm tra được mã hóa bằng cùng một thuật toán Base64 và tiền tố là ký tự "=" như một dấu phân cách, được nối vào dữ liệu đầu ra được mã hóa.

RFC 3548

, có thể Mã hóa dữ liệu Base16, Base32 và Base64 là một bản ghi nhớ thông tin (không quy chuẩn) cố gắng thống nhất và thông số kỹ thuật của mã hóa Base64, mã hóa bảng chữ cái thay thế và mã hóa Base32 (hiếm khi được sử dụng) và Base16.

Trừ khi các triển khai được viết cho một thông số kỹ thuật đề cập đến và đặc biệt yêu cầu khác, RFC 3548 cấm việc triển khai tạo thông báo có chứa các ký tự bên ngoài bảng chữ cái mã hóa hoặc không có phần đệm và nó cũng tuyên bố rằng việc triển khai bộ giải mã phải từ chối dữ liệu có chứa các ký tự bên ngoài bảng chữ cái mã hóa. cung cấp chức năng mã hóa và giải mã Base64 cho các trang web. Phương thức btoa() xuất ra các ký tự đệm, nhưng các ký tự này là tùy chọn trong đầu vào của phương thức atob().

Các ứng dụng khác

link=|nhỏ|Example of an SVG containing embedded JPEG images encoded in Base64 Base64 có thể được sử dụng trong nhiều ngữ cảnh khác nhau:

  • Base64 có thể được sử dụng để truyền và lưu trữ văn bản có thể gây ra xung đột dấu phân cách.
  • Những kẻ gửi thư rác sử dụng Base64 để trốn tránh các công cụ chống gửi thư rác cơ bản, những công cụ này thường không giải mã được Base64 và do đó không thể phát hiện ra các từ khóa trong các thư được mã hóa.
  • Base64 được sử dụng để mã hóa chuỗi ký tự trong tệp LDIF.
  • Base64 thường được sử dụng để "nhúng" dữ liệu nhị phân vào tệp XML, sử dụng cú pháp tương tự như ví dụ. biểu tượng yêu thích trong Firefox xuất ra bookmarks.html.
  • Base64 được sử dụng để mã hóa các tệp nhị phân chẳng hạn như hình ảnh trong các tập lệnh, để tránh phụ thuộc vào các tệp bên ngoài.
  • Lược đồ URI dữ liệu có thể sử dụng Base64 để biểu diễn nội dung tệp. Ví dụ: hình nền và phông chữ có thể được chỉ định trong tệp biểu định kiểu CSS dưới dạng URIs data:, thay vì được cung cấp trong các tệp riêng biệt.
  • Việc triển khai FreeSWAN IPSec đứng trước chuỗi Base64 bằng 0s, vì vậy chúng có thể được phân biệt với chuỗi văn bản hoặc chuỗi thập lục phân.
  • Mặc dù không phải là một phần của thông số kỹ thuật chính thức cho SVG, một số người xem có thể hiểu Base64 khi được sử dụng cho các phần tử "nhúng", chẳng hạn như hình ảnh bên trong SVG.

Các ứng dụng Radix-64 không tương thích với Base64

  • Uuencoding, tthường được sử dụng trên UNIX, sử dụng ASCII 32 liên tiếp (  (khoảng trống)) đến 95 (), tạo thành bộ 64 ký tự  !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[]^. Việc tránh sử dụng tất cả các chữ cái viết thường rất hữu ích vì nhiều máy in cũ chỉ in chữ hoa. Sử dụng các ký tự ASCII liên tiếp giúp tiết kiệm sức mạnh tính toán vì chỉ cần thêm 32 ký tự, không phải tra cứu. Việc sử dụng hầu hết các ký tự dấu câu và ký tự khoảng trắng làm hạn chế tính hữu dụng của nó.
  • BinHex 4 (HQX), vốn được sử dụng trong Mac OS cổ điển, sử dụng một bộ 64 ký tự khác. Nó sử dụng các chữ cái viết hoa và viết thường, các chữ số và các ký tự chấm câu, nhưng không sử dụng một số ký tự dễ gây nhầm lẫn trực quan như 7, O, go'. Bộ 64 ký tự của nó là !"#$%&'()*+,-012345689@ABCDEFGHIJKLMNPQRSTUVXYZ[`abcdefhijklmpqr.
  • Một số ứng dụng khác sử dụng các bộ cơ số 64 tương tự hơn nhưng theo thứ tự khác với định dạng Base64, bắt đầu bằng hai ký hiệu, sau đó là chữ số, sau đó viết hoa, rồi viết thường: Unix lưu trữ các băm mật khẩu được tính bằng crypt trong tệp /etc/passwd sử dụng mã hóa cơ số 64 được gọi là B64. Nó sử dụng một bộ ký tự chủ yếu là chữ và số, có thêm ./. Bộ 64 ký tự của nó là ./0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz. Ký tự đệm không được sử dụng. GEDCOM 5.5 tiêu chuẩn được dùng để trao đổi dữ liệu phả hệ mã hóa các tệp đa phương tiện ở định dạng tệp phân cấp dòng văn bản bằng cách sử dụng cơ số 64. Bộ 64 ký tự của nó cũng là "./0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz". bcrypt được thiết kế để sử dụng theo cách tương tự như crypt (3) truyền thống và thuật toán sử dụng một bảng chữ cái tương tự nhưng được hoán vị. Bộ 64 ký tự của nó là ./ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789. Xxencoding sử dụng bộ ký tự chủ yếu là chữ và số tương tự như crypt và GEDCOM, nhưng sử dụng +- còn hơn là sử dụng ./. Bộ 64 ký tự của nó là +-0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz. 6PACK, được sử dụng với một số bộ điều khiển nút đầu cuối, sử dụng một bộ 64 ký tự khác nhau từ 0x00 đến 0x3f. Bash hỗ trợ các ký tự số trong cơ số 2-64, kéo dài đến một bộ ký tự của 0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ@_.
👁️ 2 | 🔗 | 💖 | ✨ | 🌍 | ⌚
Trong lập trình, **Base64** là nhóm lược đồ mã hóa nhị phân thành văn bản đại diện cho dữ liệu nhị phân (cụ thể hơn là chuỗi byte 8 bit) ở định dạng chuỗi ASCII
**Cicada 3301** (tạm dịch: **Ve sầu 3301**) là biệt danh của một tổ chức đã ba lần đăng tải một chuỗi các câu đố với mục đích chiêu mộ những "tài năng" từ khắp nơi
nhỏ|Những nghiên cứu phủ nhận quá trình ấm lên toàn cầu do con người gây nên được kiểm duyệt bởi hội đồng chuyên gia là gần như không tồn tại trong khoảng 2013-14. Hơn 99.99%
**Acid2** là một trang thử nghiệm được Web Standards Project xuất bản và quảng bá để thể hiện các lỗi hiển thị trang web trong trình duyệt web và các ứng dụng khác hiển thị
**Lingoes** là một phần mềm dịch thuật, từ điển, phát hành dưới dạng tiện ích phần mềm miễn phí. Phiên bản đầu tiên của phần mềm được phát hành ngày 1 tháng 9 năm 2006,