✨Entropy thông tin

Entropy thông tin

Entropy thông tin là một khái niệm mở rộng của entropy trong nhiệt động lực học và cơ học thống kê sang cho lý thuyết thông tin.

Entropy thông tin mô tả mức độ hỗn loạn trong một tín hiệu lấy từ một sự kiện ngẫu nhiên. Nói cách khác, entropy cũng chỉ ra có bao nhiêu thông tin trong tín hiệu, với thông tin là các phần không hỗn loạn ngẫu nhiên của tín hiệu.

Ví dụ, nhìn vào một dòng chữ tiếng Việt, được mã hóa bởi các chữ cái, khoảng cách, và dấu câu, tổng quát là các ký tự. Dòng chữ có ý nghĩa sẽ không hiện ra một cách hoàn toàn hỗn loạn ngẫu nhiên; ví dụ như tần số xuất hiện của chữ cái x sẽ không giống với tần số xuất hiện của chữ cái phổ biến hơn là t. Đồng thời, nếu dòng chữ vẫn đang được viết hay đang được truyền tải, khó có thể đoán trước được ký tự tiếp theo sẽ là gì, do đó nó có mức độ ngẫu nhiên nhất định. Entropy thông tin là một thang đo mức độ ngẫu nhiên này.

Khái niệm này lần đầu giới thiệu bởi Claude E. Shannon trong bài báo "[http://cm.bell-labs.com/cm/ms/what/shannonday/paper.html A Mathematical Theory of Communication] ", năm 1948. Trước đó von Neumann đã dùng đến công thức có entropy vào năm 1927.

Định nghĩa

Claude E. Shannon đã xây dựng định nghĩa về entropy để thoả mãn các giả định sau:

  • Entropy phải tỷ lệ thuận liên tục với các xác suất xuất hiện của các phần tử ngẫu nhiên trong tín hiệu. Thay đổi nhỏ trong xác suất phải dẫn đến thay đổi nhỏ trong entropy.
  • Nếu các phần tử ngẫu nhiên đều có xác suất xuất hiện bằng nhau, việc tăng số lượng phần tử ngẫu nhiên phải làm tăng entropy.
  • Có thể tạo các chuỗi tín hiệu theo nhiều bước, và entropy tổng cộng phải bằng tổng có trọng số của entropy của từng bước.

Shannon cũng chỉ ra rằng bất cứ định nghĩa nào của entropy, cho một tín hiệu có thể nhận các giá trị rời rạc, thoả mãn các giả định của ông thì đều có dạng:

::-K\sum_{i=1}^np(i)\log p(i).\,!

với

  • K là một hằng số, chỉ phụ thuộc vào đơn vị đo.
  • n là tổng số các giá trị có thể nhận của tín hiệu.
  • i là giá trị rời rạc thứ i.
  • p(i) là xác suất xuất hiện của giá trị i.

Ngẫu nhiên rời rạc

nhỏ|Entropy của một [[phép thử Bernoulli được vẽ như một hàm số theo xác suất thành công, thường gọi là hàm entropy nhị phân.]] Nếu một sự kiện ngẫu nhiên rời rạc x, có thể nhận các giá trị là 1..n, thì entropy của nó là:

:H(x)=\sum_{i=1}^np(i)\log2 \left(\frac{1}{p(i)}\right)=-\sum{i=1}^np(i)\log_2 p(i).\,!

với p(i) là xác suất xảy ra của giá trị i. Như vậy, entropy của x cũng là giá trị kì vọng của các độ ngạc nhiên của các giá trị mà x có thể nhận.

Entropy thông tin trong trường hợp phần tử tín hiệu ngẫu nhiên rời rạc còn được gọi là entropy Shannon.

Ngẫu nhiên liên tục

Nếu x là số thực ngẫu nhiên liên tục, thì định nghĩa entropy có thể được biểu diễn là:

:h[f] = -\int_{-\infty}^{\infty} f(x) \log f(x)\, dx,\quad

với f là hàm mật độ xác suất. Định nghĩa này thường được gọi là entropy Boltzmann hay entropy liên tục, hay entropy vi phân.

Có thể chứng minh rằng entropy Boltzmann không phải là giới hạn của entropy Shannon khi n → ∞ và do đó không phải là độ đo mức độ hỗn loạn của thông tin.

Ví dụ

Một dòng chữ luôn chỉ có các ký tự "a" sẽ có entropy bằng 0, vì ký tự tiếp theo sẽ luôn là "a". Một dòng chữ chỉ có hai ký tự 0 và 1 ngẫu nhiên hoàn toàn sẽ có entropy là 1 bit cho mỗi ký tự.

Một dòng chữ tiếng Anh thông thường có entropy khoảng 1,1 đến 1,6 bit cho mỗi ký tự. Thuật toán nén PPM có thể tạo ra tỷ lệ nén 1,5 bit cho mỗi ký tự. Trên thực tế, tỷ lệ nén của các thuật toán nén thông dụng có thể được dùng làm ước lượng cho entropy của dữ liệu.

Entropy của dòng văn bản thuần thường được định nghĩa dựa trên mô hình Markov. Nếu các ký tự tiếp theo hoàn toàn độc lập với các ký tự trước đó, entropy nhị phân sẽ là: :H(\mathcal{S}) = - \sum p_i \log_2 p_i, \,! với pi là xác suất của i.

Liên hệ với cơ học thống kê

Định nghĩa entropy của Shannon có liên hệ chặt chẽ với định nghĩa entropy trong cơ học thống kê. Chính các công trình của Ludwig Boltzmann hay Willard Gibbs trong cơ học thống kê đã kích thích việc sử dụng từ entropy trong lý thuyết thông tin. Theo Edwin Thompson Jaynes (1957), thực tế cơ học thống kê và nhiệt động lực học có thể coi là ứng dụng của lý thuyết thông tin: entropy trong nhiệt động lực học có thể cọi là độ đo của thông tin vi mô (mô tả các trạng thái vi mô của từng phần tử trong hệ vật lý) mà chưa được mô tả hết bởi các thông số vĩ mô của hệ nhiệt động lực học.

Ví dụ về tương quan giữa entropy nhiệt động lực học và entropy thông tin còn được thể hiện ở con quỷ Maxwell. Quỷ Maxwell có thể tạo ra được khi nó làm giảm entropy nhiệt động lực học nhưng làm tăng entropy thông tin và cả hệ vẫn tuân thủ định luật hai nhiệt động lực học với tổng entropy không đổi và quá trình hoạt động của quỷ là thuận nghịch.

👁️ 3 | 🔗 | 💖 | ✨ | 🌍 | ⌚
**Entropy thông tin** là một khái niệm mở rộng của entropy trong nhiệt động lực học và cơ học thống kê sang cho lý thuyết thông tin. Entropy thông tin mô tả mức độ hỗn
**Lý thuyết thông tin** là một nhánh của toán học ứng dụng và kĩ thuật điện nghiên cứu về đo đạc lượng thông tin. Lý thuyết thông tin được xây dựng bởi Claude E. Shannon
nhỏ|Mã [[ASCII cho từ " Wikipedia " được biểu thị dưới dạng nhị phân, hệ thống số được sử dụng phổ biến nhất để mã hóa thông tin máy tính văn bản]] **Thông tin** có
:_Với entropy trong lý thuyết thông tin, xem entropy thông tin. Kết hợp của cả hai, xem Entropy trong nhiệt động học và lý thuyết thông tin. Với các cách dùng khác, xem Entropy (định
**Con quỷ Maxwell** là một thí nghiệm tưởng tượng của nhà vật lý người Scotland, James Clerk Maxwell, thực hiện vào năm 1867, để tìm hiểu về định luật hai của nhiệt động lực học.
**Nguyên lý Landauer**, lần đầu được nêu vào năm 1961 bởi Rolf Landauer ở IBM , nói rằng :_bất cứ quá trình xử lý thông tin nào không hồi phục được, như xoá bit, luôn
Trong toán học thống kê, **phân kỳ Kullback–Leibler** (hay còn gọi là **khoảng cách Kullback–Leibler**, **entropy tương đối**) là một phép đo cách một phân phối xác suất khác biệt so với cái còn lại,
Trong lý thuyết thông tin, một chuyên ngành của toán học ứng dụng và kỹ thuật điện/điện tử, **tín hiệu** là một đại lượng vật lý chứa đựng thông tin hay dữ liệu có thể
Trong vật lý, **giới hạn Bekenstein** (đặt tên theo Jacob Bekenstein) là một chặn trên cho entropy , hay thông tin , có thể được chứa trong một vùng không gian hữu hạn với một
nhỏ|300x300px|Mạng lưới điện **Mạng lưới điện thông minh** là mạng lưới được hiện đại hóa để sử dụng hoặc áp dụng kỹ thuật số thông tin và công nghệ truyền thông để thu thập thông
Trong lý thuyết thông tin, **bất đẳng thức Fano** liên hệ lượng thông tin bị mất trên một kênh nhiễu với xác suất phân loại sai. Nó được tìm ra bởi Robert Fano đầu thập
**Mạch lượng tử**, trong lý thuyết thông tin lượng tử, là mô hình tính toán lượng tử trong đó tính toán là một chuỗi các cổng lượng tử, là các phép biến đổi thuận nghịch
**Mã hóa video hiệu quả cao** (**HEVC**), còn được gọi là **H.265** và **MPEG-H Phần 2**, là một tiêu chuẩn nén video, được thiết kế như một sự kế thừa cho AVC (H.264 hoặc MPEG-4
right|thumb|upright=1.35|alt=Graph showing a logarithmic curve, crossing the _x_-axis at _x_= 1 and approaching minus infinity along the _y_-axis.|[[Đồ thị của hàm số|Đồ thị của hàm logarit cơ số 2 cắt trục hoành tại và đi
**Mạng Bayes** (tiếng Anh: _Bayesian network_ hoặc _Bayesian belief network_ hoặc _belief network_) là một mô hình xác suất dạng đồ thị. Mạng Bayes là cách biểu diễn đồ thị của sự phụ thuộc thống
**Mẫu hình**, **hệ hình**, hay **mô phạm** (tiếng Anh: Paradigm) là một khái niệm có nhiều nghĩa hơi khác nhau. Từ cuối thế kỷ 19, từ này có nghĩa là nề nếp dạng thức suy
Trong lý thuyết xác suất và thống kê, **khoảng cách Jensen-Shannon** là một phương pháp phổ biến để đo sự tương đồng giữa hai phân bố xác suất. Nó dựa trên khoảng cách Kullback-Leibler với
**Josiah Willard Gibbs** (11 tháng 2 năm 1839 - 28 tháng 4 năm 1903) là một nhà khoa học người Mỹ đã có những đóng góp lý thuyết đáng kể cho vật lý, hóa học
[[Đĩa bồi tụ bao quanh lỗ đen siêu khối lượng ở trung tâm của thiên hà elip khổng lồ Messier 87 trong chòm sao Xử Nữ. Khối lượng của nó khoảng 7 tỉ lần khối
## Tác động Nhiều quá trình vật lý liên quan đến nhiệt độ, chẳng hạn như: * Các tính chất vật lý của vật chất bao gồm pha (rắn, lỏng, khí hoặc plasma), tỷ trọng,
**Max Karl Ernst Ludwig Planck** (23 tháng 4 năm 1858 – 4 tháng 10 năm 1947) là một nhà vật lý người Đức, được xem là người sáng lập cơ học lượng tử và do
**Giả thuyết về sự kết thúc của vũ trụ** là một chủ đề trong vật lý vũ trụ. Các giả thiết khoa học trái ngược nhau đã dự đoán ra nhiều khả năng kết thúc
thumb|mô hình đơn giản về quá trình trao đổi chất của tế bào thumb|right|Cấu trúc của [[adenosine triphosphate (ATP), một chất trung gian quan trọng trong quá trình chuyển hóa năng lượng]] **Trao đổi chất**
Trong toán học , độ **nhạy** con là một thuộc tính của một hàm nói rằng, một cách đại khái, việc đánh giá hàm cho tổng hai phần tử của miền luôn trả về giá
**Jacob David Bekenstein** ( 1 tháng 5 năm 1947 – 16 tháng 8 năm 2015) là một nhà vật lý lý thuyết người Israel–Mỹ sinh tại Mexico, người đã có những đóng góp quan trọng
**Vũ trụ vàng** là một mô hình vũ trụ học của vũ trụ. Trong các mô hình này, vũ trụ bắt đầu với một Vụ nổ lớn và mở rộng trong một thời gian, với
**Học sâu** (tiếng Anh: **deep learning**, còn gọi là **học cấu trúc sâu**) là một phần trong một nhánh rộng hơn các phương pháp học máy dựa trên mạng thần kinh nhân tạo kết hợp
nhỏ|phải|Các vật chất ở dạng khí (nguyên tử, phân tử, ion) chuyển động tự do|279x279px**Chất khí** (tiếng Anh: Gas) là tập hợp các nguyên tử hay phân tử hay các hạt nói chung trong đó
nhỏ|khóa ( Trong mật mã học, **khóa** là một đoạn thông tin điều khiển hoạt động của thuật toán mật mã hóa. Nói một cách khác, khóa là thông tin để cá biệt hóa quá
**Vận tốc âm thanh** hay **tốc độ âm thanh** là tốc độ của sự lan truyền sóng âm thanh trong một môi trường truyền âm (xét trong hệ quy chiếu mà môi trường truyền âm
right|thumb|Sơ đồ biểu diễn một quá trình Markov với hai trạng thái E và A. Mỗi số biểu diễn xác suất của quá trình Markov chuyển từ trạng thái này sang trạng thái khác theo
**Biểu đồ Ellingham** là một đồ thị chỉ ra sự phụ thuộc của sự ổn định của các hợp chất vào nhiệt độ. Phân tích này thông thường được sử dụng để lượng giá sự
**Nén hình ảnh** là một loại của nén dữ liệu được áp dụng cho hình ảnh kỹ thuật số, để giảm chi phí cho việc lưu trữ hoặc truyền tải. Các thuật toán có thể
:_Đối với hydrocarbon no chứa một hay nhiều mạch vòng, xem Cycloalkan._ nhỏ|Công thức cấu tạo của [[methan, alkan đơn giản nhất]] **Alkan** (tiếng Anh: _alkane_ ) trong hóa hữu cơ là hydrocarbon no không
**Neil L. Jamieson** là tác giả hay được trích dẫn trong các luận văn nghiên cứu về Việt Nam, bên cạnh các tên tuổi như Keith Taylor, David Marr và William Duiker... qua công trình
Trong viễn thông và điện toán, **tốc độ bit** (Tiếng Anhː **bit rate,** **bitrate;** hoặc như là biến _R_) là số bit được truyền đi hoặc xử lý trong mỗi đơn vị thời gian. Tốc
nhỏ|phải|Quyết định bản chất nó là sự lựa chọn Trong lý thuyết quyết định (chẳng hạn quản lý rủi ro), một **cây quyết định** (tiếng Anh: _decision tree_) là một đồ thị của các quyết
thumb|right|Minh họa sự nén đồng dạng **Mô đun khối** (K hoặc B) của một chất là đo đạc tính kháng lại độ nén của nó. Nó được định nghĩa là tỷ lệ của sự tăng
**_Honkai Impact 3rd_** là một game mobile nhập vai 3D hành động miễn phí được phát triển bởi miHoYo. Đây là mục thứ ba trong _sê-ri Honkai_ và là người kế thừa tinh thần của
nhỏ|Một chai [[axit axetic, một dung môi lỏng]] **Dung môi** là một chất hòa tan một chất tan, tạo ra một dung dịch. Dung môi thường là chất lỏng nhưng cũng có thể là chất
**MP3** là một dạng file đã được nén bằng cách nén dữ liệu có tổn hao (_lossy_). Nó là một dạng âm thanh được mã hóa PCM (_pulse-code modulation_) và có dung lượng nhỏ hơn
**Lý thuyết mã hóa** là nghiên cứu về các đặc tính của mã và khả năng thích ứng với các ứng dụng cụ thể của chúng. Mã được sử dụng cho nén dữ liệu, mật
thumb|Công nghệ nano DNA liên quan tới việc tạo nên những cấu trúc nano từ các [[DCM china my vn, chẳng hạn như khối tứ diện DNA này. Mỗi cạnh của tứ diện là một
**_Nguồn cội_** là một cuốn tiểu thuyết kinh dị, bí ẩn, năm 2017 của tác giả người Mỹ Dan Brown. và phần thứ năm trong series Robert Langdon của ông, tiếp theo của Thiên thần
Bài này nói về từ điển các chủ đề trong toán học. ## 0-9 * -0 * 0 * 6174 ## A * AES * ARCH * ARMA * Ada Lovelace * Adrien-Marie Legendre *
**James Clerk Maxwell** (13 tháng 6 năm 1831 – 5 tháng 11 năm 1879) là một nhà toán học, một nhà vật lý học người Scotland. Thành tựu nổi bật nhất của ông đó là thiết
nhỏ|Lực hấp dẫn làm các [[hành tinh quay quanh Mặt Trời.]] Trong vật lý học, **lực hấp dẫn**, hay chính xác hơn là **tương tác hấp dẫn,** là một hiện tượng tự nhiên mà tất
\; \exp\left(-\frac{\left(x-\mu\right)^2}{2\sigma^2} \right) \!| cdf =\frac12 \left(1 + \mathrm{erf}\,\frac{x-\mu}{\sigma\sqrt2}\right) \!| mean =\mu| median =\mu| mode =\mu| variance =\sigma^2| skewness = 0| kurtosis = 0| entropy =\ln\left(\sigma\sqrt{2\,\pi\,e}\right)\!| mgf =M_X(t)= \exp\left(\mu\,t+\frac{\sigma^2 t^2}{2}\right)| char =\phi_X(t)=\exp\left(\mu\,i\,t-\frac{\sigma^2 t^2}{2}\right)| **Phân phối
**Calci**, hay còn được viết là **canxi**, là một nguyên tố hóa học có ký hiệu **Ca** và số nguyên tử 20. Là một kim loại kiềm thổ, calci có độ phản ứng cao: nó
**Mục đích luận trong sinh học** (_Teleology in biology_) là việc diễn giải có chủ ý đặt thuyết mục đích luận (Teleology) hướng đến mục tiêu trong những giải thích về sự thích nghi của