✨Lý thuyết thông tin

Lý thuyết thông tin

Lý thuyết thông tin là một nhánh của toán học ứng dụng và kĩ thuật điện nghiên cứu về đo đạc lượng thông tin. Lý thuyết thông tin được xây dựng bởi Claude E. Shannon để xác định giới hạn cơ bản trong các hoạt động xử lý tín hiệu chẳng hạn như nén dữ liệu hay lưu trữ và truyền dẫn dữ liệu. Ngay từ những ngày đầu, nó đã mở rộng phạm vi ứng dụng ra nhiều lĩnh vực khác, bao gồm suy luận thống kê, xử lý ngôn ngữ tự nhiên, mật mã học, các mạng lưới bên cạnh mạng lưới viễn thông - chẳng hạn như trong thần kinh, sự tiến hóa và chức năng của các mã phân tử, lựa chọn mô hình trong sinh thái học, vật lý nhiệt, máy tính lượng tử, phát hiện sao chép và các hình thức phân tích dữ liệu khác.

Một độ đo cơ bản của thông tin là entropy, thường được diễn đạt dưới dạng số lượng bit cần thiết trung bình để lưu trữ hoặc dẫn truyền. Entropy lượng hóa sự không chắc chắn trong việc dự đoán giá trị của một biến ngẫu nhiên. Ví dụ như, xác định kết quả của một lần tung đồng xu công bằng (hai kết quả có khả năng như nhau) cho ít thông tin hơn (entropy nhỏ hơn) là xác định kết quả của một lần tung xúc sắc (sáu kết quả có khả năng như nhau).

Các ứng dụng cơ bản của lý thuyết thông tin bao gồm nén không mất dữ liệu (chẳng hạn như ZIP), nén mất dữ liệu (chẳng hạn MP3, JPG), mã hóa kênh (chẳng hạn như trong DSL). Lý thuyết thông tin nằm ở phần giao nhau giữa toán học, thống kê, khoa học máy tính, vật lý, thần kinh, và kĩ thuật điện. Các ngành hẹp quan trọng của lý thuyết thông tin bao gồm mã hóa nguồn, mã hóa kênh, lý thuyết thông tin thuật toán, bảo mật theo lý thuyết thông tin.

Tổng quan

Khái niệm cơ bản của lý thuyết thông tin có thể được nắm bắt thông qua việc xem xét hình thức liên lạc phổ biến nhất của con người: ngôn ngữ. Hai yếu tố quan trọng của một ngôn ngữ ngắn gọn là: các từ thông dụng (như "một", "cái", "tôi") nên ngắn gọn hơn các từ kém thông dụng hơn (như "thông tin", "thợ thủ công") để các câu không bị quá dài. Sự cân bằng độ dài các từ như vậy cũng tương tự như trong nén dữ liệu và là một thành phần cơ bản của mã hóa nguồn. Ngoài ra, nếu một phần của câu không nghe được hoặc bị nghe nhầm do tiếng ồn, chẳng hạn như do có ô tô chạy qua, thì người nghe vẫn có thể đoán ra ý nghĩa của câu. Sự vững chắc đó là một thành phần thiết yếu cho hệ thống liên lạc điện tử cũng như cho ngôn ngữ. Tính chất đó trong truyền thông được đảm bảo bởi mã hóa kênh. Mã hóa nguồn và mã hóa kênh là những mối quan tâm chính của lý thuyết thông tin.

Lý thuyết thông tin thường được xem là xuất phát từ bài báo quan trọng của mang tên "A Mathematical Theory of Communication". Mô hình trung tâm của lý thuyết thông tin cổ điển là vấn đề kĩ thuật của việc truyền dẫn thông tin trên một kênh nhiễu. Kết quả cơ bản trong lý thuyết này là định lý mã hóa nguồn của Shannon, khẳng định rằng tính trung bình, số bit cần dùng để mô tả kết quả của một sự kiện ngẫu nhiên chính là entropy của nó, và định lý mã hóa trên kênh nhiễu cũng của Shannon, khẳng định rằng việc liên lạc không lỗi trên một kênh nhiễu là có thể miễn là tốc độ truyền dữ liệu là nhỏ hơn một giới hạn nhất định, gọi là dung lượng kênh. Có thể đạt đến gần dung lượng kênh trong thực tế bằng cách sử dụng các hệ thống mã hóa và giải mã thích hợp.

Bối cảnh lịch sử

Sự kiện nổi bật đánh dấu sự khởi đầu của lý thuyết thông tin là bài báo của Claude E. Shannon "A Mathematical Theory of Communication" ở Bell System Technical Journal vào tháng 7 và tháng 10 năm 1948.

Trước bài báo này, một số ý tưởng về lý thuyết thông tin đã được phát triển tại Bell Labs, trong trường hợp đặc biệt khi tất cả các sự kiện đều có cùng xác suất. Bài báo năm 1924 của Harry Nyquist, "Certain Factors Affecting Telegraph Speed", chứa một phần lý thuyết định lượng "tri thức" (intelligence) và "tốc độ đường truyền" (line speed), đưa ra mối liên hệ W = Klogm, trong đó W là tốc độ dẫn truyền tri thức, m là số cấp điện áp có thể sử dụng tại mỗi bước và K là một hằng số. Bài báo năm 1928 của Ralph Hartley, "Transmission of Information", sử dụng thuật ngữ "thông tin" (information) như một đại lượng đo được, thể hiện khả năng phân biệt giữa các dãy ký hiệu của người nhận, do đó lượng hóa thông tin bởi H = logSn = _n_logS, trong đó S là số ký hiệu có thể sử dụng, và n là số ký hiệu được truyền đi. Đơn vị tự nhiên của thông tin do đó là một chữ số thập phân, sau này được đổi tên là hartley để ghi danh đóng góp của ông, là một đơn vị đo thông tin. Năm 1940, Alan Turing đã sử dụng những ý tưởng tương tự cho phân tích thống kê để phá bộ mã Enigma của Đức trong chiến tranh thế giới thứ hai.

Phần lớn lý thuyết toán học đằng sau lý thuyết thông tin với các sự kiện có xác suất khác nhau được xây dựng trong ngành nhiệt động học bởi Ludwig Boltzmann và J. Willard Gibbs. Mối liên hệ giữa entropy thông tin và entropy nhiệt động học, bao gồm đóng góp quan trọng của Rolf Landauer trong thập kỉ 1960, được mô tả trong trang Entropy trong nhiệt động học và lý thuyết thông tin.

Đo lường thông tin

Lý thuyết thông tin được xây dựng dựa trên lý thuyết xác suất và thống kê. Thông số quan trọng nhất của thông tin là entropy, lượng thông tin trong một biến ngẫu nhiên, và thông tin tương hỗ, lượng thông tin chung giữa hai biến ngẫu nhiên.

Entropy

Entropy của một [[phép thử Bernoulli dưới dạng hàm số của xác suất thành công, thường gọi là hàm entropy nhị phân, H_\mbox{b}(p). Entropy mỗi lần thử tối đa là 1 bit khi hai kết quả có cùng khả năng xảy ra, như trong một lần tung đồng xu công bằng.]]

Nếu \mathbb{X} là tập hợp tất cả các thông điệp {x_1,..., xn} mà X có thể nhận giá trị, và p(x) là xác suất X nhận giá trị x \in \mathbb X, thì entropy của X được định nghĩa như sau: : H(X) = \mathbb{E}{X} [I(x)] = -\sum_{x \in \mathbb{X p(x) \log p(x). Trường hợp đặc biệt của entropy thông tin cho biến ngẫu nhiên với đúng hai khả năng gọi là hàm entropy nhị phân, thường được tính theo lôgarit cơ số 2: :H_\mbox{b}(p) = - p \log_2 p - (1-p)\log_2 (1-p).\,

Entropy hợp

Entropy hợp của hai biến ngẫu nhiên rời rạc XY là entropy của cặp (X, Y). Có nghĩa là nếu XY là độc lập thì entropy hợp là tổng của entropy của mỗi biến. :H(X, Y) = \mathbb{E}{X,Y} [-\log p(x,y)] = - \sum{x, y} p(x, y) \log p(x, y) \,

Entropy có điều kiện

Entropy có điều kiện của X cho trước Y là giá trị kì vọng của entropy của X theo phân bố của Y. :H(X|Y) = \mathbb EY [H(X|y)] = -\sum{y \in Y} p(y) \sum{x \in X} p(x|y) \log p(x|y) = -\sum{x,y} p(x,y) \log \frac{p(x,y)}{p(y)}.

Một tính chất cơ bản của entropy có điều kiện là :H(X|Y) = H(X,Y) - H(Y).\,

Thông tin tương hỗ

Thông tin tương hỗ đo lượng thông tin thu được về một biến ngẫu nhiên thông qua giá trị của một biến ngẫu nhiên khác. :I(X;Y) = \mathbb{E}{X,Y} [SI(x,y)] = \sum{x,y} p(x,y) \log \frac{p(x,y)}{p(x)\, p(y)} Một tính chất cơ bản của thông tin tương hỗ là :I(X;Y) = H(X) - H(X|Y).\, Thông tin tương hỗ có tính chất đối xứng: :I(X;Y) = I(Y;X) = H(X) + H(Y) - H(X,Y).\, Thông tin tương hỗ có thể được biểu diễn dưới dạng khoảng cách Kullback-Leibler của phân bố hậu nghiệm của X nếu biết giá trị của Y và phân bố tiền nghiệm của X: :I(X;Y) = \mathbb E{p(y)} [D{\mathrm{KL(p(X|Y=y) | p(X))]. Nói cách khác, độ đo này xác định, về mặt trung bình, sự thay đổi của phân bố của X nếu biết giá trị của Y. Giá trị này còn có thể tính bằng khoảng cách giữa tích của các phân bố biên với phân bố hợp: :I(X; Y) = D_{\mathrm{KL(p(X,Y) | p(X)p(Y)).

Khoảng cách Kullback-Leibler

Khoảng cách Kullback-Leibler (hoặc entropy tương đối) là một cách so sánh hai phân bố: phân bố "thật" p(x) và một phân bố bất kì q(x). Nó được định nghĩa như sau:

:D{\mathrm{KL(p(X) | q(X)) = \sum{x \in X} -p(x) \log {q(x)} \, - \, \left(-p(x) \log {p(x)}\right) = \sum_{x \in X} p(x) \log \frac{p(x)}{q(x)}.

Mặc dù đôi khi nó được sử dụng như một "khoảng cách metric", khoảng cách Kullback-Leibler không phải là một metric do nó không đối xứng và không thỏa mãn bất đẳng thức tam giác.

Các thông số khác

Một vài thông số khác trong lý thuyết thông tin bao gồm entropy Rényi, entropy vi phân, thông tin tương hỗ có điều kiện.

Lý thuyết mã hóa

nhỏ|phải|Một bức ảnh các vết xước trên bề mặt của một đĩa CD-R. Nhạc và dữ liệu lưu trên CD được mã hóa bằng mã tự sửa lỗi và do đó vẫn có thể đọc được ngay cả khi có những vết xước nhỏ, bằng cách sử dụng [[kĩ thuật phát hiện và sửa lỗi.]]

Lý thuyết mã hóa là một trong những ứng dụng quan trọng và trực tiếp nhất của lý thuyết thông tin. Nó có thể được chia làm lý thuyết mã hóa nguồn và lý thuyết mã hóa kênh. Sử dụng kết quả thống kê cho dữ liệu, lý thuyết thông tin định lượng số bit cần thiết để lưu trữ dữ liệu (chính là entropy thông tin của dữ liệu).

  • Nén dữ liệu (mã hóa nguồn): Có hai hình thức nén dữ liệu:

    Nén không mất dữ liệu: dữ liệu phải được khôi phục chính xác

    Nén mất dữ liệu: phân bổ đủ số bit cần thiết để khôi phục dữ liệu, trong một độ chính xác định trước, đo bởi một hàm biến dạng.

  • Mã sửa lỗi (mã hóa kênh): Khi nén dữ liệu đã loại bỏ hoàn toàn phần dữ liệu thừa, một mã sửa lỗi thêm vào một số thông tin dự phòng để có thể truyền dữ liệu một cách hiệu quả và trung thực qua một kênh nhiễu.

Cách phân chia lý thuyết mã hóa thành nén và truyền được giải thích bởi các định lý truyền thông tin, hoặc các định lý phân chia nguồn-kênh, trong đó lý giải việc sử dụng bit làm đơn vị chung cho thông tin trong nhiều bối cảnh khác nhau. Tuy nhiên các định lý này chỉ đúng trong trường hợp một người gửi muốn truyền thông tin cho đúng một người nhận. Trong trường hợp có nhiều người gửi (kênh đa truy cập), hoặc nhiều người nhận (kênh phát sóng), hoặc có người trung gian giúp đỡ (kênh tiếp sức), hoặc tổng quát hơn, trong mạng máy tính, việc nén rồi truyền có thể không còn tối ưu. Lý thuyết thông tin trên mạng nghiên cứu về những mô hình truyền thông nhiều đối tượng.

👁️ 4 | 🔗 | 💖 | ✨ | 🌍 | ⌚
**Lý thuyết thông tin** là một nhánh của toán học ứng dụng và kĩ thuật điện nghiên cứu về đo đạc lượng thông tin. Lý thuyết thông tin được xây dựng bởi Claude E. Shannon
**Lý thuyết thông tin thuật toán** là một lĩnh vực của lý thuyết thông tin và khoa học máy tính liên quan đến mối quan hệ giữa tính toán và thông tin. Theo Gregory Chaitin,
**Entropy thông tin** là một khái niệm mở rộng của entropy trong nhiệt động lực học và cơ học thống kê sang cho lý thuyết thông tin. Entropy thông tin mô tả mức độ hỗn
Trong Lý thuyết thông tin, **Định lý mã hóa trên kênh nhiễu** (_tiếng Anh: noisy-channel coding theorem_) đề xuất rằng, cho dù một kênh truyền thông có bị ô nhiễm bởi nhiễu âm bao nhiêu
nhỏ|Mã [[ASCII cho từ " Wikipedia " được biểu thị dưới dạng nhị phân, hệ thống số được sử dụng phổ biến nhất để mã hóa thông tin máy tính văn bản]] **Thông tin** có
**Lý thuyết mã hóa** là nghiên cứu về các đặc tính của mã và khả năng thích ứng với các ứng dụng cụ thể của chúng. Mã được sử dụng cho nén dữ liệu, mật
**Khoa học máy tính lý thuyết** () là một tập hợp con của khoa học máy tính và toán học tập trung vào nhiều chủ đề toán học hơn của điện toán và bao gồm
**Tin học lý thuyết** là tập hợp các chủ đề của khoa học máy tính tập trung vào các khía cạnh toán học trừu tượng của tính toán, chẳng hạn như lý thuyết tính toán
**Hình.1:** Phổ giả định của một tín hiệu có tần số giới hạn (bandlimiting) được biểu diễn như là một hàm số theo tần số''' **Định lý lấy mẫu Nyquist** là một định lý được
**Thời đại Thông tin** (còn gọi là **Thời đại Máy tính**, **Thời đại Kỹ thuật số** hoặc **Thời đại Truyền thông mới**) là một giai đoạn trong lịch sử nhân loại với sự chuyển đổi
[[Tập tin:High accuracy Low precision.svg | nhỏ | Biểu đồ này miêu tả độ chính xác cao và độ chính xác thấp bằng cách suy luận, phân tích dữ liệu.
Chú thích:
_Màu đỏ_: độ chính
nhỏ|Các vectơ mật độ dòng điện xác suất cảm ứng từ tính được tính toán bằng phương pháp lượng tử trong benzen. **Hóa học lý thuyết** là một nhánh của hóa học trong đó phát
**Xử lý thông tin** là sự thay đổi (xử lý) thông tin theo bất kỳ cách nào mà người quan sát có thể phát hiện được. Như vậy, đây là một quá trình _mô tả_
**Lý thuyết dây** là một thuyết hấp dẫn lượng tử, được xây dựng với mục đích thống nhất tất cả các hạt cơ bản cùng các lực cơ bản của tự nhiên, ngay cả lực
**Xã hội thông tin** là một xã hội nơi việc sử dụng, sáng tạo, phân phối, thao túng và tích hợp thông tin là một hoạt động kinh tế, chính trị và văn hóa quan
Sau khi bệnh COVID-19 do chủng mới của virus corona (SARS-CoV-2) gây ra bắt đầu bùng phát, các thuyết âm mưu và thông tin sai lệch về nguồn gốc và quy mô của dịch bệnh
**Hệ thống thông tin quản lý** là hệ thống cung cấp thông tin cho công tác quản lý của tổ chức. Hệ thống bao gồm con người, thiết bị và quy trình thu thập, phân
**Lý thuyết trò chơi**, hoặc gọi **đối sách luận**, **lí luận ván cờ**, là một phân nhánh mới của toán học hiện đại, cũng là một môn học trọng yếu của vận trù học, tác
Khái niệm của vòng phản hồi dùng để điều khiển hành vi động lực của hệ thống: đây là phản hồi âm, vì giá trị cảm biến (sensor) bị trừ đi từ giá trị mong
thumb|Lý thuyết về dự định hành vi **Lý thuyết hành vi có kế hoạch hay lý thuyết hành vi hoạch định** (Tiếng Anh: **The Theory of Planning Behaviour**) là một lý thuyết thể hiện mối
**Lý thuyết dòng chảy đa bước trong truyền thông** chỉ ra rằng thông tin từ phương tiện truyền thông đại chúng đến những người dẫn dắt ý kiến trước đến cộng đồng và dòng chảy
**Lý thuyết dòng chảy hai bước trong truyền thông** chỉ ra rằng hầu hết mọi người hình thành quan điểm của họ dưới sự ảnh hưởng của những người dẫn dắt ý kiến (opinion leaders).
**Lý thuyết độ phức tạp tính toán** (tiếng Anh: _computational complexity theory_) là một nhánh của lý thuyết tính toán trong lý thuyết khoa học máy tính và toán học tập trung vào phân loại
**Lý thuyết về ràng buộc** (TOC) là một mô hình quản lý mà quan sát bất kỳ hệ thống quản lý nào bị giới hạn trong việc đạt được nhiều mục tiêu hơn bởi một
**Lý thuyết mã kép** là một lý thuyết về trí nhớ và nhận thức của Allan Paivio. Lý thuyết này có liên quan rất nhiều đến các mô hình trí nhớ nhận thức và được
**Kinh tế học thông tin** là một nhánh của lý thuyết kinh tế vi mô nghiên cứu cách thức hệ thống thông tin và thông tin ảnh hưởng đến một nền kinh tế và các
nhỏ|Lý thuyết biểu diễn nghiên cứu cách các cấu trúc đại số "biến đổi" các đối tượng toán học. Ví dụ đơn giản nhất là cách [[Nhóm nhị diện|nhóm đối xứng của các đa giác
nhỏ|phải|Hình vẽ một đồ thị có 6 đỉnh và 7 cạnh Trong toán học và tin học, **lý thuyết đồ thị** (tiếng Anh: _graph theory_) nghiên cứu các tính chất của đồ thị. Một cách
**Các lý thuyết về nguyên nhân của sự nghèo đói** là nền tảng cho các chiến lược xóa đói giảm nghèo. Trong khi ở các quốc gia phát triển, sự nghèo đói thường bị coi
Trong lý thuyết trò chơi, **cách giải** được định nghĩa là một nguyên tắc chính thống, dùng để dự đoán trò chơi sẽ diễn ra như thế nào. Những dự đoán này được gọi là
Trong lý thuyết trò chơi, **chiến lược **của người chơi là bất kì lựa chọn nào mà người chơi có thể thực hiện, trong bối cảnh kết quả thu được không chỉ phụ thuộc vào
thumb|right|Một [[sơ đồ Venn mô phỏng phép giao của hai tập hợp.]] **Lý thuyết tập hợp** (tiếng Anh: _set theory_) là ngành toán học nghiên cứu về tập hợp. Mặc dù bất kỳ đối tượng
**Lý thuyết số** là một ngành của toán học lý thuyết nghiên cứu về tính chất của số nói chung và số nguyên nói riêng, cũng như những lớp rộng hơn các bài toán mà
**Harry Nyquist** (tên đầy đủ Harry Theodor Nyquist; phát âm theo tiếng Anh: [nʏ:kvɪst], không phải [naɪkwɪst] như thường lệ), (7/2/1889 – 4/4/1976) là một nhà khoa học có nhiều đóng góp quan trọng cho
**Lý thuyết chu kỳ kinh tế thực (lý thuyết RBC)** là một loại mô hình kinh tế vĩ mô tân cổ điển, trong đó các biến động của chu kỳ kinh doanh được tính bằng
**Triết học thông tin** (**philosophy of information**) là một nhánh của triết học nghiên cứu các chủ đề liên quan đến khoa học máy tính, khoa học thông tin và công nghệ thông tin. Môn
**Lý thuyết phân tâm học** là một lý thuyết về tổ chức nhân cách và động lực phát triển nhân cách, là cơ sở của phân tâm học, một phương pháp lâm sàng để điều
**Lý thuyết phát hiện tín hiệu** (_Detection theory_ hay **signal detection theory**), là một phương tiện để xác định khả năng nhận diện giữa tín hiệu và nhiễu. Nó có ứng dụng trong nhiều lĩnh
thumb|**[[Phép tính lambda** là một hệ thống hình thức để định nghĩa hàm, ứng dụng hàm và đệ quy được Alonzo Church đề xuất vào những năm 193x.]] **Lý thuyết ngôn ngữ lập trình** (thường
Trong hình học đại số và vật lý lý thuyết, **đối xứng gương** là mối quan hệ giữa các vật thể hình học được gọi là những đa tạp Calabi-Yau. Các đa tạp này có
nhỏ|[[Đồ thị Cayley của nhóm tự do có hai phần tử sinh. Đây là nhóm hyperbol có biên Gromov là tập Cantor. Tương tự với đồ thị Cayley, nhóm hyperbol và biên của nó là
**Lý thuyết xã hội** là các khung phân tích, hay các mô hình, được sử dụng để nghiên cứu và giải thích các hiện tượng xã hội. Vốn là một công cụ được sử dụng
:_Bài này chỉ viết về các định nghĩa cơ bản. Để hiểu rộng hơn, xin xem lý thuyết đồ thị. Về ý nghĩa biểu diễn hàm số trên hệ tọa độ, xem đồ thị hàm
Trong lý thuyết điều khiển tự động, một **bộ điều khiển** là một thiết bị giám sát và tác động vào các điều kiện làm việc của một hệ động học cho trước. Các điều
**Lý thuyết cân bằng tổng thể** là một nhánh của kinh tế học lý thuyết, được xem là thuộc kinh tế vi mô. Lý thuyết này tìm cách giải thích cung, cầu và giá của
liên_kết=https://en.wikipedia.org/wiki/File:The_Cultivation_Process.jpg|nhỏ|349x349px|Sơ đồ tóm tắt quá trình lý thuyết gieo cấy truyền thông theo quan điểm tâm lý học. **Lý thuyết gieo cấy truyền thông** là một lý thuyết xã hội học và truyền thông để
Trong lý thuyết trò chơi, **trận chiến giới tính (Battle of the sexes)** là một trò chơi phối hợp giữa hai người chơi. Hãy tưởng tượng, một cặp đôi hẹn hò gặp nhau buổi tối,
**Đồ họa thông tin** (tiếng Anh: _infographic_, là từ ghép của Information graphic), là sự kết hợp thông tin ngắn gọn với hình ảnh minh họa và màu sắc sinh động, bắt mắt để có
**Công nghệ thông tin và truyền thông** (tiếng Anh: _Information and communications technology_, ICT) là cụm từ thường dùng như từ đồng nghĩa rộng hơn cho công nghệ thông tin (IT), nhưng thường là một
**Lý thuyết về thị trường lemon** là lý luận kinh tế học đề cập đến hiện tượng người mua do thiếu thông tin về các hàng hóa và dịch vụ trên thị trường nên đã