✨Nén dữ liệu

Nén dữ liệu

Trong công nghệ thông tin, Nén dữ liệu (tiếng Anh: Data compression) là việc chuyển định dạng thông tin sử dụng ít bit hơn cách thể hiện ở dữ liệu gốc. Tùy theo dữ liệu có bị thay đổi trước và sau khi giải nén không, người ta chia nén thành hai loại: Nguyên vẹn (lossless) và bị mất dữ liệu (lossy). Nén mất dữ liệu giảm số lượng bit bằng cách xác định các thông tin không cần thiết và loại bỏ chúng.

Nén dữ liệu là cần thiết vì giảm được nguồn tài nguyên cũng như dung lượng lưu trữ hay băng thông đường truyền. Tuy nhiên, vì dữ liệu nén cần được giải nén nên sẽ đòi hỏi nhiều phần cứng và xử lý.

Nén không mất dữ liệu

Các thuật toán nén không mất dữ liệu thường dựa trên giả thuyết dư thừa trong dữ liệu và thể hiện dữ liệu chính xác hơn mà không mất các thông tin. Nén mà không làm mất dữ liệu là khả thi vì tất cả các dữ liệu thực tế đều có dư thừa. Ví dụ một hình ảnh có thể có các vùng màu sắc không thay đổi trong nhiều pixel. Thay vì ghi nhận từng pixel như đỏ, đỏ, đỏ... dữ liệu có thể được ghi là 279 điểm ảnh đỏ liên tiếp. Đây là một ví dụ về run-length encoding; ngoài ra còn có rất nhiều giải thuật khác.

Dựa theo mức áp dụng thuật toán nén người ta chia nén thành các dạng sau:

Nén tệp tin: Đây là dạng thức nén truyền thống và thuật toán nén được áp dụng cho từng tệp tin riêng lẻ. Tuy vậy nếu 2 tệp tin giống nhau thì vẫn được nén 2 lần và được ghi 2 lần. Chỉ các byte trùng lắp trong 1 file được loại trừ để giảm kích thước. Tùy dữ liệu nhưng thông thường khả năng giảm sau khi nén chỉ từ 2-3 lần.
Loại trừ trùng lắp file: Đây là dạng thức nén mà thuật toán nén được áp dụng cho nhiều tập tin. Các file giống hệt nhau sẽ chỉ được lưu một lần. Ví dụ một thư điện tử có tệp tin đính kèm được gửi cho 1000 người. Chỉ có một bản đính kèm được lưu và vì vậy có thể giảm khá nhiều. Thông thường có thể giảm từ 5-10 lần so với dữ liệu gốc.
Loại trừ trùng lắp ở mức sub-file: Đây là một dạng thức kết hợp cả nén tệp tin và loại trừ trùng lắp.

Nén có mất dữ liệu

Chuẩn nén tín hiệu số gồm có các chuẩn sau:

Chuẩn MJPEG:

Đây là một trong những chuẩn cổ nhất mà hiện nay vẫn sử dụng. MJPEG (Morgan JPEG). Chuẩn này hiện chỉ sử dụng trong các thiết bị DVR rẻ tiền, chất lượng thấp. Không những chất lượng hình ảnh kém, tốn tài nguyên xử lý, cần nhiều dung lượng ổ chứa, và còn hay làm lỗi đường truyền.

Chuẩn MPEG2:

Chuẩn MPEG là một chuẩn thông dụng. Đã được sử dụng rộng rãi trong hơn một thập kỉ qua. Tuy nhiên, kích thước file lớn so với những chuẩn mới xuất hiện gần đây, và có thể gây khó khăn cho việc truyền dữ liệu.

Ví dụ như trong MPEG-2, nơi mà nội dung được tạo ra từ nhiều nguồn như video ảnh động, đồ họa, văn bản… và được tổ hợp thành chuỗi các khung hình phẳng, mỗi khung hình (bao gồm các đối tượng như người, đồ vật, âm thanh, nền khung hình…) được chia thành các phần tử ảnh pixels và xử lý đồng thời, giống như cảm nhận của con người thông qua các giác quan trong thực tế. Các pixels này được mã hoá như thể tất cả chúng đều là các phần tử ảnh video ảnh động. Tại phía thu của người sử dụng, quá trình giải mã diễn ra ngược với quá trình mã hoá không khó khăn. Vì vậy có thể coi MPEG-2 là một công cụ hiển thị tĩnh, và nếu một nhà truyền thông truyền phát lại chương trình của một nhà truyền thông khác về một sự kiện, thì logo của nhà sản xuất chương trình này không thể loại bỏ được. Với MPEG-2, bạn có thể bổ sung thêm các phần tử đồ hoạ và văn bản vào chương trình hiển thị cuối cùng (theo phương thức chồng lớp), nhưng không thể xoá bớt các đồ hoạ và văn bản có trong chương trình gốc.

Chuẩn MPEG-4:

Mpeg-4 là chuẩn cho các ứng dụng MultiMedia. Mpeg-4 trở thành một tiêu chuẩn cho nén ảnh kỹ thuật truyền hình số, các ứng dụng về đồ hoạ và Video tương tác hai chiều (Games, Videoconferencing) và các ứng dụng Multimedia tương tác hai chiều (World Wide Web hoặc các ứng dụng nhằm phân phát dữ liệu Video như truyền hình cáp, Internet Video...). Mpeg-4 đã trở thành một tiêu chuẩn công nghệ trong quá trình sản xuất, phân phối và truy cập vào các hệ thống Video. Nó đã góp phần giải quyết vấn đề về dung lượng cho các thiết bị lưu trữ, giải quyết vấn đề về băng thông của đường truyền tín hiệu Video hoặc kết hợp cả hai vấn đề trên.

Với MPEG-4, các đối tượng khác nhau trong một khung hình có thể được mô tả, mã hoá và truyền đi một cách riêng biệt đến bộ giải mã trong các dòng cơ bản ES (Elementary Stream) khác nhau. Cũng nhờ xác định, tách và xử lý riêng các đối tượng (như nhạc nền, âm thanh xa gần, đồ vật, đối tượng ảnh video như con người hay động vật, nền khung hình …), nên người sử dụng có thể loại bỏ riêng từng đối tượng khỏi khuôn hình. Sự tổ hợp lại thành khung hình chỉ được thực hiện sau khi giải mã các đối tượng này.

H.264

H.264 (MPEG-4 AVC hay MPEG-4 part 10), hiện đang là phương thức tiên tiến nhất trong lĩnh vực nén video. H.264 cho chất lượng hình ảnh tốt nhất khi có cùng dung lượng so với các chuẩn nén khác. H.264 cũng được ứng dụng như thuật nén chính trong video độ phân giải cao (HD).

👁️ 425 | 🔗 | 💖 | ✨ | 🌍 | ⌚

💫 Nén dữ liệu

Trong công nghệ thông tin, **Nén dữ liệu** (tiếng Anh: _Data compression_) là việc chuyển định dạng thông tin sử dụng ít bit hơn cách thể hiện ở dữ liệu gốc. Tùy theo dữ liệu

💫 Cơ sở dữ liệu

thumb|Một ví dụ về lấy dữ liệu đầu ra từ truy vấn cơ sở dữ liệu SQL. **Cơ sở dữ liệu** () là một tập hợp các dữ liệu có tổ chức liên quan đến

💫 Máy truy tìm dữ liệu

**Máy truy tìm dữ liệu trực tuyến** hay **máy tìm kiếm** hay **cỗ máy tìm kiếm** (tiếng Anh: _search engine_), hay còn được gọi với nghĩa rộng hơn là **công cụ tìm kiếm** (_search tool_),

💫 Dữ liệu lớn

thumb|Sự tăng trưởng và số hóa các khả năng lưu trữ thông tin trên toàn cầu **Dữ liệu lớn** (Tiếng Anh: **Big data**) là một thuật ngữ cho việc xử lý một tập hợp dữ

💫 Rò rỉ dữ liệu

**Rò rỉ dữ liệu** hay **vi phạm dữ liệu**, **lộ dữ liệu** là "việc tiết lộ, công khai hoặc làm mất thông tin cá nhân một cách trái phép". Kẻ tấn công có nhiều động

💫 Nén ảnh

**Nén hình ảnh** là một loại của nén dữ liệu được áp dụng cho hình ảnh kỹ thuật số, để giảm chi phí cho việc lưu trữ hoặc truyền tải. Các thuật toán có thể

💫 Dữ liệu thứ cấp

## Khái niệm dữ liệu thứ cấp Dữ liệu thứ cấp là dữ liệu đã có sẵn, không phải do mình thu thập, đã công bố nên dễ thu thập, ít tốn thời gian, tiền

💫 Dữ liệu đám mây

nhỏ|phải|Mô hình dữ liệu đám mây **Dữ liệu đám mây** hay **Cơ sở dữ liệu đám mây** (_Cloud database_) là một cơ sở dữ liệu thường được chạy vận hành trên nền tảng điện toán

💫 Nén không tổn hao

**Nén không tổn hao** (tiếng Anh: Lossless compression) là các định dạng nén dữ liệu theo thuật toán cho phép các dữ liệu có thể được tái tạo mà không bị mất thông tin. _Nén

💫 Lưu trữ dữ liệu

nhỏ| [[RNA là một phương tiện lưu trữ trong sinh học. ]] nhỏ|Các thiết bị lưu trữ điện tử khác nhau nhỏ|Máy ghi âm xi lanh Edison, khoảng năm 1899. Các xi lanh ghi âm

💫 Tích hợp dữ liệu

**Tích hợp dữ liệu** liên quan đến việc kết hợp dữ liệu cư trú trong các nguồn khác nhau và cung cấp cho người dùng một cái nhìn thống nhất về chúng. Quá trình này

💫 Trao đổi dữ liệu điện tử

**Trao đổi dữ liệu điện tử** (Electronic Data Interchange - EDI) là sự truyền thông tin từ máy tính gửi đến máy tính nhận bằng phương tiện điện tử, trong đó có sử dụng một

💫 Ứng dụng cơ sở dữ liệu

**Ứng dụng cơ sở dữ liệu** là một chương trình máy tính có mục đích chính là nhập và truy xuất thông tin từ cơ sở dữ liệu được máy tính hóa. Ví dụ ban

💫 Trung tâm dữ liệu

nhỏ| Trung tâm dữ liệu [[ARSAT (2014) ]] **Trung tâm dữ liệu** (tiếng Anh Mỹ: data center, hoặc tiếng Anh Anh: data centre), là một tòa nhà, không gian dành riêng trong tòa nhà hoặc

💫 Tập dữ liệu COVID-19

**Tập dữ liệu COVID-19** là các cơ sở dữ liệu công khai nhằm chia sẻ dữ liệu các ca bệnh và thông tin y tế liên quan đến đại dịch COVID-19. ## Dữ liệu tổng

💫 Xử lý dữ liệu điện tử

**Xử lý dữ liệu điện tử** có thể đề cập đến việc sử dụng các phương pháp tự động để xử lý dữ liệu thương mại. Thông thường, điều này sử dụng các hoạt động

💫 Đơn vị tốc độ truyền dữ liệu

Trong viễn thông, tốc độ truyền dữ liệu là số bit trung bình (bitrate), ký tự hoặc ký hiệu (baudrate) hoặc khối dữ liệu trên mỗi đơn vị thời gian đi qua một liên kết

💫 Bảo vệ dữ liệu cá nhân

**Bảo vệ dữ liệu cá nhân** khởi đầu dùng để chỉ việc bảo vệ dữ liệu có liên quan đến cá nhân trước sự lạm dụng. Trong vùng nói tiếng Anh người ta gọi đó

💫 Siêu dữ liệu không gian địa lý

**Siêu dữ liệu không gian địa lý** () là các dữ liệu nhằm mô tả dữ liệu GIS. Thông thường trước khi sử dụng một loại dữ liệu GIS nào đó để thực hiện một

💫 Tính nhất quán (hệ cơ sở dữ liệu)

**Tính nhất quán** (tiếng Anh: consistency) trong hệ thống cơ sở dữ liệu là yêu cầu rằng giao dịch cơ sở dữ liệu đã cho bất kỳ chỉ có thể thay đổi dữ liệu theo

💫 Khai phá dữ liệu

nhỏ|Một ví dụ về cây phân loại CART **Khai phá dữ liệu** (_data mining_) Là quá trình tính toán để tìm ra các mẫu trong các bộ dữ liệu lớn liên quan đến các phương

💫 Cấu trúc dữ liệu

phải|192|[[Cây nhị phân, một kiểu đơn giản của cấu trúc dữ liệu liên kết rẽ nhánh.]] thumb|right|Bảng băm Trong khoa học máy tính, **cấu trúc dữ liệu** là một cách lưu dữ liệu trong máy

💫 Cấu trúc dữ liệu cho các tập hợp không giao nhau

Trong khoa học máy tính, **cấu trúc dữ liệu cho các tập hợp không giao nhau** là một cấu trúc dữ liệu để lưu trữ một tập hợp các phần tử được phân chia thành

💫 Dữ liệu liên kết

Trong hoạt động tính toán máy tính, **dữ liệu liên kết** mô tả một phương thức tạo ra dữ liệu có cấu trúc để có thể liên kết được với nhau và trở nên có

💫 Khôi phục dữ liệu

Trong lĩnh vực điện toán**, Khôi phục dữ liệu** (hay **Phục hồi dữ liệu**) là quá trình sử dụng các thiết bị, phần mềm lấy lại dữ liệu từ bị hư hỏng, lỗi hoặc bị

💫 Dữ liệu sơ cấp

**Dữ liệu sơ cấp** là những dữ liệu chưa có sẵn, được thu thập lần đầu, do chính người nghiên cứu thu thập. Trong thực tế, khi dữ liệu thứ cấp không đáp ứng được

💫 Sơ đồ luồng dữ liệu

thế=Sơ đồ luồng dữ liệu bao gồm lưu trữ dữ liệu, luồng dữ liệu, chức năng và giao diện.|nhỏ|387x387px|Sơ đồ luồng dữ liệu bao gồm lưu trữ dữ liệu, luồng dữ liệu, chức năng và

💫 Chuẩn hóa dữ liệu

Chuẩn hóa cơ sở dữ liệu là một phương pháp khoa học để phân tách (scientific method of breaking down) một bảng có cấu trúc phức tạp (complex table structures) thành những bảng có cấu

💫 Biểu diễn dữ liệu

Thông tin và dữ liệu mà con người hiểu được tồn tại dưới nhiều dạng khác nhau, ví dụ như các số, các ký tự văn bản, âm thanh, hình ảnh... nhưng trong máy tính

💫 Dữ liệu cá nhân

**Dữ liệu cá nhân**, còn được gọi là **thông tin cá nhân** (personal information), **thông tin** **nhận dạng cá nhân** (personally identifying information - **PII**) hoặc **thông tin cá nhân nhạy cảm** (sensitive personal information

💫 Mảng (cấu trúc dữ liệu)

Trong khoa học máy tính, **cấu trúc dữ liệu mảng** hoặc **mảng** là một cấu trúc dữ liệu bao gồm một nhóm các phần tử giá trị hoặc biến, mỗi phần tử được xác định

💫 Hệ thống Dữ liệu Thế giới

**Hệ thống Dữ liệu Thế giới**, viết tắt tiếng Anh là **ISC-WDS** (World Data System) là một _tổ chức phi chính phủ, phi lợi nhuận quốc tế_ của Hội đồng Khoa học Quốc tế ISC,

💫 Void (kiểu dữ liệu)

Trong nhiều ngôn ngữ lập trình bắt nguồn từ C và Algol68, **kiểu void** (tiếng Anh: _void type_) là một kiểu kết quả của hàm nếu hàm này không trả về bất kì kết quả

💫 Chuyển Đổi Số Trong Lập Pháp Và Thi Hành Pháp Luật: Trí Tuệ Nhân Tạo Và Dữ Liệu Mở - Thách Thức Và Cơ Hội

(Pháp Lý). Trong Bối Cảnh Toàn Cầu Hóa Và Cuộc Cách Mạng Công Nghiệp Lần Thứ Tư Ang Diễn Ra Mạnh Mẽ, Chuyển I Số Ã Trở Thành Một Xu Thế Tất Yếu Trong Quản

💫 Khoa học dữ liệu

nhỏ|Vùng vị trí của khoa học dữ liệu trong các ngành nghiên cứu **Khoa học dữ liệu** là một lĩnh vực liên ngành về các quá trình và các hệ thống rút trích tri thức

💫 Khăn Tắm Nén Bằng Cotton Tiện Lợi Dùng Một Lần 70*140 cm _Khăn Nén Du Lịch _Khăn Nén Spa Đa Năng Tiện Lợi

Khăn Tắm Nén Bằng Cotton Tiện Lợi Dùng Một Lần 70*140 cm _Khăn Nén Du Lịch _Khăn Nén Spa Đa Năng Tiện Lợi – Chất liệu: 80% cotton và 20% polyester – Kích thước: khi

💫 Khăn Tắm Nén Du Lịch 70x140cm Dạng Viên Nén Làm Từ Cotton Tự Nhiên, Sử Dụng Nhiều Lần

Khăn Tắm Nén Du Lịch 70 x 140cm Dạng Viên Nén Làm Từ Cotton Tự Nhiên, Sử Dụng Nhiều Lần THÔNG TIN SẢN PHẨM – Chất liệu: cotton – Kích thước: khi dãn nở 70x140cm

💫 Khăn nén du lịch cao cấp T.ssue (Size: 70*100cm). Gọn nhẹ tiện lợi, dùng cho các chuyến đi chơi xa, dã ngoại, thể thao

Khăn nén du lịch cao cấp T (Size: 70*100cm) - Sử dụng 1 lần cho chuyến đi. Sản phẩm có nhiều tính năng vượt trội. Được làm từ 100% rayon (viscose), loại sợi được chiết

💫 Khăn nén du lịch cao cấp T.ssue (Size: 70*140cm). Gọn nhẹ tiện lợi, dùng cho các chuyến đi chơi xa, dã ngoại, thể thao

Khăn nén du lịch cao cấp T (Size: 70*140cm) - Sử dụng 1 lần cho chuyến đi. Sản phẩm có nhiều tính năng vượt trội. Được làm từ 100% rayon (viscose), loại sợi được chiết

💫 Khăn nén du lịch cao cấp T.ssue (Size: 34*70cm). Gọn nhẹ tiện lợi, dùng cho các chuyến đi chơi xa, dã ngoại, thể thao

Khăn nén du lịch cao cấp T (Size: 34*70cm) - Sử dụng 1 lần cho chuyến đi. Sản phẩm có nhiều tính năng vượt trội. Được làm từ 100% rayon (viscose), loại sợi được chiết

💫 Nén có tổn hao

**Nén có tổn hao** (), đối lập với nén không tổn hao, là dạng nén chỉ cho phép phục hồi lại một phần dữ liệu gốc vì thế có thể làm mất một lượng thông

💫 Khăn Tắm Nén Du Lịch Tiện Lợi Dùng 1 Lần 70*100cm, Bao Bì Đỏ - Chính Hãng

Khăn Tắm Nén Du Lịch Tiện Lợi Dùng 1 Lần 70*100cm, Bao Bì Đỏ Sử dụng công nghệ nén hiện đại, kích thước nhỏ gọn, xinh xắn, thuận tiện mang theo đi du lịch, cắm

💫 Ingres (cơ sở dữ liệu)

**Ingres database** ( ) là một hệ thống quan hệ quản lý cơ sở dữ liệu SQL độc quyền nhằm hỗ trợ các ứng dụng thương mại và chính phủ lớn. Actian Corporation là công

💫 Thanh Hoá : Phát triển nền công nghiệp dữ liệu, thị trường dữ liệu dựa trên khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số

Phát triển nền công nghiệp dữ liệu và thị trường dữ liệu là xu hướng tất yếu trong thời đại số, đóng vai trò then chốt trong thúc đẩy tăng trưởng kinh tế và nâng

💫 MP3

**MP3** là một dạng file đã được nén bằng cách nén dữ liệu có tổn hao (_lossy_). Nó là một dạng âm thanh được mã hóa PCM (_pulse-code modulation_) và có dung lượng nhỏ hơn

💫 Cục Công nghệ thông tin và Dữ liệu tài nguyên môi trường (Việt Nam)

**Cục Chuyển đổi số và Thông tin dữ liệu tài nguyên môi trường** là cơ quan trực thuộc Bộ Tài nguyên và Môi trường, có chức năng tham mưu, giúp Bộ trưởng thống nhất quản

💫 Thúc Đẩy Triển Khai Các Giải Pháp Công Nghệ Phục Vụ Người Dân, Doanh Nghiệp Gắn Với Dữ Liệu Dân Cư, Định Danh, Xác Thực Điện Tử

Thủ tướng Chính phủ Phạm Minh Chính vừa ký Chỉ thị số 24/CT-TTg ngày 13/9/2025 về việc thúc đẩy triển khai các giải pháp công nghệ phục vụ người dân và doanh nghiệp gắn với

💫 Lý thuyết thông tin

**Lý thuyết thông tin** là một nhánh của toán học ứng dụng và kĩ thuật điện nghiên cứu về đo đạc lượng thông tin. Lý thuyết thông tin được xây dựng bởi Claude E. Shannon

💫 Phân Tích Dữ Liệu Kinh Doanh: Hiểu Rõ Và Vận Dụng Hiệu Quả

Phân tích dữ liệu kinh doanh không còn là lựa chọn phụ trợ mà đã trở thành yếu tố cốt lõi trong vận hành và ra quyết định của doanh nghiệp hiện đại. Khi thông

💫 Combo Úng Dụng Big Data Tạo Ra Những Cơ Hội Vàng Cho Doanh Nghiệp Của Bạn: Dữ Liệu Lớn + Ứng Dụng BIG DATA Trong Kinh Doanh

1. Dữ Liệu Lớn Hiện nay, thế giới đang trở nên thông minh hơn. Chúng ta đang theo dõi và lưu trữ dữ liệu về mọi thứ, nên chúng ta có khả năng tiếp cận