✨Nén dữ liệu

Nén dữ liệu

Trong công nghệ thông tin, Nén dữ liệu (tiếng Anh: Data compression) là việc chuyển định dạng thông tin sử dụng ít bit hơn cách thể hiện ở dữ liệu gốc. Tùy theo dữ liệu có bị thay đổi trước và sau khi giải nén không, người ta chia nén thành hai loại: Nguyên vẹn (lossless) và bị mất dữ liệu (lossy). Nén mất dữ liệu giảm số lượng bit bằng cách xác định các thông tin không cần thiết và loại bỏ chúng.

Nén dữ liệu là cần thiết vì giảm được nguồn tài nguyên cũng như dung lượng lưu trữ hay băng thông đường truyền. Tuy nhiên, vì dữ liệu nén cần được giải nén nên sẽ đòi hỏi nhiều phần cứng và xử lý.

Nén không mất dữ liệu

Các thuật toán nén không mất dữ liệu thường dựa trên giả thuyết dư thừa trong dữ liệu và thể hiện dữ liệu chính xác hơn mà không mất các thông tin. Nén mà không làm mất dữ liệu là khả thi vì tất cả các dữ liệu thực tế đều có dư thừa. Ví dụ một hình ảnh có thể có các vùng màu sắc không thay đổi trong nhiều pixel. Thay vì ghi nhận từng pixel như đỏ, đỏ, đỏ... dữ liệu có thể được ghi là 279 điểm ảnh đỏ liên tiếp. Đây là một ví dụ về run-length encoding; ngoài ra còn có rất nhiều giải thuật khác.

Dựa theo mức áp dụng thuật toán nén người ta chia nén thành các dạng sau:

  • Nén tệp tin: Đây là dạng thức nén truyền thống và thuật toán nén được áp dụng cho từng tệp tin riêng lẻ. Tuy vậy nếu 2 tệp tin giống nhau thì vẫn được nén 2 lần và được ghi 2 lần. Chỉ các byte trùng lắp trong 1 file được loại trừ để giảm kích thước. Tùy dữ liệu nhưng thông thường khả năng giảm sau khi nén chỉ từ 2-3 lần.
  • Loại trừ trùng lắp file: Đây là dạng thức nén mà thuật toán nén được áp dụng cho nhiều tập tin. Các file giống hệt nhau sẽ chỉ được lưu một lần. Ví dụ một thư điện tử có tệp tin đính kèm được gửi cho 1000 người. Chỉ có một bản đính kèm được lưu và vì vậy có thể giảm khá nhiều. Thông thường có thể giảm từ 5-10 lần so với dữ liệu gốc.
  • Loại trừ trùng lắp ở mức sub-file: Đây là một dạng thức kết hợp cả nén tệp tin và loại trừ trùng lắp.

Nén có mất dữ liệu

Chuẩn nén tín hiệu số gồm có các chuẩn sau:

Chuẩn MJPEG:

Đây là một trong những chuẩn cổ nhất mà hiện nay vẫn sử dụng. MJPEG (Morgan JPEG). Chuẩn này hiện chỉ sử dụng trong các thiết bị DVR rẻ tiền, chất lượng thấp. Không những chất lượng hình ảnh kém, tốn tài nguyên xử lý, cần nhiều dung lượng ổ chứa, và còn hay làm lỗi đường truyền.

Chuẩn MPEG2:

Chuẩn MPEG là một chuẩn thông dụng. Đã được sử dụng rộng rãi trong hơn một thập kỉ qua. Tuy nhiên, kích thước file lớn so với những chuẩn mới xuất hiện gần đây, và có thể gây khó khăn cho việc truyền dữ liệu.

Ví dụ như trong MPEG-2, nơi mà nội dung được tạo ra từ nhiều nguồn như video ảnh động, đồ họa, văn bản… và được tổ hợp thành chuỗi các khung hình phẳng, mỗi khung hình (bao gồm các đối tượng như người, đồ vật, âm thanh, nền khung hình…) được chia thành các phần tử ảnh pixels và xử lý đồng thời, giống như cảm nhận của con người thông qua các giác quan trong thực tế. Các pixels này được mã hoá như thể tất cả chúng đều là các phần tử ảnh video ảnh động. Tại phía thu của người sử dụng, quá trình giải mã diễn ra ngược với quá trình mã hoá không khó khăn. Vì vậy có thể coi MPEG-2 là một công cụ hiển thị tĩnh, và nếu một nhà truyền thông truyền phát lại chương trình của một nhà truyền thông khác về một sự kiện, thì logo của nhà sản xuất chương trình này không thể loại bỏ được. Với MPEG-2, bạn có thể bổ sung thêm các phần tử đồ hoạ và văn bản vào chương trình hiển thị cuối cùng (theo phương thức chồng lớp), nhưng không thể xoá bớt các đồ hoạ và văn bản có trong chương trình gốc.

Chuẩn MPEG-4:

Mpeg-4 là chuẩn cho các ứng dụng MultiMedia. Mpeg-4 trở thành một tiêu chuẩn cho nén ảnh kỹ thuật truyền hình số, các ứng dụng về đồ hoạ và Video tương tác hai chiều (Games, Videoconferencing) và các ứng dụng Multimedia tương tác hai chiều (World Wide Web hoặc các ứng dụng nhằm phân phát dữ liệu Video như truyền hình cáp, Internet Video...). Mpeg-4 đã trở thành một tiêu chuẩn công nghệ trong quá trình sản xuất, phân phối và truy cập vào các hệ thống Video. Nó đã góp phần giải quyết vấn đề về dung lượng cho các thiết bị lưu trữ, giải quyết vấn đề về băng thông của đường truyền tín hiệu Video hoặc kết hợp cả hai vấn đề trên.

Với MPEG-4, các đối tượng khác nhau trong một khung hình có thể được mô tả, mã hoá và truyền đi một cách riêng biệt đến bộ giải mã trong các dòng cơ bản ES (Elementary Stream) khác nhau. Cũng nhờ xác định, tách và xử lý riêng các đối tượng (như nhạc nền, âm thanh xa gần, đồ vật, đối tượng ảnh video như con người hay động vật, nền khung hình …), nên người sử dụng có thể loại bỏ riêng từng đối tượng khỏi khuôn hình. Sự tổ hợp lại thành khung hình chỉ được thực hiện sau khi giải mã các đối tượng này.

H.264

H.264 (MPEG-4 AVC hay MPEG-4 part 10), hiện đang là phương thức tiên tiến nhất trong lĩnh vực nén video. H.264 cho chất lượng hình ảnh tốt nhất khi có cùng dung lượng so với các chuẩn nén khác. H.264 cũng được ứng dụng như thuật nén chính trong video độ phân giải cao (HD).

👁️ 0 | 🔗 | 💖 | ✨ | 🌍 | ⌚
Trong công nghệ thông tin, **Nén dữ liệu** (tiếng Anh: _Data compression_) là việc chuyển định dạng thông tin sử dụng ít bit hơn cách thể hiện ở dữ liệu gốc. Tùy theo dữ liệu
thumb|Sự tăng trưởng và số hóa các khả năng lưu trữ thông tin trên toàn cầu **Dữ liệu lớn** (Tiếng Anh: **Big data**) là một thuật ngữ cho việc xử lý một tập hợp dữ
thumb|Một ví dụ về lấy dữ liệu đầu ra từ truy vấn cơ sở dữ liệu SQL. **Cơ sở dữ liệu** () là một tập hợp các dữ liệu có tổ chức liên quan đến
**Máy truy tìm dữ liệu trực tuyến** hay **máy tìm kiếm** hay **cỗ máy tìm kiếm** (tiếng Anh: _search engine_), hay còn được gọi với nghĩa rộng hơn là **công cụ tìm kiếm** (_search tool_),
**Rò rỉ dữ liệu** hay **vi phạm dữ liệu**, **lộ dữ liệu** là "việc tiết lộ, công khai hoặc làm mất thông tin cá nhân một cách trái phép". Kẻ tấn công có nhiều động
**Nén hình ảnh** là một loại của nén dữ liệu được áp dụng cho hình ảnh kỹ thuật số, để giảm chi phí cho việc lưu trữ hoặc truyền tải. Các thuật toán có thể
## Khái niệm dữ liệu thứ cấp Dữ liệu thứ cấp là dữ liệu đã có sẵn, không phải do mình thu thập, đã công bố nên dễ thu thập, ít tốn thời gian, tiền
nhỏ|phải|Mô hình dữ liệu đám mây **Dữ liệu đám mây** hay **Cơ sở dữ liệu đám mây** (_Cloud database_) là một cơ sở dữ liệu thường được chạy vận hành trên nền tảng điện toán
nhỏ| [[RNA là một phương tiện lưu trữ trong sinh học. ]] nhỏ|Các thiết bị lưu trữ điện tử khác nhau nhỏ|Máy ghi âm xi lanh Edison, khoảng năm 1899. Các xi lanh ghi âm
**Nén không tổn hao** (tiếng Anh: Lossless compression) là các định dạng nén dữ liệu theo thuật toán cho phép các dữ liệu có thể được tái tạo mà không bị mất thông tin. _Nén
**Tập dữ liệu COVID-19** là các cơ sở dữ liệu công khai nhằm chia sẻ dữ liệu các ca bệnh và thông tin y tế liên quan đến đại dịch COVID-19. ## Dữ liệu tổng
**Trao đổi dữ liệu điện tử** (Electronic Data Interchange - EDI) là sự truyền thông tin từ máy tính gửi đến máy tính nhận bằng phương tiện điện tử, trong đó có sử dụng một
**Tích hợp dữ liệu** liên quan đến việc kết hợp dữ liệu cư trú trong các nguồn khác nhau và cung cấp cho người dùng một cái nhìn thống nhất về chúng. Quá trình này
**Ứng dụng cơ sở dữ liệu** là một chương trình máy tính có mục đích chính là nhập và truy xuất thông tin từ cơ sở dữ liệu được máy tính hóa. Ví dụ ban
**Xử lý dữ liệu điện tử** có thể đề cập đến việc sử dụng các phương pháp tự động để xử lý dữ liệu thương mại. Thông thường, điều này sử dụng các hoạt động
nhỏ| Trung tâm dữ liệu [[ARSAT (2014) ]] **Trung tâm dữ liệu** (tiếng Anh Mỹ: data center, hoặc tiếng Anh Anh: data centre), là một tòa nhà, không gian dành riêng trong tòa nhà hoặc
Trong viễn thông, tốc độ truyền dữ liệu là số bit trung bình (bitrate), ký tự hoặc ký hiệu (baudrate) hoặc khối dữ liệu trên mỗi đơn vị thời gian đi qua một liên kết
**Tính nhất quán** (tiếng Anh: consistency) trong hệ thống cơ sở dữ liệu là yêu cầu rằng giao dịch cơ sở dữ liệu đã cho bất kỳ chỉ có thể thay đổi dữ liệu theo
nhỏ|Một ví dụ về cây phân loại CART **Khai phá dữ liệu** (_data mining_) Là quá trình tính toán để tìm ra các mẫu trong các bộ dữ liệu lớn liên quan đến các phương
**Bảo vệ dữ liệu cá nhân** khởi đầu dùng để chỉ việc bảo vệ dữ liệu có liên quan đến cá nhân trước sự lạm dụng. Trong vùng nói tiếng Anh người ta gọi đó
**Siêu dữ liệu không gian địa lý** () là các dữ liệu nhằm mô tả dữ liệu GIS. Thông thường trước khi sử dụng một loại dữ liệu GIS nào đó để thực hiện một
phải|192|[[Cây nhị phân, một kiểu đơn giản của cấu trúc dữ liệu liên kết rẽ nhánh.]] thumb|right|Bảng băm Trong khoa học máy tính, **cấu trúc dữ liệu** là một cách lưu dữ liệu trong máy
Trong khoa học máy tính, **cấu trúc dữ liệu cho các tập hợp không giao nhau** là một cấu trúc dữ liệu để lưu trữ một tập hợp các phần tử được phân chia thành
Trong hoạt động tính toán máy tính, **dữ liệu liên kết** mô tả một phương thức tạo ra dữ liệu có cấu trúc để có thể liên kết được với nhau và trở nên có
Trong lĩnh vực điện toán**, Khôi phục dữ liệu** (hay **Phục hồi dữ liệu**) là quá trình sử dụng các thiết bị, phần mềm lấy lại dữ liệu từ bị hư hỏng, lỗi hoặc bị
**Dữ liệu sơ cấp** là những dữ liệu chưa có sẵn, được thu thập lần đầu, do chính người nghiên cứu thu thập. Trong thực tế, khi dữ liệu thứ cấp không đáp ứng được
thế=Sơ đồ luồng dữ liệu bao gồm lưu trữ dữ liệu, luồng dữ liệu, chức năng và giao diện.|nhỏ|387x387px|Sơ đồ luồng dữ liệu bao gồm lưu trữ dữ liệu, luồng dữ liệu, chức năng và
Chuẩn hóa cơ sở dữ liệu là một phương pháp khoa học để phân tách (scientific method of breaking down) một bảng có cấu trúc phức tạp (complex table structures) thành những bảng có cấu
Thông tin và dữ liệu mà con người hiểu được tồn tại dưới nhiều dạng khác nhau, ví dụ như các số, các ký tự văn bản, âm thanh, hình ảnh... nhưng trong máy tính
**Dữ liệu cá nhân**, còn được gọi là **thông tin cá nhân** (personal information), **thông tin** **nhận dạng cá nhân** (personally identifying information - **PII**) hoặc **thông tin cá nhân nhạy cảm** (sensitive personal information
Trong khoa học máy tính, **cấu trúc dữ liệu mảng** hoặc **mảng** là một cấu trúc dữ liệu bao gồm một nhóm các phần tử giá trị hoặc biến, mỗi phần tử được xác định
**Hệ thống Dữ liệu Thế giới**, viết tắt tiếng Anh là **ISC-WDS** (World Data System) là một _tổ chức phi chính phủ, phi lợi nhuận quốc tế_ của Hội đồng Khoa học Quốc tế ISC,
Trong nhiều ngôn ngữ lập trình bắt nguồn từ C và Algol68, **kiểu void** (tiếng Anh: _void type_) là một kiểu kết quả của hàm nếu hàm này không trả về bất kì kết quả
nhỏ|Vùng vị trí của khoa học dữ liệu trong các ngành nghiên cứu **Khoa học dữ liệu** là một lĩnh vực liên ngành về các quá trình và các hệ thống rút trích tri thức
**Ingres database** ( ) là một hệ thống quan hệ quản lý cơ sở dữ liệu SQL độc quyền nhằm hỗ trợ các ứng dụng thương mại và chính phủ lớn. Actian Corporation là công
**Nén có tổn hao** (), đối lập với nén không tổn hao, là dạng nén chỉ cho phép phục hồi lại một phần dữ liệu gốc vì thế có thể làm mất một lượng thông
**Cục Chuyển đổi số và Thông tin dữ liệu tài nguyên môi trường** là cơ quan trực thuộc Bộ Tài nguyên và Môi trường, có chức năng tham mưu, giúp Bộ trưởng thống nhất quản
**MP3** là một dạng file đã được nén bằng cách nén dữ liệu có tổn hao (_lossy_). Nó là một dạng âm thanh được mã hóa PCM (_pulse-code modulation_) và có dung lượng nhỏ hơn
**Lý thuyết thông tin** là một nhánh của toán học ứng dụng và kĩ thuật điện nghiên cứu về đo đạc lượng thông tin. Lý thuyết thông tin được xây dựng bởi Claude E. Shannon
**Tài liệu Panama** hay **Hồ sơ Panama** () là một bộ 11,5 triệu tài liệu mật được tạo ra bởi nhà cung cấp dịch vụ của công ty Panama Mossack Fonseca cung cấp thông tin
nhỏ|Lương trung bình hàng tháng ở các tỉnh Ukraine tháng 7/ 2019 **Dữ liệu** **kinh tế** hoặc **thống kê kinh tế** là dữ liệu (các biện pháp định lượng) mô tả một nền kinh tế
Phân tích dữ liệu kinh doanh không còn là lựa chọn phụ trợ mà đã trở thành yếu tố cốt lõi trong vận hành và ra quyết định của doanh nghiệp hiện đại. Khi thông
Mọi tổ chức cung cấp dịch vụ dữ liệu hiện nay đều chấp nhận thực tế rằng việc có thể quản lý dữ liệu tốt cùng với việc cho phép khách hàng quản lý dữ
**LZW** là một phương pháp nén được phát minh bởi Lempel - Ziv và Welch. Nó hoạt động dựa trên một ý tưởng rất đơn giản là người mã hoá và người giải mã cùng
Trong khoa học máy tính và lý thuyết thông tin, **mã hóa Huffman** là một thuật toán mã hóa dùng để nén dữ liệu. Nó dựa trên bảng tần suất xuất hiện các ký tự
Mọi tổ chức cung cấp dịch vụ dữ liệu hiện nay đều chấp nhận thực tế rằng việc có thể quản lý dữ liệu tốt cùng với việc cho phép khách hàng quản lý dữ
Mọi tổ chức cung cấp dịch vụ dữ liệu hiện nay đều chấp nhận thực tế rằng việc có thể quản lý dữ liệu tốt cùng với việc cho phép khách hàng quản lý dữ
Trong thời đại công nghệ số phát triển nhanh chóng, việc số hóa dữ liệu sản phẩm không còn là lựa chọn mà đã trở thành yếu tố bắt buộc để doanh nghiệp duy trì
Ngày nay, chúng ta có thể dễ dàng bắt gặp những cụm từ như kỷ nguyên 4.0, big data, trí tuệ nhân tạo, khoa học dữ liệu. Những thuật ngữ này có vẻ phức tạp
Ngày nay, chúng ta có thể dễ dàng bắt gặp những cụm từ như kỷ nguyên 4.0, big data, trí tuệ nhân tạo, khoa học dữ liệu. Những thuật ngữ này có vẻ phức tạp