Tích hợp dữ liệu liên quan đến việc kết hợp dữ liệu cư trú trong các nguồn khác nhau và cung cấp cho người dùng một cái nhìn thống nhất về chúng. Quá trình này trở nên quan trọng trong nhiều tình huống, bao gồm cả thương mại (chẳng hạn như khi hai công ty tương tự cần hợp nhất cơ sở dữ liệu của họ) và khoa học (ví dụ kết hợp nghiên cứu từ các kho lưu trữ tin sinh học khác nhau). Tích hợp dữ liệu xuất hiện với tần suất tăng dần khi dung lượng (nghĩa là dữ liệu lớn) và nhu cầu chia sẻ dữ liệu hiện có đang bùng nổ. Tích hợp dữ liệu đã trở thành trọng tâm của công việc lý thuyết sâu rộng, và nhiều vấn đề mở hiện tại vẫn còn chưa được giải quyết. Tích hợp dữ liệu khuyến khích sự hợp tác giữa người dùng nội bộ cũng như người dùng bên ngoài.
Lịch sử
liên_kết=https://vi.wikipedia.org/wiki/File:Datawarehouse.png|phải|nhỏ|Hình 1: Sơ đồ đơn giản cho một kho dữ liệu. Quá trình [[trích xuất, chuyển đổi, tải (ETL) trích xuất thông tin từ cơ sở dữ liệu nguồn, biến đổi nó và sau đó tải nó vào kho dữ liệu.]]
liên_kết=https://vi.wikipedia.org/wiki/File:Dataintegration.png|phải|nhỏ|Hình 2: Sơ đồ đơn giản cho một giải pháp tích hợp dữ liệu. Một nhà thiết kế hệ thống xây dựng một lược đồ trung gian mà người dùng có thể chạy truy vấn. Các giao diện [[cơ sở dữ liệu ảo với cơ sở dữ liệu nguồn thông qua mã trình bao bọc nếu được yêu cầu.]]
Các vấn đề với việc kết hợp các nguồn dữ liệu không đồng nhất, thường được gọi là silo thông tin, trong một giao diện truy vấn duy nhất đã tồn tại một thời gian. Đầu những năm 1980, các nhà khoa học máy tính bắt đầu thiết kế các hệ thống cho khả năng tương tác của các cơ sở dữ liệu không đồng nhất. Hệ thống tích hợp dữ liệu đầu tiên được điều khiển bởi siêu dữ liệu có cấu trúc được thiết kế tại Đại học Minnesota vào năm 1991, dành cho Sê-ri Microdata sử dụng công cộng tích hợp (Integrated Public Use Microdata Series, viết tắt IPUMS). IPUMS đã sử dụng phương pháp lưu trữ dữ liệu, trích xuất, chuyển đổi và tải dữ liệu từ các nguồn không đồng nhất vào một lược đồ xem đơn để dữ liệu từ các nguồn khác nhau trở nên tương thích. Bằng cách làm cho hàng ngàn cơ sở dữ liệu dân số có thể tương tác, IPUMS đã chứng minh tính khả thi của tích hợp dữ liệu quy mô lớn. Cách tiếp cận kho dữ liệu cung cấp một kiến trúc được kết hợp chặt chẽ vì dữ liệu đã được đối chiếu vật lý trong một kho lưu trữ truy vấn duy nhất, do đó thường mất ít thời gian để giải quyết các truy vấn.
Cách tiếp cận kho dữ liệu ít khả thi hơn đối với các tập dữ liệu thường xuyên được cập nhật, yêu cầu quá trình trích xuất, chuyển đổi, tải (ETL) phải được thực hiện lại liên tục để đồng bộ hóa. Khó khăn cũng phát sinh trong việc xây dựng kho dữ liệu khi người ta chỉ có giao diện truy vấn để tóm tắt các nguồn dữ liệu và không có quyền truy cập vào dữ liệu đầy đủ. Vấn đề này thường xuất hiện khi tích hợp một số dịch vụ truy vấn thương mại như du lịch hoặc các ứng dụng web quảng cáo được phân loại.
xu hướng tích hợp dữ liệu ủng hộ nới lỏng sự ghép nối giữa dữ liệu và cung cấp giao diện truy vấn thống nhất để truy cập dữ liệu thời gian thực qua lược đồ trung gian (xem Hình 2), cho phép lấy thông tin trực tiếp từ cơ sở dữ liệu gốc. Điều này phù hợp với cách tiếp cận phổ biến trong thời đại đó. Cách tiếp cận này dựa trên ánh xạ giữa lược đồ trung gian và lược đồ của các nguồn ban đầu và chuyển đổi một truy vấn thành các truy vấn chuyên biệt để khớp với lược đồ của cơ sở dữ liệu gốc. Ánh xạ như vậy có thể được chỉ định theo hai cách: như ánh xạ từ các thực thể trong lược đồ trung gian sang các thực thể trong các nguồn ban đầu (cách tiếp cận "Toàn cầu theo quan điểm" (GAV)) hoặc như ánh xạ từ các thực thể trong nguồn ban đầu sang trung gian lược đồ (cách tiếp cận "Local As View" (LAV)). Cách tiếp cận thứ hai đòi hỏi các suy luận phức tạp hơn để giải quyết một truy vấn trên lược đồ trung gian, nhưng giúp dễ dàng thêm các nguồn dữ liệu mới vào một lược đồ trung gian (ổn định).
👁️
0 | 🔗 | 💖 | ✨ | 🌍 | ⌚
**Tích hợp dữ liệu** liên quan đến việc kết hợp dữ liệu cư trú trong các nguồn khác nhau và cung cấp cho người dùng một cái nhìn thống nhất về chúng. Quá trình này
**Phân tích dữ liệu** là một quá trình kiểm tra, làm sạch, chuyển đổi và mô hình hóa dữ liệu với mục tiêu khám phá thông tin hữu ích, thông báo kết luận và hỗ
nhỏ|Một ví dụ về cây phân loại CART **Khai phá dữ liệu** (_data mining_) Là quá trình tính toán để tìm ra các mẫu trong các bộ dữ liệu lớn liên quan đến các phương
thumb|Một ví dụ về lấy dữ liệu đầu ra từ truy vấn cơ sở dữ liệu SQL. **Cơ sở dữ liệu** () là một tập hợp các dữ liệu có tổ chức liên quan đến
thumb|Sự tăng trưởng và số hóa các khả năng lưu trữ thông tin trên toàn cầu **Dữ liệu lớn** (Tiếng Anh: **Big data**) là một thuật ngữ cho việc xử lý một tập hợp dữ
**Kho dữ liệu** (tiếng Anh: _data warehouse_) là kho lưu trữ dữ liệu lưu trữ bằng thiết bị điện tử của một tổ chức. Các kho dữ liệu được thiết kế để hỗ trợ việc
**Trao đổi dữ liệu điện tử** (Electronic Data Interchange - EDI) là sự truyền thông tin từ máy tính gửi đến máy tính nhận bằng phương tiện điện tử, trong đó có sử dụng một
Trong lĩnh vực điện toán**, Khôi phục dữ liệu** (hay **Phục hồi dữ liệu**) là quá trình sử dụng các thiết bị, phần mềm lấy lại dữ liệu từ bị hư hỏng, lỗi hoặc bị
nhỏ|Ví dụ về một cây nhị phân Trong khoa học máy tính, **cây** là một cấu trúc dữ liệu được sử dụng rộng rãi gồm một tập hợp các nút (tiếng Anh: _node_) được liên
**Phân tích website (Website analytics)** là việc đo lường, thu thập, phân tích và báo cáo dữ liệu web nhằm mục đích hiểu và tối ưu hóa việc sử dụng web. Tuy nhiên, phân tích
**Máy truy tìm dữ liệu trực tuyến** hay **máy tìm kiếm** hay **cỗ máy tìm kiếm** (tiếng Anh: _search engine_), hay còn được gọi với nghĩa rộng hơn là **công cụ tìm kiếm** (_search tool_),
nhỏ|Xử lý dữ liệu **Xử lý dữ liệu** nói chung là việc thu thập dữ liệu và xử lý các mục dữ liệu để tạo thông tin có ý nghĩa." Theo khía cạnh này, có
**Quản lý dữ liệu** bao gồm tất cả các ngành liên quan đến quản lý dữ liệu như một tài nguyên có giá trị. ## Khái niệm Khái niệm quản lý dữ liệu xuất hiện
**Hệ thống Thông tin Phân loại Tích hợp** (, được viết tắt là **ITIS**) là một đối tác được thiết kế để cung cấp các thông tin phù hợp và đáng tin cậy về phân
**Rò rỉ dữ liệu** hay **vi phạm dữ liệu**, **lộ dữ liệu** là "việc tiết lộ, công khai hoặc làm mất thông tin cá nhân một cách trái phép". Kẻ tấn công có nhiều động
**Xóa dữ liệu** (còn được gọi là **hủy dữ liệu**, ) là phương pháp của phần mềm xóa dữ liệu nhằm mục đích xóa hoàn toàn tất cả dữ liệu trên ổ đĩa cứng hoặc
**Xử lý dữ liệu điện tử** có thể đề cập đến việc sử dụng các phương pháp tự động để xử lý dữ liệu thương mại. Thông thường, điều này sử dụng các hoạt động
**Giảm chiều dữ liệu** (tiếng Anh: **dimensionality reduction**, hay **dimension reduction**), là sự biến đổi dữ liệu từ không gian chiều-cao thành không gian chiều-thấp để biểu diễn ở dạng chiều-thấp đồng thời giữ lại
**Tích hợp ứng dụng doanh nghiệp** (tiếng Anh: _enterprise application integration – EAI_) kết nối các chức năng kinh doanh của một doanh nghiệp, thường bị phân tán trên các hệ (_platform_) khác nhau, nhằm
Một **hệ thống xử lý dữ liệu** là sự kết hợp giữa máy móc, con người và các quá trình cho một bộ đầu vào tạo ra một tập các kết quả xác định. Các
**Bảo vệ dữ liệu cá nhân** khởi đầu dùng để chỉ việc bảo vệ dữ liệu có liên quan đến cá nhân trước sự lạm dụng. Trong vùng nói tiếng Anh người ta gọi đó
**Dữ liệu sơ cấp** là những dữ liệu chưa có sẵn, được thu thập lần đầu, do chính người nghiên cứu thu thập. Trong thực tế, khi dữ liệu thứ cấp không đáp ứng được
## Khái niệm dữ liệu thứ cấp Dữ liệu thứ cấp là dữ liệu đã có sẵn, không phải do mình thu thập, đã công bố nên dễ thu thập, ít tốn thời gian, tiền
Trong khoa học máy tính, **cấu trúc dữ liệu cho các tập hợp không giao nhau** là một cấu trúc dữ liệu để lưu trữ một tập hợp các phần tử được phân chia thành
nhỏ| Ví dụ về thu thập dữ liệu trong khoa học sinh học: [[Chim cánh cụt Adélie được xác định và được cân mỗi khi chúng đi qua cầu cân tự động trên đường đến
**Hệ cơ sở dữ liệu nhúng** là một hệ quản trị cơ sở dữ liệu (DBMS) được tích hợp chặt chẽ với một phần mềm ứng dụng yêu cầu quyền truy cập vào dữ liệu
**Thu thập dữ liệu mẫu** là quá trình lấy mẫu tín hiệu để đo các điều kiện vật lý trong thế giới thực và chuyển đổi các mẫu kết quả thành giá trị số kỹ
AutoCADComputer - Aided designlà phần mềm của hãngAutodesk. Đây là phần mềm hỗ trợ công việc thiết kế cho các ngànhCơ khí, Kiến trúc, Xây dựng, Điện Tính năng của phần mềmAutoCADtại thời điểm này
**Cục Chuyển đổi số và Thông tin dữ liệu tài nguyên môi trường** là cơ quan trực thuộc Bộ Tài nguyên và Môi trường, có chức năng tham mưu, giúp Bộ trưởng thống nhất quản
**Tái tạo và thu thập dữ liệu 3D** là việc tạo ra các mô hình ba chiều hoặc không gian từ dữ liệu cảm biến. Các kỹ thuật và lý thuyết, nói chung, hoạt động
Biến dữ liệu thành trí tuệ không chỉ là chuyện tương lai – đó là hiện tại. Big Data cung cấp lượng “nhiên liệu” khổng lồ, trong khi Machine Learning (ML) chính là “động cơ”
**Phép phân tích thành phần chính** (Principal Components Analysis - PCA) là một thuật toán thống kê sử dụng phép biến đổi trực giao để biến đổi một tập hợp dữ liệu từ một không
thumb|Tóm tắt một số cách pha ethanol chính trên thế giới Có một số **hỗn hợp nhiên liệu ethanol phổ biến** được sử dụng trên thế giới. Việc sử dụng hoàn toàn ethanol lỏng hoặc
**Hệ thống tổng hợp kết quả đánh giá** là một hệ thống chuyên thu thập bài đánh giá về các sản phẩm và dịch vụ (như phim, sách, trò chơi điện tử, phần mềm, phần
Trong tài chính, **phân tích kỹ thuật** là một phương pháp phân tích chứng khoán dự báo hướng của giá cả thông qua việc nghiên cứu các dữ liệu thị trường quá khứ, chủ yếu
**Phân tích tính toán** (Analytics) là phân tích tính toán có hệ thống của dữ liệu hoặc thống kê. Đây là quá trình phát hiện, giải thích và truyền đạt các mô hình có ý
**Tài liệu Panama** hay **Hồ sơ Panama** () là một bộ 11,5 triệu tài liệu mật được tạo ra bởi nhà cung cấp dịch vụ của công ty Panama Mossack Fonseca cung cấp thông tin
**Phân tích tìm kiếm** (Search analytics) là việc phân tích các truy vấn tìm kiếm được nhập bởi người dùng của một công cụ tìm kiếm (Search tool) cụ thể (Ví dụ: Google, Bing, Wolfram
Phân tích dữ liệu kinh doanh không còn là lựa chọn phụ trợ mà đã trở thành yếu tố cốt lõi trong vận hành và ra quyết định của doanh nghiệp hiện đại. Khi thông
Trong thời đại công nghệ số, dữ liệu đã trở thành một trong những tài sản quý giá nhất của doanh nghiệp. Việc quản lý và khai thác hiệu quả dữ liệu không chỉ giúp
Trong thời đại công nghệ 4.0, Big Data và Blockchain là hai "người khổng lồ" đang thay đổi cách con người xử lý và sử dụng dữ liệu. Big Data phân tích khối lượng dữ
nhỏ|Ví dụ của Computer-Aided Software Engineering (CASE) **Computer-Aided Software Engineering** (CASE) là hệ thống các công cụ được sử dụng để thiết kế và phát triển các phần mềm với sự trợ giúp của máy
nhỏ|Lương trung bình hàng tháng ở các tỉnh Ukraine tháng 7/ 2019 **Dữ liệu** **kinh tế** hoặc **thống kê kinh tế** là dữ liệu (các biện pháp định lượng) mô tả một nền kinh tế
**Ngôn ngữ truy vấn tích hợp** (tiếng Anh: _Language Integrated Query_, viết tắt _LINQ_) là một thành phần của .NET và .NET Framework cung cấp khả năng truy vấn cấp độ ngôn ngữ và cùng
Big Data (dữ liệu lớn) là thuật ngữ dùng để chỉ khối lượng dữ liệu khổng lồ, được tạo ra với tốc độ cao và ở nhiều định dạng khác nhau như số liệu thị
Dữ liệu là tài sản quý giá, và giờ đây, ngay cả các Doanh nghiệp Vừa và Nhỏ (SMEs) cũng có thể khai thác để đưa ra quyết định thông minh hơn.- Hiểu rõ khách
nhỏ|Nguyên lý hoạt động của Dịch vụ vô tuyến gói tổng hợp **Dịch vụ vô tuyến gói tổng hợp** (tiếng Anh: General Packet Radio Service (GPRS)) là một dịch vụ dữ liệu di động dạng
phải|nhỏ|230x230px| Nhiều góc độ và chi tiết khác nhau của "MaxScan OE509" - một máy quét cầm tay chẩn đoán tích hợp (OBD) khá điển hình từ thập kỷ đầu tiên của thế kỷ 21.
**Ủy ban Dữ liệu Khoa học và Công nghệ**, viết tắt theo tiếng Anh là **CODATA** (Committee on Data for Science and Technology) là một ủy ban liên kết đa ngành do Hội đồng Quốc
Máy xịt rửa tay sát khuẩn, tích hợp nhiệt kế đo thân nhiệt không tiếp xúc bằng hồng ngoại K9 Pro là dòng sản phẩm tích hợp nhiệt kế điện tử hồng ngoại thông minh