nhỏ|Một ví dụ về cây phân loại CART
Khai phá dữ liệu (data mining) Là quá trình tính toán để tìm ra các mẫu trong các bộ dữ liệu lớn liên quan đến các phương pháp tại giao điểm của máy học, thống kê và các hệ thống cơ sở dữ liệu. Đây là một lĩnh vực liên ngành của khoa học máy tính. Mục tiêu tổng thể của quá trình khai thác dữ liệu là trích xuất thông tin từ một bộ dữ liệu và chuyển nó thành một cấu trúc dễ hiểu để sử dụng tiếp.
Diễn giải
Khai phá dữ liệu là một bước của quá trình khai thác tri thức (_Knowledge Discovery Proces_s), bao gồm:
Xác định vấn đề và không gian dữ liệu để giải quyết vấn đề (Problem understanding and data understanding).
Chuẩn bị dữ liệu (Data preparation), bao gồm các quá trình làm sạch dữ liệu (data cleaning), tích hợp dữ liệu (data integration), chọn dữ liệu (data selection), biến đổi dữ liệu (data transformation).
Khai thác dữ liệu (Data mining): xác định nhiệm vụ khai thác dữ liệu và lựa chọn kỹ thuật khai thác dữ liệu. Kết quả cho ta một nguồn tri thức thô.
Đánh giá (Evaluation): dựa trên một số tiêu chí tiến hành kiểm tra và lọc nguồn tri thức thu được.
*Triển khai (Deployment).
Quá trình khai thác tri thức không chỉ là một quá trình tuần tự từ bước đầu tiên đến bước cuối cùng mà là một quá trình lặp và có quay trở lại các bước đã qua.
Các phương pháp khai thác dữ liệu
- Phân loại (Classification): Là phương pháp dự báo, cho phép phân loại một đối tượng vào một hoặc một số lớp cho trước.
- Hồi qui (Regression): Khám phá chức năng học dự đoán, ánh xạ một mục dữ liệu thành biến dự đoán giá trị thực.
- Phân nhóm (Clustering): Một nhiệm vụ mô tả phổ biến trong đó người ta tìm cách xác định một tập hợp hữu hạn các cụm để mô tả dữ liệu.
- Tổng hợp (Summarization): Một nhiệm vụ mô tả bổ sung liên quan đến phương pháp cho việc tìm kiếm một mô tả nhỏ gọn cho một bộ (hoặc tập hợp con) của dữ liệu.
- Mô hình ràng buộc (Dependency modeling): Tìm mô hình cục bộ mô tả các phụ thuộc đáng kể giữa các biến hoặc giữa các giá trị của một tính năng trong tập dữ liệu hoặc trong một phần của tập dữ liệu.
- Dò tìm biến đổi và độ lệch (Change and Deviation Detection): Khám phá những thay đổi quan trọng nhất trong bộ dữ liệu.
Các vấn đề về tính riêng tư
Vẫn có các mối lo ngại về tính riêng tư gắn với việc khai thác dữ liệu. Ví dụ, nếu một ông chủ có quyền truy xuất vào các hồ sơ y tế, họ có thể loại những người có bệnh tiểu đường hay bệnh tim. Việc loại ra những nhân viên như vậy sẽ cắt giảm chi phí bảo hiểm, nhưng tạo ra các vấn đề về tính hợp pháp và đạo đức.
Khai thác dữ liệu các tập dữ liệu thương mại hay chính phủ cho các mục đích áp đặt luật pháp và an ninh quốc gia cũng là những mối lo ngại về tính riêng tư đang tăng cao.
Có nhiều cách sử dụng hợp lý với khai thác dữ liệu. Ví dụ, một CSDL các mô tả về thuốc được thực hiện bởi một nhóm người có thể được dùng để tìm kiếm sự kết hợp của các loại thuốc tạo ra các phản ứng (hóa học) khác nhau. Vì việc kết hợp có thể chỉ xảy ra trong một phần 1000 người, một trường hợp đơn lẻ là rất khó phát hiện. Một dự án liên quan đến y tế như vậy có thể giúp giảm số lượng phản ứng của thuốc và có khả năng cứu sống con người. Không may mắn là, vẫn có khả năng lạm dụng đối với một CSDL như vậy.
Về cơ bản, khai thác dữ liệu đưa ra các thông tin mà sẽ không có sẵn được. Nó phải được chuyển đổi sang một dạng khác để trở nên có nghĩa. Khi dữ liệu thu thập được liên quan đến các cá nhân, thì có nhiều câu hỏi đặt ra liên quan đến tính riêng tư, tính hợp pháp, và đạo đức.
Các lĩnh vực ứng dụng
Các lĩnh vực hiện tại có ứng dụng Khai thác dữ liệu bao gồm:
Những ứng dụng đáng chú ý của khai thác dữ liệu
*Khai thác dữ liệu được xem là phương pháp mà đơn vị Able Danger của Quân đội Mỹ đã dùng để xác định kẻ đứng đầu cuộc tấn công ngày 11 tháng 9, Mohamed Atta, và ba kẻ tấn công ngày 11 tháng 9 khác là các thành viên bị nghi ngờ thuộc lực lượng al Qaeda hoạt động ở Mỹ hơn một năm trước cuộc tấn công.
Xem tin tức Wikinews tại: [http://en.wikinews.org/w/index.php?title=U.S._Army_intelligence_had_detected_9/11_terrorists_year_before%2C_says_officer&oldid=130741 Wikinews: U.S. Army intelligence detection of 9/11 terrorists before attack]
Xem bài viết về đơn vị Able Danger.
👁️
2 | 🔗 | 💖 | ✨ | 🌍 | ⌚
nhỏ|Một ví dụ về cây phân loại CART **Khai phá dữ liệu** (_data mining_) Là quá trình tính toán để tìm ra các mẫu trong các bộ dữ liệu lớn liên quan đến các phương
**Khai phá khái niệm** (hay còn gọi là **khai thác khái niệm**, tiếng Anh: **concept mining**) là một hoạt động mà các kết quả có được trong quá trình rút trích các khái niệm từ
**Kho dữ liệu** (tiếng Anh: _data warehouse_) là kho lưu trữ dữ liệu lưu trữ bằng thiết bị điện tử của một tổ chức. Các kho dữ liệu được thiết kế để hỗ trợ việc
thumb|Một ví dụ về lấy dữ liệu đầu ra từ truy vấn cơ sở dữ liệu SQL. **Cơ sở dữ liệu** () là một tập hợp các dữ liệu có tổ chức liên quan đến
thumb|Sự tăng trưởng và số hóa các khả năng lưu trữ thông tin trên toàn cầu **Dữ liệu lớn** (Tiếng Anh: **Big data**) là một thuật ngữ cho việc xử lý một tập hợp dữ
**Rò rỉ dữ liệu** hay **vi phạm dữ liệu**, **lộ dữ liệu** là "việc tiết lộ, công khai hoặc làm mất thông tin cá nhân một cách trái phép". Kẻ tấn công có nhiều động
**Phân tích dữ liệu** là một quá trình kiểm tra, làm sạch, chuyển đổi và mô hình hóa dữ liệu với mục tiêu khám phá thông tin hữu ích, thông báo kết luận và hỗ
**Cục Chuyển đổi số và Thông tin dữ liệu tài nguyên môi trường** là cơ quan trực thuộc Bộ Tài nguyên và Môi trường, có chức năng tham mưu, giúp Bộ trưởng thống nhất quản
**Neural Designer** là một công cụ phần mềm dùng cho khai phá dữ liệu dựa trên các kỹ thuật máy học, một khu vực chính của nghiên cứu trí tuệ nhân tạo. Nó đã được
**Khai thác văn bản** (hay còn gọi là **khai phá văn bản**, tiếng Anh: **text mining** hoặc **text data mining**) là một quá trình xử lý và trích xuất thông tin nằm trong văn bản,
nhỏ|Vùng vị trí của khoa học dữ liệu trong các ngành nghiên cứu **Khoa học dữ liệu** là một lĩnh vực liên ngành về các quá trình và các hệ thống rút trích tri thức
Ngày nay, Big Data đã trở thành một thuật ngữ quen thuộc trong thế giới kinh doanh. Các doanh nghiệp đang không ngừng cải tiến, tìm kiếm cách khai thác và phân tích khối lượng
**Máy truy tìm dữ liệu trực tuyến** hay **máy tìm kiếm** hay **cỗ máy tìm kiếm** (tiếng Anh: _search engine_), hay còn được gọi với nghĩa rộng hơn là **công cụ tìm kiếm** (_search tool_),
**Xóa dữ liệu** (còn được gọi là **hủy dữ liệu**, ) là phương pháp của phần mềm xóa dữ liệu nhằm mục đích xóa hoàn toàn tất cả dữ liệu trên ổ đĩa cứng hoặc
**Bảo vệ dữ liệu cá nhân** khởi đầu dùng để chỉ việc bảo vệ dữ liệu có liên quan đến cá nhân trước sự lạm dụng. Trong vùng nói tiếng Anh người ta gọi đó
Cuốn sách Dữ Liệu Lớn của Viktor Mayer-Schönberger và Kenneth Cukier trình bày cách mà dữ liệu lớn đang thay đổi cách chúng ta nhìn nhận thế giới. Tác giả phân tích cách dữ liệu
Cuốn sách Dữ Liệu Lớn của Viktor Mayer-Schönberger và Kenneth Cukier trình bày cách mà dữ liệu lớn đang thay đổi cách chúng ta nhìn nhận thế giới. Tác giả phân tích cách dữ liệu
Cuốn sách Dữ Liệu Lớn của Viktor Mayer-Schönberger và Kenneth Cukier trình bày cách mà dữ liệu lớn đang thay đổi cách chúng ta nhìn nhận thế giới. Tác giả phân tích cách dữ liệu
nhỏ|phải|Quyết định bản chất nó là sự lựa chọn Trong lý thuyết quyết định (chẳng hạn quản lý rủi ro), một **cây quyết định** (tiếng Anh: _decision tree_) là một đồ thị của các quyết
thumb|Kết quả một phân tích cụm chỉ ra các hình vuông theo màu sắc được chia thành 3 cụm (nhóm). **Phân tích cụm** (hay **phân nhóm**, **gom cụm**, tiếng Anh: **cluster analysis**) là một tác
**Tái tạo và thu thập dữ liệu 3D** là việc tạo ra các mô hình ba chiều hoặc không gian từ dữ liệu cảm biến. Các kỹ thuật và lý thuyết, nói chung, hoạt động
Trong thời đại công nghệ 4.0, chuyển đổi số đang trở thành một xu hướng tất yếu đối với mọi doanh nghiệp. Một trong những yếu tố quan trọng nhất trong quá trình này chính
Trong thời đại công nghệ 4.0, chuyển đổi số đang trở thành một xu hướng tất yếu đối với mọi doanh nghiệp. Một trong những yếu tố quan trọng nhất trong quá trình này chính
Trong thời đại công nghệ 4.0, chuyển đổi số đang trở thành một xu hướng tất yếu đối với mọi doanh nghiệp. Một trong những yếu tố quan trọng nhất trong quá trình này chính
Sau đây là **danh sách các dự án trí tuệ nhân tạo** trong hiện tại và quá khứ đáng chú ý. ## Các dự án chuyên ngành ### Mô phỏng bộ não con người *
Mọi tổ chức cung cấp dịch vụ dữ liệu hiện nay đều chấp nhận thực tế rằng việc có thể quản lý dữ liệu tốt cùng với việc cho phép khách hàng quản lý dữ
Mọi tổ chức cung cấp dịch vụ dữ liệu hiện nay đều chấp nhận thực tế rằng việc có thể quản lý dữ liệu tốt cùng với việc cho phép khách hàng quản lý dữ
thumb|right|Trang bìa của Dự án Blue Book. **Dự án Blue Book** (_Sách Xanh_ hay _Quyển sách màu Xanh da trời_) là một trong hàng loạt nghiên cứu có hệ thống về vật thể bay không
- GS.TS. Hồ Tú Bảo hiện là Giám đốc Phòng thí nghiệm Khoa học dữ liệu của Viện Nghiên cứu Cao cấp Về Toán (VIASM) và Giám đốc khoa học của Viện John von Neumann
Mọi tổ chức cung cấp dịch vụ dữ liệu hiện nay đều chấp nhận thực tế rằng việc có thể quản lý dữ liệu tốt cùng với việc cho phép khách hàng quản lý dữ
Tây Ninh, ngày 31 tháng 7 năm 2025 – Ủy ban nhân dân tỉnh Tây Ninh đã tổ chức cuộc họp quan trọng vào sáng ngày 31 tháng 7 năm 2025 để đánh giá tình
thumb|hochkant=1.8|Radar của trạm Echelon 81 cũ tại [[Bad Aibling, Bayern]] **Scandal việc do thám bí mật người dân 2013** dính líu tới những sự kiện xảy ra từ tháng 6 năm 2013, sau khi cựu
**MATLAB** là phần mềm cung cấp môi trường tính toán số và lập trình, do công ty MathWorks thiết kế. MATLAB cho phép tính toán số với ma trận, vẽ đồ thị hàm số hay
Trong thời đại công nghệ 4.0, Big Data và Blockchain là hai "người khổng lồ" đang thay đổi cách con người xử lý và sử dụng dữ liệu. Big Data phân tích khối lượng dữ
**Dự án Phả hệ Toán học** (**Mathematics Genealogy Project**) là một cơ sở dữ liệu nền tảng web dành cho mối liên hệ giữa các thế hệ các nhà toán học. Đến tháng 10 năm
**Cambridge Analytica LLC** (**CA**) là một công ty tư nhân chuyên về khai phá dữ liệu, môi giới dữ liệu, và phân tích dữ liệu với truyền thông chiến lược chuyên dụng cho quá trình
**Liêu Ninh** (, ) là một tỉnh nằm ở Đông Bắc Cộng hòa Nhân dân Trung Hoa. Năm 2018, Liêu Ninh là tỉnh đông thứ mười bốn về số dân, đứng thứ mười bốn về
**Phương tiện truyền thông mạng xã hội** (tiếng Anh: _social media_) là các ứng dụng hoặc chương trình được xây dựng dựa trên nền tảng Internet, nhằm tạo điều kiện cho việc tạo mới hoặc
**Thời đại Khám phá** hay **Thời đại Thám hiểm** là cách gọi phổ thông về những khám phá địa lý của châu Âu vào khoảng thời kỳ cận đại, phần lớn trùng lặp với kỷ
**Dự án Manhattan** () là một dự án nghiên cứu và phát triển bom nguyên tử đầu tiên trong Thế chiến II, chủ yếu do Hoa Kỳ thực hiện với sự giúp đỡ của Anh
**Nhà Liêu** hay **Liêu triều** ( 907/916-1125), còn gọi là nước **Khiết Đan** (契丹國, đại tự Khiết Đan: Tập tin:契丹國.png) là một triều đại phong kiến do người Khiết Đan kiến lập trong lịch sử
Biểu trưng và khẩu hiệu của ngành Du lịch Việt Nam giai đoạn 2012-2015 do Tổng cục Du lịch Việt Nam đưa ra. [[Vịnh Hạ Long]] nhỏ|Du khách thăm [[Đền Ngọc Sơn và cầu Thê
phải|[[Nhà thờ chính tòa Phát Diệm về đêm]] **Năm Du lịch quốc gia 2020** với “_Hoa Lư - Cố đô ngàn năm_” là chuỗi các sự kiện từng được lên kế hoạch tổ chức của
[[Tập tin:Abortion Laws.svg|thumb| **Ghi chú**: Trong một số quốc gia hoặc vùng lãnh thổ, các luật phá thai chịu ảnh hưởng của một số luật, quy định, pháp lý hoặc quyết định tư pháp khác.
nhỏ|Haumea và các vệ tinh của nó Haumea là hành tinh đầu tiên trong số các hành tinh lùn được IAU công nhận hiện nay được phát hiện kể từ Sao Diêm Vương năm 1930.
**R** là một ngôn ngữ lập trình và môi trường phần mềm dành cho tính toán và đồ họa thống kê. Đây là một bản hiện thực ngôn ngữ lập trình S với ngữ nghĩa
nguyễn công minh trí là người tạo ra **Công nghiệp 4.0**. Công nghiệp 4.0 tập trung vào công nghệ kỹ thuật số từ những thập kỷ gần đây lên một cấp độ hoàn toàn mới
Đây là danh sách **Phần mềm mã nguồn mở**: là phần mềm máy tính được cấp phép giấy phép mã nguồn mở. Bài viết này không có tham vọng liệt kê tất cả những phần
thumb|Vùng rừng Amazon bị phá tại [[Bolivia.]] Rừng nhiệt đới Amazon là rừng nhiệt đới lớn nhất thế giới, có diện tích . Rừng này đại diện cho hơn một nửa các khu rừng mưa
**Năm Du lịch quốc gia 2021** có chủ đề "_Hoa Lư - Cố đô ngàn năm_" là chuỗi các sự kiện kinh tế - văn hóa - xã hội tiêu biểu nhất của ngành Du