✨Mô hình không gian véctơ

Mô hình không gian véctơ

Mô hình không gian véctơ hay mô hình thuật ngữ véctơ (tiếng Anh: vector space model) là một mô hình đại số dùng để thể hiện các tài liệu văn bản (và bất cứ đối tượng nào nói chung) dưới dạng các chỉ số (định danh) nhận dạng không gian vectơ, chẳng hạn như các thuật ngữ chỉ mục. Mô hình này được sử dụng trong hệ thống lọc thông tin (information filtering system), truy hồi thông tin, lập chỉ mục và xếp hạng độ liên quan. Mô hình không gian véctơ được sử dụng lần đầu ở hệ thống truy hồi thông tin SMART.

Định nghĩa

Cho một tập bao gồm các tài liệu và các truy vấn được biểu diễn dưới dạng véctơ như sau:

:dj = (w{1,j} ,w{2,j} , \dotsc,w{t,j} ) :q = (w{1,q} ,w{2,q} , \dotsc,w_{n,q} )

Với dj là biểu diễn của tài liệu thứ jw{1,j} là trọng lượng của từ w_{1} xuất hiện trong tài liệu dj. Truy vấn q là một truy vấn để tìm kiếm thông tin trên tập các tài liệu và w{1,q} là trọng lượng của từ w_{1} trong truy vấn này.

Mỗi chiều tương ứng một thuật ngữ rời rạc (tách rời). Nếu một thuật ngữ xuất hiện trong tài liệu, giá trị của nó trong véctơ khác không. Có vài cách để tính toán các giá trị này, hay còn gọi là trọng lượng (thuật ngữ) đã được phát triển. Một cách những cách phổ biến là trọng lượng tf–idf.

Khái niệm thuật ngữ được định nghĩa khác nhau tùy theo ứng dụng. Thông thường, thuật ngữ hay được xem là các từ đơn, từ khóa hay các cụm từ dài hơn như danh động từ. Nếu các từ được chọn làm thuật ngữ, thì chiều của vectơ là số từ trong từ vựng (số từ riêng biệt xuất hiện trong ngữ liệu văn bản). Các phép tính vectơ có thể được sử dụng để so sánh tài liệu với các truy vấn.

Các mô hình dựa trên và mở rộng mô hình không gian vectơ

Các mô hình dựa trên hoặc mở rộng mô hình không gian véctơ bao gồm:

  • Mô hình không gian véc tơ tổng quát
  • Phân tích ngữ nghĩa tiềm ẩn
  • Cấu trúc Herbrand
  • Nearest centroid classifier
  • Lập chỉ mục ngẫu nhiên
👁️ 0 | 🔗 | 💖 | ✨ | 🌍 | ⌚
**Mô hình không gian véctơ** hay **mô hình thuật ngữ véctơ** (tiếng Anh: **vector space model**) là một mô hình đại số dùng để thể hiện các tài liệu văn bản (và bất cứ đối
Trong xử lý ngôn ngữ tự nhiên (NLP), **vectơ từ** (còn được gọi là **biểu diễn từ**, **nhúng từ**, hay **word embedding**) là một cách biểu diễn từ ngữ. Vectơ từ được sử dụng trong
Mọi điểm trong không gian Euclid ba chiều biểu hiện trong hệ quy chiếu [[Hệ tọa độ Descartes|Descartes]] Khoảng 300 năm TCN, nhà toán học Hy Lạp cổ đại Euclid đã tiến hành nghiên cứu
phải|nhỏ|Không gian vectơ là một tập các đối tượng có định hướng (được gọi là các vectơ) có thể co giãn và cộng. Trong toán học, **không gian vectơ** (hay còn gọi là không gian
nhỏ|300x300px|Biểu diễn hình học của góc giữa hai vectơ, được định nghĩa bởi tích trong. thế=Scalar product spaces, inner product spaces, Hermitian product spaces.|nhỏ|300x300px|Các không gian tích vô hướng trên một trường bất kỳ có
Trong toán học, **không gian Hilbert** (Hilbert Space) là một dạng tổng quát hóa của không gian Euclid mà không bị giới hạn về vấn đề hữu hạn chiều. Đó là một không gian có
**Không gian tôpô** là những cấu trúc cho phép người ta hình thức hóa các khái niệm như là sự hội tụ, tính liên thông và tính liên tục. Những dạng thường gặp của **không
Trong toán học, **không gian Sobolev** là một không gian vectơ của các hàm số trang bị với một chuẩn là tổng của chuẩn _Lp_ của hàm số đó cùng với các đạo hàm cho
nhỏ|phải|Các đoạn thẳng trong không gian afin 2 chiều. Trong toán học, **không gian afin** (hoặc **không gian aphin**) là một cấu trúc hình học tổng quát tính chất của các đường thẳng song song
nhỏ|Hình [[tứ diện, một đối tượng thường gặp trong các bài toán hình học không gian.]] Trong toán học và hình học, **hình học không gian** là một nhánh của hình học nghiên cứu các
**Mô hình phân biệt** (tiếng Anh: **_discriminative model_**, **conditional model**) là lớp các mô hình logistic dùng cho phân loại bằng thống kê hay hồi quy. Chúng phân biệt ranh giới quyết định thông qua
nhỏ|In tách màu:
1. Cyan C
2. Magenta M
3. Yellow Y
4. Black K
5. Cyan+Magenta C+M
6. Cyan+Magenta+Yellow C+M+Y
7. CMYK Từ **CMYK** (hay đôi khi là **YMCK**) là từ viết tắt trong tiếng Anh để chỉ mô hình màu
Trong **thị giác máy tính**, **mô hình túi từ** (**bag-of-words model,** mô hình BoW) có thể được áp dụng để phân loại hình ảnh, bằng cách coi các đặc trưng của hình ảnh như từ
Trong toán học, **không gian tiếp tuyến** của một đa tạp tạo điều kiện cho việc khái quát các vectơ từ không gian affine sang đa tạp, vì đối với đa tạp, người ta không
Giáo trình Hình học vi phần này là một giáo trình về hình học vi phân cổ điển lí thuyết về đường và mặt trong không gian Euclid hai, ba chiều, đồng thời là một
Trong toán học, **không gian Banach**, đặt theo tên Stefan Banach người nghiên cứu các không gian đó, là một trong những đối tượng trung tâm của nghiên cứu về giải tích hàm. Nhiều không
Trong toán học, đặc biệt là hình học đại số, một **không gian mo-đu-li** (hay không gian **moduli**) là một **không gian** **hình học** (thường là một lược đồ hoặc một chùm đại số) có
Trong truy hồi thông tin, **tf–idf**, **TF*IDF**, hay **TFIDF**, viết tắt từ cụm từ tiếng Anh: **term frequency–inverse document frequency**, là một thống kê số học nhằm phản ánh tầm quan trọng của một từ
Trong Toán học, Vật lí và kĩ thuật, **vectơ** hay **hướng lượng** (theo phiên âm Hán Việt) (tiếng Anh: _vector_) là một đoạn thẳng có hướng. Đoạn thẳng này biểu thị phương, chiều và độ
phải|nhỏ|250x250px| [[Mặt Mobius|Dải Mobius (mở rộng vô hạn) là một phân thớ đường trên đường tròn **S**1. Trong một lân cận địa phương tại mọi điểm của **S**1, nó đồng phôi với _U_×**R** (trong đó
Trong vật lý, **không–thời gian** là một mô hình toán học kết hợp không gian ba chiều và 1 chiều thời gian để trở thành một không gian bốn chiều. Sơ đồ không–thời gian có
Trường vectơ được cho bởi các vectơ có dạng (−_y_, _x_) Trong toán học và vật lý, **trường vectơ** là một kết cấu trong giải tích vectơ gán tương ứng một vectơ cho mỗi điểm
phải|nhỏ| Một nhát cắt s của một phân thớ p\colon E\to B. Một nhát cắt s cho phép không gian cơ sở B được đồng nhất với một không gian con s(B) của E. phải|nhỏ|
phải|nhỏ| Ánh xạ mũ của Trái Đất nhìn từ cực bắc là phép chiếu phương vị đứng (bảo toàn khoảng cách) trong địa lý. Trong hình học Riemann, **ánh xạ mũ** hay **ánh xạ exp**
**Mô hình túi từ (bag-of-words)** là một biểu diễn đơn giản hóa được sử dụng trong xử lý ngôn ngữ tự nhiên và truy vấn thông tin (IR). Trong mô hình này, một văn bản
phải|nhỏ|250x250px|Ma trận biến đổi _A_ tác động bằng việc kéo dài vectơ _x_ mà không làm đổi phương của nó, vì thế _x_ là một vectơ riêng của _A_. Trong đại số tuyến tính, một
nhỏ|Bao lồi của tập hợp màu đỏ là [[tập lồi màu xanh và màu đỏ.]] Trong hình học, **bao lồi** của một hình là tập hợp lồi nhỏ nhất chứa hình đó. Bao lồi có
**Giải tích vectơ**, hay **tích phân vectơ**, liên quan đến vi phân và tích phân các trường vectơ, chủ yếu trong không gian Euclide 3 chiều \mathbb{R}^3. Thuật ngữ "tích phân véctơ" đôi khi được
**Định dạng tập tin hình ảnh** là phương tiện chuẩn hóa để tổ chức và lưu trữ hình ảnh kỹ thuật số. Định dạng tập tin hình ảnh có thể lưu trữ dữ liệu ở
right|thumb|Một lưới hình chữ nhật (trên) và ảnh của nó qua một [[ánh xạ bảo giác (dưới).]] Trong toán học, một **hàm chỉnh hình** (**ánh xạ bảo giác**) là một hàm nhận giá trị phức
nhỏ|Tích vô hướng hình học, định nghĩa bởi góc. **Tích vô hướng** (tên tiếng Anh: **dot product** hoặc **scalar product**) là một phép toán đại số lấy hai chuỗi số có độ dài bằng nhau
Trong hình học, một **vị trí** hoặc **vector vị trí**, còn được gọi là **tọa độ** **vector** hoặc **bán kính** **vector,** là một vectơ đại diện cho vị trí của một điểm _P_ trong không
**Máy vectơ hỗ trợ** (**SVM** - viết tắt tên tiếng Anh **support vector machine**) là một khái niệm trong thống kê và khoa học máy tính cho một tập hợp các phương pháp học có
right|thumb|Sơ đồ biểu diễn một quá trình Markov với hai trạng thái E và A. Mỗi số biểu diễn xác suất của quá trình Markov chuyển từ trạng thái này sang trạng thái khác theo
thumb|Hai mặt phẳng giao nhau trong không gian ba chiều Trong toán học, _mặt phẳng_ là một mặt hai chiều phẳng kéo dài vô hạn. Một **mặt phẳng** là mô hình hai chiều tương tự
Một **Hệ tọa độ Descartes** (tiếng Anh: **Cartesian coordinate system**) xác định vị trí của một điểm (_point_) trên một mặt phẳng (_plane_) cho trước bằng một cặp số tọa độ (_x_, _y_). Trong đó,
thumb|right|Các thao tác bước xoay [[Rubik|khối lập phương Rubik tạo thành nhóm khối lập phương Rubik.]] Trong toán học, một **nhóm** (group) là một tập hợp các phần tử được trang bị một phép toán
Trong toán học, **bất đẳng thức tam giác** là một định lý phát biểu rằng trong một tam giác, chiều dài của một cạnh phải nhỏ hơn tổng, nhưng lớn hơn hiệu của hai cạnh
nhỏ|upright=1.35|Áp dụng định lý Pythagoras để tính khoảng cách Euclid trong mặt phẳng Trong toán học, **khoảng cách Euclid** () giữa hai điểm trong không gian Euclid là độ dài của đoạn thẳng nối hai
Trong cơ học cổ điển, ** Laplace–Runge–Lenz** (hay còn được gọi là **vectơ LRL**, **vectơ Runge-Lenz** hay **bất biến Runge-Lenz**) là vectơ thường được dùng để miêu tả hình dạng và định hướng của quỹ
thumb|Scalar là các [[số thực dùng trong đại số tuyến tính, đối ngược với vectơ (toán học và vật lý). Hình này thể hiện một vectơ. Tọa độ _x_ and _y_ là các scalar vì
Trong không gian Euclide, một tập hợp được gọi là **lồi** nếu lấy hai điểm tùy ý thuộc vật thể thì đoạn thẳng nối hai điểm ấy cũng sẽ thuộc vật thể đó. Ví dụ,
**Explorer 35** (**IMP-E, AIMP 2, Anchored IMP 2, Interplanetary Monitoring Platform-E**) là một tàu vũ trụ có góc quay ổn định được thiết kế cho các nghiên cứu liên hành tinh, tập trung vào Mặt
Trong hình học đại số và vật lý lý thuyết, **đối xứng gương** là mối quan hệ giữa các vật thể hình học được gọi là những đa tạp Calabi-Yau. Các đa tạp này có
phải|nhỏ|300x300px|Hệ [[Hệ tọa độ cầu|tọa độ cầu được sử dụng phổ biến trong _vật lý_ . Nó gán ba số (được gọi là tọa độ) cho mọi điểm trong không gian Euclide: khoảng cách xuyên
**Lý thuyết bất biến theo thời gian tuyến tính**, thường được gọi là **lý thuyết hệ thống LTI**, xuất phát từ toán ứng dụng và có các ứng dụng trực tiếp trong quang phổ học
thumb|Ước lượng Số chiều Hausdorff của bờ biển nước Anh Trong toán học, **Số chiều Hausdorff** (còn được biết đến như là **Số chiều Hausdorff - Besicovitch**) là một số thực không âm mở rộng
thumb|upright=1.85|Mọi người giữ khoảng cách trong khi chờ vào cửa hàng. Để người mua có thể giữ khoảng cách ngay cả bên trong cửa hàng, chỉ có một số người nhất định trong cửa hàng
nhỏ | phải | Mô phỏng một hàm mẫu của quá trình Wiener Trong toán học và lý thuyết xác suất, một **quá trình ngẫu nhiên** (Tiếng Anh: _stochastic process_, _random process_) là một họ
**Định lý Thales**, hay **định lý Thalès**, **định lý Talet**, là một định lý quan trọng trong hình học sơ cấp, được đặt theo tên nhà toán học người Hy Lạp Thales. Mặc dù định