✨Vectơ từ

Vectơ từ

Trong xử lý ngôn ngữ tự nhiên (NLP), vectơ từ (còn được gọi là biểu diễn từ, nhúng từ, hay word embedding) là một cách biểu diễn từ ngữ. Vectơ từ được sử dụng trong phân tích văn bản. Thông thường, cách biểu diễn này là một vectơ giá trị thực mã hóa ý nghĩa của từ theo cách mà các từ gần nhau trong không gian vectơ được kỳ vọng là có ý nghĩa tương tự nhau. Vectơ từ có thể thu được bằng cách sử dụng các kỹ thuật mô hình ngôn ngữ và học đặc trưng (feature learning), trong đó các từ hoặc cụm từ trong từ điển được ánh xạ (mapping) thành các vectơ của số thực.

Các phương pháp ánh xạ này bao gồm mạng nơ-ron, sự giảm chiều dữ liệu trên ma trận đồng xuất hiện (co-occurrence matrix) của từ, các mô hình xác suất, phương pháp sử dụng cơ sở tri thức có thể giải thích được, và những ngữ cảnh rõ ràng mà từ xuất hiện.

Các vectơ từ và cụm từ, khi được sử dụng làm biểu diễn đầu vào cơ bản, đã được chứng minh là nâng cao hiệu suất trong các nhiệm vụ NLP như phân tích cú pháp và phân tích tình cảm.

Sự phát triển và lịch sử của phương pháp

Trong ngữ nghĩa phân bố (distributional semantics), một phương pháp tiếp cận định lượng để hiểu nghĩa trong ngôn ngữ quan sát, các vectơ từ hoặc mô hình không gian đặc trưng ngữ nghĩa (semantic feature space model) đã được sử dụng như một "biểu diễn tri thức" (knowledge representation) từ khá lâu. Các mô hình này nhằm định lượng và phân loại các sự tương đồng về ngữ nghĩa giữa các đơn vị ngôn ngữ dựa trên tính chất phân bố của chúng trong các mẫu dữ liệu ngôn ngữ lớn. Ý tưởng cơ bản là "một từ được xác định qua những từ ngữ mà nó đi kèm", và đã được đề xuất trong một bài viết năm 1957 bởi John Rupert Firth, nhưng ý tưởng này cũng có nguồn gốc từ các nghiên cứu đương thời về hệ thống tìm kiếm và trong tâm lý học nhận thức.

Khái niệm về không gian ngữ nghĩa với các mục từ (từ hoặc các cụm từ có nhiều từ) được biểu diễn dưới dạng các vectơ hoặc vectơ từ dựa trên những thách thức trong việc tính toán các đặc tính phân bố và sử dụng chúng cho các ứng dụng thực tế để đo lường sự tương đồng giữa các từ, cụm từ, hoặc toàn bộ văn bản. Thế hệ đầu tiên của các mô hình không gian ngữ nghĩa là mô hình không gian vectơ dành cho truy xuất thông tin. Các mô hình không gian vectơ này dành cho từ và dữ liệu phân bố của chúng, khi được triển khai dưới dạng đơn giản nhất, tạo ra một không gian vectơ rất thưa thớt với độ chiều lớn (còn được gọi là lời nguyền của chiều không gian - curse of dimensionality). Việc giảm số lượng chiều bằng cách sử dụng các phương pháp đại số tuyến tính như phân rã giá trị suy biến (singular value decomposition - SVD) đã dẫn đến sự ra đời của phân tích ngữ nghĩa tiềm ẩn vào cuối những năm 1980 và phương pháp chỉ số ngẫu nhiên (random indexing) để thu thập các ngữ cảnh đồng xuất hiện của từ. Năm 2000, Yoshua Bengio và cộng sự đã cung cấp một loạt các bài báo có tựa đề "Các mô hình ngôn ngữ xác suất thần kinh" nhằm giảm số chiều lớn của các biểu diễn từ trong các ngữ cảnh bằng cách "học một biểu diễn phân tán cho các từ".

Một nghiên cứu được xuất bản tại NeurIPS (NIPS) 2002 đã giới thiệu việc sử dụng cả vectơ từ và vectơ tài liệu bằng cách áp dụng phương pháp kernel CCA cho các kho ngữ liệu song ngữ (và đa ngữ), đồng thời cung cấp một ví dụ sớm về học tự giám sát (self-supervised learning) của các vectơ từ.

Vectơ từ có hai kiểu khác nhau. Một kiểu, trong đó các từ được biểu diễn dưới dạng các vectơ của các từ cùng xuất hiện. Kiểu khác, trong đó các từ được biểu diễn dưới dạng các vectơ ngữ cảnh ngôn ngữ mà các từ xuất hiện; các kiểu này được nghiên cứu bởi Lavelli và cộng sự năm 2004. Roweis và Saul đã công bố trên Science về cách sử dụng "nhúng tuyến tính cục bộ" (locally-linear embedding - LLE) để khám phá các biểu diễn của các cấu trúc dữ liệu có độ chiều lớn. Hầu hết các kỹ thuật vectơ từ mới sau khoảng năm 2005 đều dựa vào kiến trúc mạng nơ-ron thay vì các mô hình xác suất và đại số, sau các công trình nền tảng của Yoshua Bengio và các đồng nghiệp.

Cách tiếp cận này đã được nhiều nhóm nghiên cứu áp dụng sau các tiến bộ lý thuyết vào năm 2010 về chất lượng của các vectơ và tốc độ huấn luyện mô hình, cũng như sau khi các tiến bộ về phần cứng cho phép khám phá một không gian tham số rộng hơn một cách có lợi. Vào năm 2013, một nhóm tại Google do Tomas Mikolov dẫn dắt đã tạo ra word2vec, một bộ công cụ vectơ từ có thể huấn luyện các mô hình không gian vectơ nhanh hơn các phương pháp trước đó. Phương pháp word2vec đã được sử dụng rộng rãi trong thử nghiệm và đóng vai trò quan trọng trong việc nâng cao sự quan tâm đến vectơ từ như một công nghệ, đưa hướng nghiên cứu này từ lĩnh vực chuyên biệt sang thử nghiệm rộng rãi hơn và cuối cùng mở đường cho các ứng dụng thực tiễn.

Đa nghĩa và đồng âm

Lịch sử cho thấy, một trong những hạn chế chính của các vectơ từ tĩnh hoặc các mô hình không gian vectơ từ là những từ có nhiều nghĩa bị hợp nhất thành một biểu diễn duy nhất (một vectơ duy nhất trong không gian ngữ nghĩa). Nói cách khác, các hiện tượng từ đa nghĩa và từ đồng âm không được xử lý đúng cách. Ví dụ, trong câu "The club I tried yesterday was great!" (Câu lạc bộ tôi thử hôm qua rất tuyệt!), không rõ liệu từ club có liên quan đến club sandwich, clubhouse, golf club hay bất kỳ từ nào khác mà từ club có thể có. Nhu cầu xử lý nhiều nghĩa cho mỗi từ trong các vectơ khác nhau (vectơ từ đa nghĩa) là động lực cho nhiều đóng góp trong Xử lý Ngôn ngữ Tự nhiên (NLP) để chia nhỏ các biểu diễn đơn nghĩa thành các biểu diễn đa nghĩa.

Hầu hết các cách tiếp cận để tạo ra các vectơ từ đa nghĩa có thể chia thành hai loại chính trong việc biểu diễn nghĩa của từ, đó là không giám sát và dựa trên kiến thức. Dựa trên word2vec skip-gram, Multi-Sense Skip-Gram (MSSG) thực hiện việc phân biệt và biểu diễn nghĩa từ một cách đồng thời, cải thiện thời gian huấn luyện, đồng thời giả định một số lượng nghĩa nhất định cho mỗi từ. Trong Multi-Sense Skip-Gram không tham số (NP-MSSG), số lượng nghĩa này có thể thay đổi tùy thuộc vào từng từ. Kết hợp kiến thức trước đó từ các cơ sở dữ liệu từ vựng (ví dụ, WordNet, ConceptNet, BabelNet), Most Suitable Sense Annotation (MSSA) gán nhãn các nghĩa từ thông qua phương pháp không giám sát và dựa trên kiến thức, xem xét ngữ cảnh của từ trong một cửa sổ trượt được định trước. Sau khi các từ được phân biệt, chúng có thể được sử dụng trong một kỹ thuật vectơ từ chuẩn, nhờ đó các vectơ từ đa nghĩa được tạo ra. Kiến trúc của MSSA cho phép quy trình phân biệt và gán nhãn được thực hiện lặp lại một cách tự cải thiện.

Việc sử dụng các vectơ từ đa nghĩa được biết đến là giúp cải thiện hiệu suất trong một số nhiệm vụ NLP, chẳng hạn như gán nhãn từ loại, xác định quan hệ ngữ nghĩa, liên quan ngữ nghĩa, nhận dạng thực thể có tên và phân tích cảm xúc.

Từ cuối thập niên 2010, các biểu diễn ngữ nghĩa ngữ cảnh như ELMo và BERT đã được phát triển. Khác với các vectơ từ tĩnh, những biểu diễn này ở mức token, nghĩa là mỗi lần xuất hiện của một từ sẽ có biểu diễn riêng của nó. Các vectơ này phản ánh tốt hơn bản chất đa nghĩa của các từ, vì các lần xuất hiện của từ trong các ngữ cảnh tương tự sẽ được đặt trong các vùng tương tự của không gian vectơ BERT.

Đối với chuỗi sinh học: BioVectors

Vectơ từ cho các _n-_grams trong các chuỗi sinh học (ví dụ: DNA, RNA và Protein) đã được đề xuất bởi Asgari và Mofrad cho các ứng dụng tin sinh học. Được gọi là bio-vectors (BioVec) để chỉ chung các chuỗi sinh học với protein-vectors (ProtVec) cho các protein (chuỗi axit amin) và gene-vectors (GeneVec) cho các chuỗi gen, biểu diễn này có thể được sử dụng rộng rãi trong các ứng dụng học sâu trong proteomics và genomics. Kết quả được trình bày bởi Asgari và Mofrad như một cách để khám phá lối chơi phát sinh (emergent gameplay) bằng cách sử dụng các nhật ký dữ liệu trò chơi. Quá trình này yêu cầu phiên âm các hành động xảy ra trong một trò chơi thành ngôn ngữ hình thức và sau đó sử dụng văn bản kết quả để tạo vectơ từ. Kết quả do Rabii và Cook Một phương pháp phổ biến hơn gần đây để biểu diễn câu là Sentence-BERT, hay SentenceTransformers, phương pháp này cải tiến BERT bằng cách sử dụng cấu trúc mạng siamese và triplet.

Phần mềm

Phần mềm để huấn luyện và sử dụng vectơ từ bao gồm Word2vec của Tomáš Mikolov, GloVe của Đại học Stanford, GN-GloVe, biểu diễn Flair (Flair embedding), BERT, fastText, Gensim, Indra, và Deeplearning4j. Phép phân tích thành phần chính (PCA) và T-Distributed Stochastic Neighbour Embedding (t-SNE) đều được sử dụng để giảm chiều của không gian vectơ từ và trực quan hóa vectơ từ và cụm từ.

Ví dụ ứng dụng

Ví dụ, fastText cũng được sử dụng để tính toán vectơ từ cho ngữ liệu văn bản trong Sketch Engine có sẵn trực tuyến.

Những hệ quả đạo đức

Vectơ từ có thể chứa đựng các định kiến và khuôn mẫu có trong bộ dữ liệu huấn luyện, như Bolukbasi và các cộng sự đã chỉ ra trong bài báo năm 2016 "Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings" rằng một bộ vectơ từ word2vec có sẵn công khai (và phổ biến) được huấn luyện trên văn bản Google News (một tập dữ liệu phổ biến), mặc dù được viết bởi các nhà báo chuyên nghiệp, vẫn cho thấy các liên kết từ ngữ không cân xứng phản ánh những định kiến giới tính và chủng tộc khi trích xuất các phép tương đồng từ. Ví dụ, một trong những phép tương đồng được tạo ra bằng cách sử dụng vectơ từ đã đề cập là "man is to computer programmer as woman is to homemaker".

Nghiên cứu của Jieyu Zhou và các cộng sự cho thấy rằng việc áp dụng các vectơ từ được huấn luyện này mà không giám sát cẩn thận có khả năng duy trì các định kiến hiện có trong xã hội, điều này được giới thiệu thông qua dữ liệu huấn luyện không thay đổi. Hơn nữa, vectơ từ thậm chí có thể làm gia tăng những định kiến này.

👁️ 2 | 🔗 | 💖 | ✨ | 🌍 | ⌚
Trong xử lý ngôn ngữ tự nhiên (NLP), **vectơ từ** (còn được gọi là **biểu diễn từ**, **nhúng từ**, hay **word embedding**) là một cách biểu diễn từ ngữ. Vectơ từ được sử dụng trong
Trong Toán học, Vật lí và kĩ thuật, **vectơ** hay **hướng lượng** (theo phiên âm Hán Việt) (tiếng Anh: _vector_) là một đoạn thẳng có hướng. Đoạn thẳng này biểu thị phương, chiều và độ
Từ trường của một thanh [[nam châm hình trụ.]] **Từ trường** là môi trường năng lượng đặc biệt sinh ra quanh các điện tích chuyển động hoặc do sự biến thiên của điện trường hoặc
Trong giải tích vectơ, **toán tử div** hay **toán tử phân kỳ** hay **suất tiêu tán** là một toán tử đo mức độ phát (ra) hay thu (vào) của trường vectơ tại một điểm cho
Ảnh cộng hưởng từ hạt nhân của bộ não người Dàn máy chụp cộng hưởng từ **Chụp cộng hưởng từ** (còn gọi nôm na là **chụp em-rai** theo viết tắt tiếng Anh **MRI** của **Magnetic
**Dị hướng từ tinh thể** là dạng năng lượng trong các vật có từ tính có nguồn gốc liên quan đến tính đối xứng tinh thể và sự định hướng của mômen từ. Trong tinh
**Vi từ học** hay **Từ học vi mô** (tiếng Anh: _Micromagnetism_) là một lĩnh vực, một phương pháp nghiên cứu cấu trúc và các tính chất vi mô của vật liệu và linh kiện từ
**_Hiệu ứng từ quang Kerr_** (tiếng Anh: _Magneto-optic Kerr effect_, viết tắt là _MOKE_) là một hiệu ứng quang từ mà ở đó ánh sáng phản xạ trên các bề mặt của vật liệu bị
Một ví dụ tính toán sử dụng năng lượng vi từ học, một hình vuông [[permalloy cạnh 600 nm, dày 20 nm. Các dạng năng lượng chủ yếu chi phối trường hợp này là năng
Đường cong từ hóa có dạng tuyến tính trong các chất [[thuận từ và nghịch từ]] **Đường cong từ hóa** (hay đầy đủ là **_đường cong từ hóa ban đầu_**) là đồ thị mô tả
Cơ chế hiện tượng từ giảo do tương tác [[spin-quỹ đạo và sự phân bố đám mây điện tử: a) dạng đối xứng cầu: không có từ giảo; b) không có đối xứng cầu: có
Các chất **nghịch từ** là các chất không có mômen từ (tổng vecto từ quỹ đạo và từ spin của toàn bộ điện tử bằng 0). Khi đặt vào từ trường ngoài trong các phân
Hiệu ứng từ điện trở lớn trong các màng đa lớp Fe/Cr (Fert et al.) **Từ điện trở**, hay còn gọi tắt là **từ trở**, là tính chất của một số vật liệu, có thể
phải|nhỏ|250x250px|Ma trận biến đổi _A_ tác động bằng việc kéo dài vectơ _x_ mà không làm đổi phương của nó, vì thế _x_ là một vectơ riêng của _A_. Trong đại số tuyến tính, một
Trong đại số tuyến tính, một **vectơ cột** hay **ma trận cột** là một ma trận cỡ _m_ × 1, tức là ma trận chỉ gồm một cột đơn gồm _m_ phần tử, : \boldsymbol{x}
nhỏ|200x200px|Hình chiếu của **a** lên **b** (**a**1), và hình phản chiếu (**a**2). nhỏ|248x248px|Khi 90° < _θ_ ≤ 180°, **a**1 có chiều ngược lại so với **b**. **Hình chiếu vectơ** của một vectơ **a** lên một
**Vectơ-4** là một véctơ trên một không gian 4 chiều thực đặc biệt, gọi là không gian Minkowski. Chúng xuất hiện lần đầu trong lý thuyết tương đối hẹp, như là sự mở rộng của
nhỏ|Minh họa kết quả phép nhân vectơ trong [[hệ tọa độ bên phải]] Trong toán học, phép **tích vectơ** hay **nhân vectơ** hay **tích có hướng** là một phép toán nhị nguyên trên các vectơ
Một hàm được định giá trị vectơ, cũng được gọi là **hàm vectơ**, là một hàm toán học của một hoặc nhiều biến với miền giá trị của nó là một bộ của những vectơ
**Độ tương tự cosin** là một cách đo độ tương tự (measure of similarity) giữa hai vectơ khác không của một không gian tích vô hướng. Độ tương tự này được định nghĩa bằng giá
**Giải tích vectơ**, hay **tích phân vectơ**, liên quan đến vi phân và tích phân các trường vectơ, chủ yếu trong không gian Euclide 3 chiều \mathbb{R}^3. Thuật ngữ "tích phân véctơ" đôi khi được
**Mô hình không gian véctơ** hay **mô hình thuật ngữ véctơ** (tiếng Anh: **vector space model**) là một mô hình đại số dùng để thể hiện các tài liệu văn bản (và bất cứ đối
Trong cơ học lượng tử, một **hệ hai trạng thái** là một hệ có 2 trạng thái lượng tử khả thi, ví dụ spin của một hạt spin-1/2 như electron có thể nhận giá trị
phải|nhỏ|[[Bức xạ điện từ|Sóng điện từ truyền đi trong không gian]] **Vectơ Poynting** là tích vectơ giữa cường độ điện trường và cường độ từ trường, được đặt tên theo người phát hiện John Henry
Trong toán học và vật lý, **vectơ** là một phần tử của không gian vectơ. Đối với nhiều không gian vectơ cụ thể, các vectơ nhận được tên cụ thể, được liệt kê bên dưới.
Trường vectơ được cho bởi các vectơ có dạng (−_y_, _x_) Trong toán học và vật lý, **trường vectơ** là một kết cấu trong giải tích vectơ gán tương ứng một vectơ cho mỗi điểm
Trong **thị giác máy tính**, **mô hình túi từ** (**bag-of-words model,** mô hình BoW) có thể được áp dụng để phân loại hình ảnh, bằng cách coi các đặc trưng của hình ảnh như từ
thumb|upright=1.3|Các [[hàm sóng của electron trong một nguyên tử hydro tại các mức năng lượng khác nhau. Cơ học lượng tử không dự đoán chính xác vị trí của một hạt trong không gian, nó
nhỏ|Plasmid pGEX-3x là một vector tách dòng phổ biến. **Véctơ tách dòng** (_vector cloning_) là một phân tử DNA có kích thước nhỏ cho phép cài gắn một đoạn DNA ngoại lai vào nhằm mục
Trong toán học, **thứ tự toàn phần** hay **thứ tự tuyến tính** là thứ tự riêng phần mà mọi hai phần tử đều so sánh được với nhau. Nghĩa là, nó là quan hệ hai
Trong giải tích vector, toán tử **rot** (vài nơi còn gọi là curl) là một toán tử vector mô tả độ xoáy của một trường vector. Tại bất kì điểm nào trên trường vector, rot
right|thumb|upright=1.15|**Hình 1.** [[Hasse diagram|Biểu đố Hasse của tập hợp các tập con của tập ba phần tử \{x, y, z\}, dưới thứ tự là tập con của. Các tập hợp nối với nhau theo đường
**Lực Lorent** là lực mà từ trường tác dụng lên Điện tích di chuyển thẳng hàng làm cho điện tích thay đổi hướng di chuyển theo hướng vuông góc với hướng dịch chuyển ban đầu.Lực
Moment từ **Mômen từ**, hay **mômen lưỡng cực từ** (magnetic dipole moment) là đại lượng vật lý, đặc trưng cho độ mạnh yếu của nguồn từ. Trong trường hợp đơn giản là một dòng điện
**Số lượng tử spin** tham số hóa bản chất nội tại của mô men xung lượng của mọi hạt cơ bản. Trong cơ học lượng tử mômen xung lượng của hạt cơ bản được mô
Trong toán học và vật lý, **toán tử Laplace** hay **Laplacian**, ký hiệu là \Delta\,  hoặc \nabla^2  được đặt tên theo Pierre-Simon de Laplace, là một toán tử vi phân, đặc biệt trong các toán
**Máy phát điện từ thủy động lực học** (hay **máy phát từ thủy động học**) là hệ thống chuyển nhiệt năng hay động năng trực tiếp thành điện năng, dựa trên các nguyên lý từ
**Từ thông** là thông lượng đường sức từ đi qua một diện tích.Từ thông liên hệ trực tiếp với mật độ từ thông. Từ thông là tích phân của tích vô hướng giữa mật độ
**Đường sức từ trường** là một quỹ tích được định nghĩa bởi một trường vector và một điểm bắt đầu bên trong miền từ. Đường sức từ được vẽ trong từ trường sao cho tiếp
Sơ đồ nguyên lý cấu trúc của một hệ ghi toàn ảnh điện tử **Toàn ảnh điện tử** hay **Toàn ký điện tử** là một kỹ thuật phân tích cấu trúc điện từ của vật
**Độ từ hóa** hay **từ độ** (tiếng Anh: **_Magnetization_**) là một đại lượng sử dụng trong từ học được xác định bằng tổng mômen từ nguyên tử trên một đơn vị thể tích của vật
phải|nhỏ|350x350px|[[Electron nguyên tử và các orbital phân tử. Biểu đồ orbital (trái) được sắp xếp theo mức năng lượng tăng dần (xem quy tắc Madelung). Lưu ý rằng các orbital nguyên tử là hàm của
Máy tính lượng tử là hệ thống có thể thực thi vô số phép tính phức tạp cùng một lúc mà một máy tính thông thường có thể phải mất hàng triệu năm mới xong.
**Mô hình túi từ (bag-of-words)** là một biểu diễn đơn giản hóa được sử dụng trong xử lý ngôn ngữ tự nhiên và truy vấn thông tin (IR). Trong mô hình này, một văn bản
**Mây từ tính** là một sự kiện thoáng qua được quan sát trong gió mặt trời. Nó được Burlaga cùng các cộng sự định nghĩa năm 1981 như là một khu vực có cường độ
nhỏ|[[Biểu đồ Hasse của tập hợp _P_ gồm các ước số của 60, với quan hệ thứ tự riêng phần "_y_ chia hết cho _x_". Phần màu đỏ là tập con _S_ = {1,2,3,4} có
phải|nhỏ|Không gian vectơ là một tập các đối tượng có định hướng (được gọi là các vectơ) có thể co giãn và cộng. Trong toán học, **không gian vectơ** (hay còn gọi là không gian
**Kỹ thuật tạo lệnh** hoặc **kỹ thuật ra lệnh** (prompt engineering) là quá trình cấu trúc một **văn bản đầu vào** cho AI tạo sinh giải thích và diễn giải. Một **văn bản đầu vào**
Trong cơ học cổ điển, ** Laplace–Runge–Lenz** (hay còn được gọi là **vectơ LRL**, **vectơ Runge-Lenz** hay **bất biến Runge-Lenz**) là vectơ thường được dùng để miêu tả hình dạng và định hướng của quỹ
phải|nhỏ|250x250px| [[Mặt Mobius|Dải Mobius (mở rộng vô hạn) là một phân thớ đường trên đường tròn **S**1. Trong một lân cận địa phương tại mọi điểm của **S**1, nó đồng phôi với _U_×**R** (trong đó