Xử lý ngôn ngữ tự nhiên (natural language processing - NLP) là một nhánh của trí tuệ nhân tạo tập trung vào các ứng dụng trên ngôn ngữ của con người. Trong trí tuệ nhân tạo thì xử lý ngôn ngữ tự nhiên là một trong những phần khó nhất vì nó liên quan đến việc phải hiểu ý nghĩa ngôn ngữ-công cụ hoàn hảo nhất của tư duy và giao tiếp.
Các bước xử lý
*Phân tích hình thái* - Trong bước này từng từ sẽ được phân tích và các ký tự không phải chữ (như các dấu câu) sẽ được tách ra khỏi các từ. Trong tiếng Anh và nhiều ngôn ngữ khác, các từ được phân tách với nhau bằng dấu cách. Tuy nhiên trong tiếng Việt, dấu cách được dùng để phân tách các tiếng (âm tiết) chứ không phải từ. Cùng với các ngôn ngữ như tiếng Trung, tiếng Hàn,tiếng Nhật, phân tách từ trong tiếng Việt là một công việc không hề đơn giản.
Phân tích cú pháp - Dãy các từ sẽ được biến đổi thành các cấu trúc thể hiện sự liên kết giữa các từ này. Sẽ có những dãy từ bị loại do vi phạm các luật văn phạm.
Phân tích ngữ nghĩa - Thêm ngữ nghĩa vào các cấu trúc được tạo ra bởi bộ phân tích cú pháp.
Tích hợp văn bản** - Ngữ nghĩa của một câu riêng biệt có thể phụ thuộc vào những câu đứng trước, đồng thời nó cũng có thể ảnh hưởng đến các câu phía sau.
*Phân tích thực nghĩa - Cấu trúc thể hiện điều được phát ngôn sẽ được thông dịch lại để xác định nó thật sự có nghĩa là gì.
Tuy nhiên, ranh giới giữa 5 bước xử lý này cũng rất mong manh. Chúng có thể được tiến hành từng bước một, hoặc tiến hành cùng lúc - tùy thuộc vào giải thuật và ngữ cảnh cụ thể.
Các bài toán và ứng dụng
Nhận dạng chữ viết: Có hai kiểu nhận dạng, thứ nhất là nhận dạng chữ in, ví dụ nhận dạng chữ trên sách giáo khoa rồi chuyển nó thành dạng văn bản điện tử như dưới định dạng doc của Microsoft Word chẳng hạn. Phức tạp hơn là nhận dạng chữ viết tay, có khó khăn bởi vì chữ viết tay không có khuôn dạng rõ ràng và thay đổi từ người này sang người khác. Với chương trình nhận dạng chữ viết in có thể chuyển hàng ngàn đầu sách trong thư viện thành văn bản điện tử trong thời gian ngắn. Nhận dạng chữ viết của con người có ứng dụng trong khoa học hình sự và bảo mật thông tin (nhận dạng chữ ký điện tử).
Nhận dạng tiếng nói: Nhận dạng tiếng nói rồi chuyển chúng thành văn bản tương ứng. Giúp thao tác của con người trên các thiết bị nhanh hơn và đơn giản hơn, chẳng hạn thay vì gõ một tài liệu nào đó bạn đọc nó lên và trình soạn thảo sẽ tự ghi nó ra. Đây cũng là bước đầu tiên cần phải thực hiện trong ước mơ thực hiện giao tiếp giữa con người với robot. Nhận dạng tiếng nói có khả năng trợ giúp người khiếm thị rất nhiều.
Tổng hợp tiếng nói: Từ một văn bản tự động tổng hợp thành tiếng nói. Thay vì phải tự đọc một cuốn sách hay nội dung một trang web, nó tự động đọc cho chúng ta. Giống như nhận dạng tiếng nói, tổng hợp tiếng nói là sự trợ giúp tốt cho người khiếm thị, nhưng ngược lại nó là bước cuối cùng trong giao tiếp giữa robot với người.
Dịch tự động (machine translate): Như tên gọi đây là chương trình dịch tự động từ ngôn ngữ này sang ngôn ngữ khác. Một phần mềm điển hình về tiếng Việt của chương trình này là Evtrans của Softex, dịch tự động từ tiếng Anh sang tiếng Việt và ngược lại, phần mềm từng được trang web vdict.com mua bản quyền, đây cũng là trang đầu tiên đưa ứng dụng này lên mạng. Tháng 10 năm 2008 có hai công ty tham gia vào lĩnh vực này cho ngôn ngữ tiếng Việt là công ty Lạc Việt (công ty phát hành từ điển Lạc Việt) và Google, một thời gian sau đó Xalo_vn cũng đưa ra dịch vụ tương tự.
Tìm kiếm thông tin (information retrieval): Đặt câu hỏi và chương trình tự tìm ra nội dung phù hợp nhất. Thông tin ngày càng đầy lên theo cấp số nhân, đặc biệt với sự trợ giúp của internet việc tiếp cận thông tin trở lên dễ dàng hơn bao giờ hết. Việc khó khăn lúc này là tìm đúng nhất thông tin mình cần giữa bề bộn tri thức và đặc biệt thông tin đó phải đáng tin cậy. Các máy tìm kiếm dựa trên giao diện web như Google hay Yahoo hiện nay chỉ phân tích nội dung rất đơn giản dựa trên tần suất của từ khoá và thứ hạng của trang và một số tiêu chí đánh giá khác để đưa ra kết luận, kết quả là rất nhiều tìm kiếm không nhận được câu trả lời phù hợp, thậm chí bị dẫn tới một liên kết không liên quan gì do thủ thuật đánh lừa của các trang web nhằm giới thiệu sản phẩm (có tên tiếng Anh là SEO viết tắt của từ search engine optimization). Thực tế cho đến bây giờ chưa có máy tìm kiếm nào hiểu được ngôn ngữ tự nhiên của con người trừ trang www.ask.com được đánh giá là "hiểu" được những câu hỏi có cấu trúc ở dạng đơn giản nhất. Mới đây cộng đồng mạng đang xôn xao về trang Wolfram Alpha, được hứa hẹn là có khả năng hiểu ngôn ngữ tự nhiên của con người và đưa ra câu trả lời chính xác. Lĩnh vực này hứa hẹn tạo ra bước nhảy trong cách thức tiếp nhận tri thức của cả cộng đồng.
Tóm tắt văn bản: Từ một văn bản dài tóm tắt thành một văn bản ngắn hơn theo mong muốn nhưng vẫn chứa những nội dung thiết yếu nhất.
Khai phá dữ liệu (data mining) và phát hiện tri thức: Từ rất nhiều tài liệu khác nhau phát hiện ra tri thức mới. Thực tế để làm được điều này rất khó, nó gần như là mô phỏng quá trình học tập, khám phá khoa học của con người, đây là lĩnh vực đang trong giai đoạn đầu phát triển. Ở mức độ đơn giản khi kết hợp với máy tìm kiếm nó cho phép đặt câu hỏi để từ đó công cụ tự tìm ra câu trả lời dựa trên các thông tin trên web mặc cho việc trước đó có câu trả lời lưu trên web hay không (giống như trang Yahoo! hỏi và đáp, nơi chuyên đặt các câu hỏi để người khác trả lời), nói một cách nôm na là nó đã biết xử lý dữ liệu để trả lời câu hỏi của người sử dụng, thay vì máy móc đáp trả những gì chỉ có sẵn trong bộ nhớ.
Sửa lỗi chính tả: Là quá trình phát hiện và sửa các lỗi chính tả trong một đoạn văn bản. Phần mềm sửa lỗi chính tả thường được tích hợp trong các ứng dụng văn phòng như Microsoft Word hay Google Docs để hỗ trợ người dùng trong việc soạn thảo văn bản. Sửa lỗi chính tả có thể được áp dụng cho nhiều ngôn ngữ khác nhau, bao gồm tiếng Việt.
Các bài toán trong xử lý tiếng Việt
- Phân tách câu
- Phân tách từ
- Tự động thêm dấu: Chữ viết tiếng Việt là chữ viết có dấu thanh. Trong các văn bản chính thống như sách, báo chí, văn bản hành chính, các dấu thanh được viết chính xác. Tuy nhiên trong cách tình huống không chính thống như chat, gõ tìm kiếm, người dùng thông thường không gõ các dấu thanh, dẫn tới khó khăn nhất định cho máy tính trong việc hiểu ý nghĩa của văn bản.
Các bộ dữ liệu trong xử lý tiếng Việt
- Treebank tiếng Việt: VietTreebank và NIIVTB.
Hỏi đáp - đọc hiểu tự động: UIT-ViQuAD và UIT-ViNewsQA.
Phân tích cảm xúc: updating ...
👁️
3 | 🔗 | 💖 | ✨ | 🌍 | ⌚
**Xử lý ngôn ngữ tự nhiên** (_natural language processing_ - NLP) là một nhánh của trí tuệ nhân tạo tập trung vào các ứng dụng trên ngôn ngữ của con người. Trong trí tuệ nhân
**Nhập nhằng** trong ngôn ngữ học là hiện tượng thường gặp, trong giao tiếp hàng ngày con người ít để ý đến nó bởi vì họ xử lý tốt hiện tượng này. Nhưng trong các
**Giao diện người dùng ngôn ngữ tự nhiên** (**natural-language user interface**, viết tắt **LUI** hoặc **NLUI**) là một dạng giao diện người dùng trong đó các hiện tượng ngôn ngữ như động từ, cụm từ
**Hiểu ngôn ngữ tự nhiên** (**NLU**) hoặc **diễn dịch ngôn ngữ tự nhiên** (**NLI**) là một chủ đề con của xử lý ngôn ngữ tự nhiên trong lĩnh vực trí tuệ nhân tạo, làm việc
Trong ngôn ngữ học, một **ngôn ngữ tự nhiên** (tiếng Anh: _natural language_) là bất kỳ ngôn ngữ nào phát sinh, không suy nghĩ trước trong não bộ của con người. Điển hình là một
**Công nghệ ngôn ngữ**, thường gọi là **công nghệ ngôn ngữ con người** (tiếng Anh: **language technology**, hay **human language technology**, viết tắt **HLT**) là một ngành nghiên cứu các phương pháp về cách thức
**Sinh ngôn ngữ tự nhiên** (hay còn gọi là **sản sinh ngôn ngữ tự nhiên**, **tạo sinh ngôn ngữ tự nhiên**, **phát sinh ngôn ngữ tự nhiên**, tiếng Anh: **natural-language generation**, viết tắt **NLG**) là
**Biểu diễn Thể hiện Mã hóa Hai chiều từ Transformer** (tiếng Anh: **Bidirectional Encoder Representations from Transformers** hay viết tắt là **BERT**) là một kỹ thuật học máy dựa trên các transformer được dùng cho
**Xử lý tiếng nói** là sự nghiên cứu tiếng nói của con người dưới dạng tín hiệu, và các phương pháp xử lý những tín hiệu này.
Tín hiệu tiếng nói thường được thể hiện
**Dịch tự động** hay còn gọi là **dịch máy** (tiếng Anh: _machine translation_) là một nhánh của xử lý ngôn ngữ tự nhiên thuộc phân ngành trí tuệ nhân tạo, nó là sự kết hợp
Trong xử lý ngôn ngữ tự nhiên (NLP), **vectơ từ** (còn được gọi là **biểu diễn từ**, **nhúng từ**, hay **word embedding**) là một cách biểu diễn từ ngữ. Vectơ từ được sử dụng trong
**Cortana** là một trợ lý cá nhân thông minh được tạo bởi Microsoft dành cho Windows 10, Windows 10 Mobile, Windows 8.1, Windows Phone 8.1 (thay thế cho Bing), Microsoft Band, Xbox One, iOS, Android.
**Từ đa nghĩa** (còn có cách gọi khác là **từ nhiều nghĩa**) là những từ có một số nghĩa biểu thị những đặc điểm, thuộc tính khác nhau của một đối tượng, hoặc biểu thị
**Mô hình túi từ (bag-of-words)** là một biểu diễn đơn giản hóa được sử dụng trong xử lý ngôn ngữ tự nhiên và truy vấn thông tin (IR). Trong mô hình này, một văn bản
Trong xử lý ngôn ngữ tự nhiên, **nén ngữ nghĩa** là một quá trình nén một từ vựng được dùng để xây dựng một tài liệu văn bản (hay một tập văn bản) bằng cách
**Trợ lý Google** (tiếng Anh: _Google Assistant_) là một trợ lý cá nhân ảo được phát triển bởi Google cho thiết bị di động và nhà thông minh, được giới thiệu lần đầu tại hội
**Phân tích ngữ nghĩa tiềm ẩn** (tiếng Anh: **Latent semantic analysis** hay viết tắt thông dụng **LSA**) là một kỹ thuật trong xử lý ngôn ngữ tự nhiên, đặc biệt là ngữ nghĩa phân phối,
Trong kỷ nguyên dữ liệu, ngôn ngữ không còn đơn thuần là phương tiện giao tiếp – mà đã trở thành nguồn tài nguyên quý giá để tạo ra giá trị kinh doanh. Công nghệ
**Ngôn ngữ** là một hệ thống giao tiếp có cấu trúc được sử dụng bởi con người. Cấu trúc của ngôn ngữ được gọi là ngữ pháp, còn các thành phần tự do của nó
**Ngôn ngữ học** hay **ngữ lý học** là bộ môn nghiên cứu về ngôn ngữ. Người nghiên cứu bộ môn này được gọi là nhà ngôn ngữ học. Nói theo nghĩa rộng, nó bao gồm
Trong các loại phần mềm, **kiểm tra chính tả** (hoặc **kiểm tra đánh vần** hoặc **kiểm tra lỗi chính tả**) là một tính năng phần mềm giúp kiểm tra lỗi chính tả trong một văn
**IBM Watson** là một hệ thống máy tính có khả năng trả lời các câu hỏi được thể hiện trong ngôn ngữ tự nhiên, được phát triển bởi dự án DeepQA của nhóm nghiên cứu
**Ngôn ngữ học tính toán** là một lĩnh vực liên ngành liên quan đến mô hình thống kê hoặc dựa theo luật của ngôn ngữ tự nhiên từ góc độ tính toán cũng như nghiên
thumb|[[Cây phân tích cú pháp được tạo ra bằng NLTK]] **Natural Language Toolkit** (tạm dịch là **Bộ công cụ Ngôn ngữ Tự nhiên**, hay viết tắt là **NLTK**) là một bộ thư viện và chương
**Văn phạm liên kết** (VPLK) là một lý thuyết về cú pháp của Davy Temperley và Daniel Sleator mà xây dựng mối quan hệ giữa các cặp từ thay vì các cấu thành trong một
**Đơn giản hóa văn bản** là một hoạt động được dùng trong lĩnh vực xử lý ngôn ngữ tự nhiên để thay đổi, nâng cao, phân loại hoặc xử lý một corpus văn bản mà
**Phân đoạn văn bản** là quá trình phân chia văn bản viết thành các đơn vị có ý nghĩa, ví dụ như các từ, câu hay chủ đề. Có hai quy trình chính để thực
Trong học máy và xử lý ngôn ngữ tự nhiên, **mô hình phân bổ Pachinko** (tiếng Anh: **pachinko allocation model**, viết tắt là **PAM**) là một mô hình chủ đề. Các mô hình chủ đề
**Trích xuất thông tin** (tiếng Anh: **information extraction**, viết tắt **IE**) là tác vụ tự động trích xuất thông tin có cấu trúc từ dữ liệu phi cấu trúc và/hoặc các văn bản dữ liệu
**spaCy** ( ) là một thư viện phần mềm mã nguồn mở dành cho xử lý ngôn ngữ tự nhiên nâng cao, được viết bằng hai ngôn ngữ Python và Cython. Thư viện này được
**Word2vec** là một kỹ thuật xử lý ngôn ngữ tự nhiên. Thuật toán Word2vec sử dụng một mô hình mạng thần kinh để học các liên kết từ (sự liên quan của từ) từ một
**Đánh dấu vai nghĩa**, hay **gán nhãn vai nghĩa**, **gán nhãn vai trò ngữ nghĩa**, đôi khi còn được gọi là phân tích ngữ nghĩa nông, là một bài toán trong xử lý ngôn ngữ
**Phân tích tình cảm** (hay còn gọi là **phân tích quan điểm**, **phân tích cảm xúc**, **phân tính cảm tính**, tiếng Anh: **sentiment analysis**, hay có tên khác là **opinion mining** hay **emotion AI**) là
Trong ngôn ngữ học lý thuyết, **nhập cảm** (tiếng Anh: empathy) là việc người nói đồng nhất mình với 'người/vật tham gia' trong sự kiện hoặc trạng thái mà người nói đó mô tả trong
**Trigram** là một trường hợp đặc biệt của N-gram, với _n_ là 3. Trigram thường được sử dụng trong xử lý ngôn ngữ tự nhiên để thực hiện phân tích thống kê văn bản và
Trong xử lý ngôn ngữ tự nhiên, **phân bổ Dirichlet tiềm ẩn** (tiếng Anh: **Latent Dirichlet allocation**, hay viết tắt **LDA**) là một mô hình sinh mẫu cho phép các tập quan sát được giải
Trong học máy và xử lý ngôn ngữ tự nhiên, một **mô hình chủ đề** là một dạng mô hình thống kê dùng để khám phá các tóm tắt "chủ đề" xảy ra trong một
Dịch máy nói chung bắt đầu từ thập niên 50, mặc dù một số công việc có thể tìm thấy ở thời kỳ trước đó. Thí nghiệm Georgetown-IBM năm 1954 liên quan hoàn toàn đến
phải|nhỏ|402x402px|[[Mã nguồn của một chương trình máy tính đơn giản được viết bằng ngôn ngữ lập trình C. Khi được biên dịch và chạy, nó sẽ cho kết quả "Hello, world!".]] **Ngôn ngữ lập trình**
**Nguồn gốc ngôn ngữ** và quan hệ của ngôn ngữ đối với tiến hóa của loài người là chủ đề học thuật đã được bàn luận trong nhiều thế kỷ. Mặc dù vậy, ta vẫn
nhỏ|Mô hình ngôn ngữ máy được lập nên bởi nhà toán học, nhà thủy văn và lập trình viên Vladimir Mikhailovich Kazakov, nhân viên Máy tính của Viện Energosetproekt năm 1962-1972. **Ngôn ngữ máy** (còn
**Kỹ thuật tạo lệnh** hoặc **kỹ thuật ra lệnh** (prompt engineering) là quá trình cấu trúc một **văn bản đầu vào** cho AI tạo sinh giải thích và diễn giải. Một **văn bản đầu vào**
nhỏ|Cbmain Trong khoa học máy tính, một **ngôn ngữ lập trình bậc cao** (tiếng Anh: _high-level programming language_) là một ngôn ngữ lập trình có sự trừu tượng hóa mạnh mẽ khỏi các chi tiết
**Mạng từ** là một cơ sở dữ liệu từ vựng tiếng Anh. Nó nhóm các từ tiếng Anh thành các tập hợp đồng nghĩa gọi là loạt đồng nghĩa, cung cấp các định nghĩa ngắn
**Dịch máy thống kê** (**SMT**) là một phương pháp dịch máy, trong đó các bản dịch được tạo ra trên cơ sở các mô hình thống kê có các tham số được bắt nguồn từ
**OpenAI** là một phòng thí nghiệm nghiên cứu trí tuệ nhân tạo (AI) của Mỹ bao gồm tổ chức phi lợi nhuận **OpenAI Incorporated** (**OpenAI Inc.**) và công ty con hoạt động vì lợi nhuận
**N****gôn ngữ toán học** là hệ thống ngôn ngữ được sử dụng bởi các nhà toán học để truyền đạt ý tưởng toán học với nhau. Ngôn ngữ này bao gồm một nền tảng từ
**Bixby** là một trợ lý ảo được phát triển bởi Samsung Electronics. Vào ngày 20 tháng 3 năm 2017, Samsung ra mắt trợ lý ảo dựa trên giọng nói có tên là "Bixby". Bixby được
**C#** (**C Sharp**, đọc là _"xi-sáp"_) là một ngôn ngữ lập trình hướng đối tượng đa năng, mạnh mẽ được phát triển bởi Microsoft, C# là phần khởi đầu cho kế hoạch .NET của họ.
**Siri** (phát âm là ) là một trợ lý cá nhân thông minh, là một phần của hệ điều hành iOS, iPadOS, watchOS, macOS, và tvOS của Apple Inc. Trợ lý dùng giọng nói và