Ngôn ngữ học tính toán là một lĩnh vực liên ngành liên quan đến mô hình thống kê hoặc dựa theo luật của ngôn ngữ tự nhiên từ góc độ tính toán cũng như nghiên cứu các cách tiếp cận với các câu hỏi về ngôn ngữ. Nói chung, ngôn ngữ học tính toán dựa trên ngôn ngữ học, khoa học máy tính, trí tuệ nhân tạo, toán học, logic, triết học, khoa học nhận thức, tâm lý học nhận thức, ngôn ngữ học tâm lý (psycholinguistics), nhân chủng học và khoa học thần kinh, cùng với những chuyên ngành khác.
Chuyên ngành và các lĩnh vực liên quan
Theo truyền thống, ngôn ngữ học tính toán đã nổi lên dưới dạng là một lĩnh vực của trí tuệ nhân tạo, được các nhà khoa học máy tính thực thi, và là những người có kỹ năng chuyên về ứng dụng máy tính để xử lý một ngôn ngữ tự nhiên. Cùng với sự hình thành tổ chức Hiệp hội Ngôn ngữ học Tính toán (Association for Computational Linguistics - (ACL) và thiết lập các chuỗi hội thảo độc lập, lĩnh vực này được củng cố trong suốt thập niên 70 và 80.
ACL định nghĩa ngôn ngữ học tính toán là:
Thuật ngữ "ngôn ngữ học tính toán" ngày nay (2020) được coi là từ gần đồng nghĩa với xử lý ngôn ngữ tự nhiên (NLP) và công nghệ ngôn ngữ con người (HTL). Từ những năm 2000, những thuật ngữ này nhấn mạnh hơn vào các khía cạnh ứng dụng thực tế hơn là các nghiên cứu lý thuyết suông. Trên thực tế, những thuật ngữ này (NLP & HLT) đã thay thế phần lớn thuật ngữ "ngôn ngữ học tính toán" trong cộng đồng NLP/ACL, mặc dù chúng chỉ đặc biệt đề cập đến lĩnh vực con của ngôn ngữ học tính toán ứng dụng.
Ngôn ngữ học tính toán chứa các thành phần lý thuyết lẫn ứng dụng. Ngôn ngữ học tính toán lý thuyết tập trung vào các vấn đề trong ngôn ngữ học lý thuyết (theoretical linguistics) và khoa học nhận thức.
Ứng dụng
Ngôn ngữ học tính toán ứng dụng phần lớn tương đương với xử lý ngôn ngữ tự nhiên. Một vài ứng dụng dành cho người dùng cuối bao gồm phần mềm nhận dạng giọng nói, chẳng hạn như tính năng Siri của Apple, các công cụ kiểm tra lỗi chính tả, các chương trình tổng hợp giọng nói. Đây là những công cụ thường được dùng để biểu đạt khả năng phát âm hoặc trợ giúp người khuyết tật, cũng như các chương trình và trang web dịch máy, chẳng hạn như Google Dịch.
Ngôn ngữ học tính toán cũng hữu ích trong các tình huống liên quan đến phương tiện truyền thông mạng xã hội và Internet, chẳng hạn, cung cấp các bộ lọc nội dung ở các chat room hoặc các website tìm kiếm, truy xuất và phân nhóm tài liệu. Ví dụ, nếu một người tìm kiếm từ khóa "chiếc xe bốn bánh có màu đỏ", để tìm các hình ảnh của một chiếc xe tải màu đỏ, cơ chế tìm kiếm sẽ tìm thông tin theo yêu cầu bằng cách khớp các cụm từ như "bốn bánh", "xe", "màu đỏ".
**Ngôn ngữ học tính toán** là một lĩnh vực liên ngành liên quan đến mô hình thống kê hoặc dựa theo luật của ngôn ngữ tự nhiên từ góc độ tính toán cũng như nghiên
**Giao diện người dùng ngôn ngữ tự nhiên** (**natural-language user interface**, viết tắt **LUI** hoặc **NLUI**) là một dạng giao diện người dùng trong đó các hiện tượng ngôn ngữ như động từ, cụm từ
nhỏ|Một bản tái hiện màu đen và trắng của Máy tính bảng Yale Babylonia của Bộ sưu tập YBC 7289 (khoảng 1800 Tam giác cân. Máy tính bảng cũng đưa ra một ví dụ trong
**Ngôn ngữ học** hay **ngữ lý học** là bộ môn nghiên cứu về ngôn ngữ. Người nghiên cứu bộ môn này được gọi là nhà ngôn ngữ học. Nói theo nghĩa rộng, nó bao gồm
**Ngôn ngữ** là một hệ thống giao tiếp có cấu trúc được sử dụng bởi con người. Cấu trúc của ngôn ngữ được gọi là ngữ pháp, còn các thành phần tự do của nó
**Nguồn gốc ngôn ngữ** và quan hệ của ngôn ngữ đối với tiến hóa của loài người là chủ đề học thuật đã được bàn luận trong nhiều thế kỷ. Mặc dù vậy, ta vẫn
phải|Bản đồ ngôn ngữ của châu Âu (đơn giản hóa). **Ngôn ngữ học châu Âu** là ngành ngôn ngữ học khá mới mẻ, nghiên cứu về các ngôn ngữ tại châu Âu. Tuy nhiên, ở
**Viện Ngôn ngữ học** (tên tiếng Anh: _Institute of Linguistics_) là một viện nghiên cứu khoa học chuyên ngành thuộc Viện Hàn lâm Khoa học xã hội Việt Nam. Viện có chức năng nghiên cứu
**Olympic Ngôn ngữ học Quốc tế** (tiếng Nga: **Международна олимпиада по лингвистика**, tiếng Anh: **International Linguistics Olympiad**, viết tắt: **IOL** (tên chính thức, chú ý không phải là _ILO_)) là một trong những kỳ thi
**Nhập nhằng** trong ngôn ngữ học là hiện tượng thường gặp, trong giao tiếp hàng ngày con người ít để ý đến nó bởi vì họ xử lý tốt hiện tượng này. Nhưng trong các
**Khoa học tính toán**, còn được gọi là **tính toán khoa học** hoặc **tính toán khoa học**, là một lĩnh vực đa ngành đang phát triển nhanh chóng, sử dụng các khả năng tính toán
**Công nghệ ngôn ngữ**, thường gọi là **công nghệ ngôn ngữ con người** (tiếng Anh: **language technology**, hay **human language technology**, viết tắt **HLT**) là một ngành nghiên cứu các phương pháp về cách thức
**Biểu diễn Thể hiện Mã hóa Hai chiều từ Transformer** (tiếng Anh: **Bidirectional Encoder Representations from Transformers** hay viết tắt là **BERT**) là một kỹ thuật học máy dựa trên các transformer được dùng cho
phải|nhỏ|402x402px|[[Mã nguồn của một chương trình máy tính đơn giản được viết bằng ngôn ngữ lập trình C. Khi được biên dịch và chạy, nó sẽ cho kết quả "Hello, world!".]] **Ngôn ngữ lập trình**
**Ngôn ngữ LGBT** là môn nghiên cứu từ ngữ của cộng đồng LGBT. Các thuật ngữ liên quan hoặc đồng nghĩa phát triển bởi William Leap vào những năm 1990, bao gồm **ngôn ngữ màu
_Tiền đề trong việc xây dựng lý thuyết Automata là ngôn ngữ hình thức_ Trong toán học và khoa học máy tính, một **ngôn ngữ hình thức** (_formal language_) được định nghĩa là một tập
nhỏ|Tấm biển tại [[Ung Hòa cung tại Bắc Kinh, Trung Quốc, từ phải sang trái viết bằng tiếng Mãn, tiếng Hán, tiếng Tạng, tiếng Mông Cổ.]] nhỏ|phải|Biểu trưng của chính quyền Liên bang [[Thụy Sĩ,
**Thuyết tương đối ngôn ngữ** (), hay **giả thuyết Sapir-Whorf**, cho rằng cấu trúc ngôn ngữ ảnh hưởng đến tư duy và khả năng nhận biết thế giới xung quanh. Đó là, ngôn ngữ quyết
**Từ vựng học** () là một phần của ngôn ngữ học, chuyên nghiên cứu từ. Điều này có thể bao gồm bản chất và chức năng của các từ như là những biểu tượng, ý
Trong ngôn ngữ học, **cái chết của ngôn ngữ** xảy ra khi một ngôn ngữ mất đi người bản ngữ cuối cùng. Bằng cách mở rộng, sự tuyệt chủng ngôn ngữ là khi ngôn ngữ
thumb|Một vài n-gram thường tìm thấy trong các tiêu đề ấn bản về [[bệnh virus corona 2019.]] Trong lĩnh vực ngôn ngữ học tính toán và xác suất, **_n_-gram** là một chuỗi tiếp giáp của
**Pascal** là một ngôn ngữ lập trình cho máy tính thuộc dạng mệnh lệnh và thủ tục, được Niklaus Wirth phát triển vào năm 1970. Pascal là ngôn ngữ lập trình đặc biệt thích hợp
thumb|**[[Phép tính lambda** là một hệ thống hình thức để định nghĩa hàm, ứng dụng hàm và đệ quy được Alonzo Church đề xuất vào những năm 193x.]] **Lý thuyết ngôn ngữ lập trình** (thường
nhỏ|Giao tiếp phi ngôn ngữ giữa hai người tại [[Tây An, Trung Quốc.]] **Giao tiếp phi ngôn ngữ** giữa con người là sự giao tiếp bằng cách gửi và nhận những tín hiệu phi ngôn
**C#** (**C Sharp**, đọc là _"xi-sáp"_) là một ngôn ngữ lập trình hướng đối tượng đa năng, mạnh mẽ được phát triển bởi Microsoft, C# là phần khởi đầu cho kế hoạch .NET của họ.
nhỏ|Mô hình ngôn ngữ máy được lập nên bởi nhà toán học, nhà thủy văn và lập trình viên Vladimir Mikhailovich Kazakov, nhân viên Máy tính của Viện Energosetproekt năm 1962-1972. **Ngôn ngữ máy** (còn
thumb|thumbtime=5|_Preservation of the Sign Language_ (1913) nhỏ|Juan Pablo Bonet, _Reducción de las letras y arte para enseñar a hablar a los mudos_ (Madrid, 1620). **Ngôn ngữ ký hiệu** hay **ngôn ngữ dấu hiệu**, **thủ ngữ**
**Nhóm ngôn ngữ Gbe** (phát âm ) là một tập hợp gồm khoảng 20 ngôn ngữ liên quan đến nhau hiện diện trên một khu vực kéo dài từ đông Ghana đến tây Nigeria. Số
**Xử lý ngôn ngữ tự nhiên** (_natural language processing_ - NLP) là một nhánh của trí tuệ nhân tạo tập trung vào các ứng dụng trên ngôn ngữ của con người. Trong trí tuệ nhân
**Ngôn ngữ của cộng đồng Hoa** **kiều** ở nước ngoài ảnh hưởng bởi rất nhiều yếu tố, bao gồm tổ tiên, xuất xứ, sự đồng hóa qua nhiều thế hệ, và các chính sách chính
**Ngôn ngữ đơn âm tiết** (chữ Anh: _Monosyllabic language_) là loại ngôn ngữ mà từ đơn chủ yếu do một âm tiết duy nhất cấu thành. Một ví dụ về ngôn ngữ đơn âm tiết
**Nhóm ngôn ngữ Đài Loan** hay **nhóm ngôn ngữ Formosa** là một nhóm gồm những ngôn ngữ của thổ dân Đài Loan. Thổ dân Đài Loan chiếm khoảng 2,3% dân số toàn đảo Đài Loan.
**Một ngôn ngữ có nguy cơ tuyệt chủng**, hoặc **ngôn ngữ moribund**, là một ngôn ngữ có nguy cơ bị mất sử dụng khi người nói của nó chết hoặc chuyển sang nói một ngôn
Trong phần mềm máy tính, **lập trình đa năng** (tiếng Anh: **general-purpose programming language**) là ngôn ngữ lập trình được thiết kế để sử dụng cho việc Các ngôn ngữ lập trình ban đầu được
**Nhóm ngôn ngữ Athabaska** (cũng viết là _Athabasca_, _Athapaska_ hoặc _Athapasca_, và còn được gọi là **nhóm ngôn ngữ Dené**) là một nhóm ngôn ngữ bản địa lớn ở Bắc Mỹ, hiện diện ở mạn
**Nhóm ngôn ngữ Rhaetia-Rôman** hay **Rhaetia** là một nhóm ngôn ngữ thuộc nhóm ngôn ngữ Rôman được nói ở bắc và đông bắc Ý và ở Thụy Sĩ. Cái tên "Rhaetia-Rôman" dùng để chỉ tỉnh
**Sinh ngôn ngữ tự nhiên** (hay còn gọi là **sản sinh ngôn ngữ tự nhiên**, **tạo sinh ngôn ngữ tự nhiên**, **phát sinh ngôn ngữ tự nhiên**, tiếng Anh: **natural-language generation**, viết tắt **NLG**) là
**Nhóm ngôn ngữ Thái (Tai)** (còn gọi là **Nhóm ngôn ngữ Tráng-Thái**) là một Nhóm ngôn ngữ thuộc ngữ hệ Tai-Kadai. Nhóm ngôn ngữ này bao gồm các ngôn ngữ như tiếng Tráng, tiếng Bố
**Nhóm ngôn ngữ Bisaya** (còn gọi là **Visaya** hay **Binisaya**) là một nhóm ngôn ngữ ở Philippines, có quan hệ gần với tiếng Tagalog và nhóm ngôn ngữ Bikol (cả ba đều thuộc nhóm Trung
phải|nhỏ| _Một mẫu_ của các [[phông chữ và ngôn ngữ sắp chữ, của William Caslon, người lập ra các chữ cái; từ _bách khoa toàn thư_ 1728. ]] **Ngôn ngữ viết**, còn gọi là **văn
**Nhóm ngôn ngữ Inuit** là một nhóm các ngôn ngữ bản địa châu Mỹ khắng khít theo truyền thống được nói ở phần Bắc Mỹ thuộc vòng cực Bắc và ở một mức độ nào
nhỏ|Hình ảnh của một trang chữ bao gồm các ký tự chữ nổi và các ký tự chữ chìm ở trang bên kia **Nhận dạng quang học chữ nổi Barille** là hoạt động chụp và
**Ngữ liệu văn bản** (tiếng Anh: **text corpus**) là một tập hợp lớn các văn bản có cấu trúc (thông thường được lưu giữ dạng điện toán và đã xử lý). Một kho ngữ liệu
**Nhận dạng ký tự quang học** (tiếng Anh: _Optical Character Recognition_, viết tắt là **OCR**), là loại phần mềm máy tính được tạo ra để chuyển các hình ảnh của chữ viết tay hoặc chữ
**Phân tích tình cảm** (hay còn gọi là **phân tích quan điểm**, **phân tích cảm xúc**, **phân tính cảm tính**, tiếng Anh: **sentiment analysis**, hay có tên khác là **opinion mining** hay **emotion AI**) là
Trong xử lý ngôn ngữ tự nhiên, **nén ngữ nghĩa** là một quá trình nén một từ vựng được dùng để xây dựng một tài liệu văn bản (hay một tập văn bản) bằng cách
**Python** () là ngôn ngữ lập trình bậc cao đa năng. Triết lý thiết kế của nó nhấn mạnh khả năng đọc mã bằng cách sử dụng thụt lề đáng kể. Python có kiểu động
**C** là một ngôn ngữ mệnh lệnh được phát triển từ đầu thập niên 1970 bởi Dennis Ritchie để dùng trong hệ điều hành UNIX. Từ đó, ngôn ngữ này đã lan rộng ra nhiều
**Mạng từ** là một cơ sở dữ liệu từ vựng tiếng Anh. Nó nhóm các từ tiếng Anh thành các tập hợp đồng nghĩa gọi là loạt đồng nghĩa, cung cấp các định nghĩa ngắn