✨Ngôn ngữ
Ngôn ngữ là một hệ thống giao tiếp có cấu trúc được sử dụng bởi con người. Cấu trúc của ngôn ngữ được gọi là ngữ pháp, còn các thành phần tự do của nó được gọi là từ vựng. Ngôn ngữ là phương tiện giao tiếp chính của con người, tồn tại ở dạng lời nói, ký hiệu hoặc chữ viết. Phần lớn các ngôn ngữ trên thế giới sở hữu các hệ chữ viết có chức năng ký âm và bảo tồn lời nói. Trong số các hệ thống giao tiếp ở động vật, ngôn ngữ của con người độc đáo ở nhiều điểm như: nó không phụ thuộc vào một phương thức truyền tải duy nhất nào, nó khác biệt giữa từng nền văn hóa và từng giai đoạn lịch sử, và nó có phạm vi biểu đạt rộng hơn nhiều so với các hệ thống khác. Ngôn ngữ tự nhiên có thể là khẩu ngữ, thủ ngữ hoặc cả hai; tuy vậy, bất kỳ ngôn ngữ nào cũng có thể được mã hóa bằng phương tiện thứ cấp được tiếp nhận bởi thính giác, thị giác hoặc xúc giác; ví dụ như văn bản, biển báo, chữ nổi hoặc huýt sáo. Nói cách khác, ngôn ngữ của con người độc lập khỏi phương thức biểu đạt, còn ngôn ngữ ký hiệu và ngôn ngữ viết là các phương thức lưu giữ hoặc mã hóa tiếng nói tự nhiên hoặc cử chỉ của con người.
Khi được sử dụng như một khái niệm chung, ngôn ngữ có thể được hiểu là (1) khả năng nhận thức để tiếp thu và sử dụng các hệ thống giao tiếp phức tạp, hoặc (2) tập hợp các quy tắc tạo nên các hệ thống giao tiếp đó, hoặc (3) tập hợp các ngữ lưu (utterance) có thể được tạo ra từ những quy tắc đó. Tất cả các ngôn ngữ đều phải dựa vào quá trình thiết hiệu (semiosis) để liên hệ dấu hiệu (sign) với một ý nghĩa (meaning) cụ thể. Khẩu ngữ, thủ ngữ và ngôn ngữ xúc giác đều có hệ thống âm vị (phonology) quy định sự kết hợp các biểu tượng (symbol) với nhau để tạo thành các chuỗi gọi là từ hoặc hình vị; cùng một hệ thống cú pháp quy định sự kết hợp các từ và hình vị để tạo thành ngữ đoạn (phrase) và ngữ lưu.
Môn khoa học nghiên cứu ngôn ngữ được gọi là ngôn ngữ học. Các xem xét phản biện về ngôn ngữ (triết học ngôn ngữ, mối quan hệ giữa ngôn ngữ và tư duy, điển hình như khẳng định 'ngôn từ đại diện cho kinh nghiệm', v.v) đã được thảo luận từ thời của các triết gia Gorgias và Plato của Hy Lạp cổ đại. Các nhà tư tưởng sau đó như Rousseau (1712–1778) thì cho rằng ngôn ngữ bắt nguồn từ cảm xúc, trong khi Immanuel Kant (1724–1804) lại cho rằng ngôn ngữ bắt nguồn từ suy nghĩ luân lý và logic. Các triết gia thế kỷ 20 như Ludwig Wittgenstein (1889–1951) cho rằng triết học chẳng qua là nghiên cứu ngôn ngữ. Hai học giả quan trọng nhất có công tạo dựng nên ngành ngôn ngữ học hiện đại là Ferdinand de Saussure và Noam Chomsky.
Ngôn ngữ được cho là đã dần tách ra từ hệ thống giao tiếp linh trưởng tiền khởi, khi các hominin sơ khai lĩnh hội khả năng hình thành lý thuyết tâm trí (theory of mind) và tính ý hướng (intentonality) chung. Sự phát triển những đặc điểm này trùng hợp với khuynh hướng gia tăng khối lượng não ở người. Nhiều nhà ngôn ngữ học coi cấu trúc của ngôn ngữ đã tiến hóa để phục vụ các chức năng giao tiếp và chức năng xã hội cụ thể. Ngôn ngữ được xử lý ở nhiều khu vực trực thuộc não bộ, chủ yếu ở vùng Broca và Wernicke. Con người thụ đắc ngôn ngữ thông qua giao tiếp xã hội từ thời thơ ấu; trẻ em thường nói trôi chảy khi lên 3. Ngôn ngữ và văn hóa phụ thuộc lẫn nhau; do vậy, bên cạnh công dụng giao tiếp, ngôn ngữ còn có những công dụng xã hội như biểu thị bản sắc nhóm, phân tầng xã hội, giải trí và chải chuốt xã hội (social grooming).
Ngôn ngữ biến đổi và đa dạng hóa theo thời gian; lịch sử diễn tiến của ngôn ngữ có thể được phục nguyên (reconstruction) thông qua phương pháp so sánh lịch sử nhằm tìm ra điểm chung giữa các ngôn ngữ hiện đại và suy luận ra được đặc điểm mà ngôn ngữ tổ tiên chung của chúng đã sở hữu. Một nhóm ngôn ngữ có chung nguồn gốc từ cùng một tổ tiên được gọi là một ngữ hệ; ngược lại, một ngôn ngữ mà chưa được chứng minh là có bất cứ mối quan hệ nào với các ngôn ngữ đồng đại hoặc lịch đại khác thì được gọi là ngôn ngữ biệt lập. Hiện vẫn có những ngôn ngữ chưa được nghiên cứu phân loại và đôi khi có các ngôn ngữ giả mạo bị báo cáo nhầm hoặc do sự cố tình lừa đảo. Giới học thuật hiện nay nhất trí cho rằng 50-90% ngôn ngữ được nói vào đầu thế kỷ 21 có lẽ sẽ "tuyệt chủng" vào năm 2100.
Từ nguyên
Trong tiếng Việt, "ngôn ngữ" là phiên âm Hán-Việt của cặp chữ Hán 言語 (bính âm Quan thoại chuẩn: yányǔ). Trong giai đoạn tiếng Hán trung cổ, hai chữ này được phát âm là /ŋɨɐn ŋɨʌX/, và trong giai đoạn tiếng Hán thượng cổ, 言 và 語 được phục nguyên lần lượt là *ŋan và *ŋaʔ theo nhà ngôn ngữ học Thượng Phương (2003). Schuessler (2007) cho rằng 言 (OC: *ŋan) là danh từ phái sinh của động từ 語 (OC: *ŋaʔ, nghĩa là 'nói') vì có kèm hậu tố *-n. Một từ nữa dùng để chỉ ngôn ngữ nói trong tiếng Việt là "tiếng", bắt nguồn từ "tiếng" của tiếng Việt trung đại (thế kỷ 17) và là một từ mượn có gốc Hán trung cổ, 聲 (MC: ɕiᴇŋ) 'âm thanh'.
Trong tiếng Anh, "language" 'ngôn ngữ' được vay mượn từ language 'ngôn ngữ' của tiếng Pháp cổ (âm Pháp cổ là lanˈɡʷadʒə), bắt nguồn từ lingua 'lưỡi' của tiếng Latin, chính nó lại bắt nguồn từ *dn̥ǵʰwéh₂s 'lưỡi, lời nói, ngôn ngữ' của tiếng Ấn-Âu nguyên thủy.
Định nghĩa
Danh từ "ngôn ngữ" có thể được dùng để chỉ mật mã, cipher và ngôn ngữ nhân tạo, ví dụ như ngôn ngữ máy tính trong kỹ thuật lập trình. Theo đó, ngôn ngữ được định nghĩa là hệ thống các dấu hiệu nhằm mục đích mã hóa và giải mã thông tin. Bài viết này tập trung vào ngôn ngữ tự nhiên của loài người, được nghiên cứu bởi ngành ngôn ngữ học.
"Ngôn ngữ", trong vai trò là đối tượng nghiên cứu của ngôn ngữ học, có hai nghĩa chính: khái niệm trừu tượng hoặc hệ thống ngôn ngữ cụ thể kiểu như "tiếng Việt". Nhà ngôn ngữ học Thụy Sĩ Ferdinand de Saussure (người có công định hình nghiên cứu ngôn ngữ học hiện đại) là người đầu tiên phân biệt rõ ràng sự khác biệt đó. Ông sử dụng từ language để chỉ khái niệm, từ langue để chỉ ví dụ cụ thể của một hệ thống ngôn ngữ và từ parole để chỉ phương cách sử dụng lời nói của một ngôn ngữ cụ thể.
Khi nói về ngôn ngữ như một khái niệm chung, nhiều định nghĩa có thể được vận dụng để nhấn mạnh các khía cạnh khác nhau của hiện tượng này. Mỗi định nghĩa sẽ định hình phương pháp nghiên cứu và sự thấu hiểu ngôn ngữ theo từng cách riêng, dẫn đến những trường phái lý thuyết khác nhau hoặc xung khắc nhau. Các tranh luận xoay quanh bản chất và nguồn gốc của ngôn ngữ đã tồn tại từ thời cổ đại. Các triết gia Hy Lạp như Gorgias và Platon hoài nghi về mối quan hệ giữa từ ngữ, khái niệm và thực tế. Gorgias cho rằng ngôn ngữ không thể đại diện cho trải nghiệm khách quan lẫn trải nghiệm nhân sinh, rằng giao tiếp và chân lý đều bất khả dĩ. Trái lại, Platon cho rằng chúng ta có thể giao tiếp được vì ngôn ngữ đại diện cho các ý tưởng và khái niệm tồn tại độc lập khỏi ngôn ngữ và trước cả ngôn ngữ.
Trong các cuộc tranh luận về nguồn gốc loài người vào thời kỳ Khai sáng, các suy đoán về nguồn gốc ngôn ngữ đã trở nên rất thịnh hành. Các nhà tư tưởng như Rousseau và Herder cho rằng ngôn ngữ bắt nguồn từ sự biểu đạt cảm xúc theo bản năng, và nó ban đầu gần với âm nhạc và thơ ca hơn là logic và tư duy lý trí. Các nhà triết học duy lý như Kant và Descartes lại có quan điểm ngược lại. Khoảng đầu thế kỷ 20, các nhà tư tưởng bắt đầu băn khoăn về vai trò của ngôn ngữ trong việc hình thành trải nghiệm của con người về thế giới – đặt câu hỏi liệu ngôn ngữ có phản ánh đơn thuần cấu trúc khách quan của thế giới, hay liệu ngôn ngữ tạo ra những khái niệm mà nó áp đặt lên trải nghiệm về thế giới khách quan của chúng ta. Điều này lại dẫn đến câu hỏi liệu các vấn đề triết học có thực sự trước hết phải là vấn đề ngôn ngữ học hay không. Sự trỗi dậy của quan điểm cho rằng ngôn ngữ đóng vai trò chủ đạo trong việc tạo ra và lưu thông các khái niệm, cùng quan điểm cho rằng nghiên cứu triết học về cơ bản là nghiên cứu ngôn ngữ, gắn liền với cái được gọi là bước ngoặt ngôn ngữ học (linguistic turn) và triết gia Ludwig Wittgenstein của thế kỷ 20. Các tranh luận về quan hệ của ngôn ngữ với ý nghĩa và tham chiếu, với nhận thức và ý thức, vẫn đang rất sôi nổi cho đến tận ngày nay.
Khả năng tâm trí, cơ quan hay bản năng
Một định nghĩa coi ngôn ngữ chủ yếu là khả năng tâm trí (mental faculty) cho phép con người thực hiện các hành vi ngôn ngữ: để học ngôn ngữ, để sản xuất và để hiểu lời nói. Định nghĩa này nhấn mạnh tính phổ quát của ngôn ngữ ở loài người và cơ sở sinh học của khả năng sử dụng ngôn ngữ như là một sự phát triển độc đáo của não người. Những người ủng hộ quan điểm này cho rằng sự thụ đắc ngôn ngữ là bẩm sinh ở loài người; họ khẳng định điều này là hiển nhiên vì lẽ, tất cả trẻ em bình thường lớn lên trong môi trường tiếp xúc với ngôn ngữ đều có thể tiếp thu ngôn ngữ mà chẳng cần hướng dẫn. Ngôn ngữ thậm chí có thể phát triển một cách tự nhiên trong môi trường con người sống và lớn lên cùng nhau mà không có ngôn ngữ chung; ví dụ, các ngôn ngữ Creole và ngôn ngữ ký hiệu Nicaragua. Quan điểm này bắt nguồn từ thời các triết gia Immanuel Kant và René Descartes, về sau còn xuất hiện trong thuyết ngữ pháp phổ quát của Noam Chomsky và thuyết bẩm sinh cực độ của triết gia người Mỹ Jerry Fodor. Định nghĩa này thường được sử dụng trong các nghiên cứu ngôn ngữ thuộc khuôn khổ khoa học nhận thức và ngôn ngữ học thần kinh.
Hệ thống biểu tượng hình thức
Một định nghĩa khác coi ngôn ngữ là một hệ thống hình thức (formal system) bao gồm các biểu tượng tuân theo quy tắc ngữ pháp kết hợp nhằm truyền tải một ý nghĩa. Định nghĩa này nhấn mạnh rằng ngôn ngữ con người có thể được mô tả như một hệ thống kết cấu đóng, trong đó bao gồm các quy tắc ánh xạ các dấu hiệu cụ thể tới các ý nghĩa cụ thể. Quan điểm cấu trúc này được Ferdinand de Saussure đề xướng, và thuyết cấu trúc (structuralism) của ông là nền móng của nhiều phương pháp tiếp cận ngôn ngữ hậu thế.
Những người ủng hộ lý thuyết ngôn ngữ của Saussure chủ trương một cách tiếp cận hình thức để nghiên cứu cấu trúc ngôn ngữ bằng cách xác định các yếu tố cơ bản rồi trình bày các quy tắc kết hợp các yếu tố đó nhằm hình thành từ và câu hoàn chỉnh. Noam Chomsky, cha đẻ thuyết ngữ pháp tạo sinh (generative grammar), là người ủng hộ nhiệt tình lý thuyết này. Chomsky định nghĩa ngôn ngữ là sự xây dựng các câu cú có thể được tạo ra bằng ngữ pháp chuyển đổi (transformational grammar). Chomsky cho rằng các quy tắc đó là đặc điểm bẩm sinh của tâm trí con người và tạo thành các nguyên lý cơ bản của ngôn ngữ. Khái niệm ngữ pháp chuyển đổi cũng thường xuyên được áp dụng trong các ngành như logic học, ngôn ngữ học hình thức và ngôn ngữ học máy tính.
Công cụ giao tiếp
right|thumb|Một cuộc hội thoại sử dụng [[ngôn ngữ ký hiệu Mỹ]] Một định nghĩa khác coi ngôn ngữ là một hệ thống giao tiếp cho phép con người trao đổi ngữ lưu lời nói (verbal) hoặc biểu tượng (symbolic). Định nghĩa này nhấn mạnh chức năng xã hội của ngôn ngữ; con người sử dụng ngôn ngữ để bộc lộ bản thân và thao túng đối tượng trong môi trường. Các lý thuyết chức năng của ngữ pháp giải thích các cấu trúc ngữ pháp dựa trên chức năng giao tiếp của chúng, cho rằng các cấu trúc ngữ pháp của ngôn ngữ là kết quả của một quá trình thích ứng trong đó ngữ pháp được hiệu chỉnh nhằm phục vụ nhu cầu giao tiếp của người sử dụng.
Quan điểm này gắn liền với việc nghiên cứu ngôn ngữ trong khuôn khổ các ngành ngữ dụng học, ngôn ngữ học nhận thức, ngôn ngữ học tương tác, ngôn ngữ học xã hội và nhân học ngôn ngữ. Các lý thuyết chức năng thường coi ngữ pháp như những hiện tượng động, như những cấu trúc luôn trong quá trình thay đổi khi người nói sử dụng. Quan điểm này đặt trọng tâm nghiên cứu ở ngành loại hình học ngôn ngữ (linguistic typology), tức là phân loại ngôn ngữ theo đặc điểm cấu trúc, do có thể chỉ ra rằng sự ngữ pháp hóa (grammaticalization) có xu hướng đi theo quỹ đạo phụ thuộc một phần vào loại hình học. tách biệt ngôn ngữ con người khỏi các hệ thống giao tiếp ở loài vật.
Các hệ thống giao tiếp ở động vật như ong hoặc vượn là các hệ thống đóng bao gồm một số lượng hữu hạn (thường rất hạn chế) các ý tưởng có thể diễn đạt. Ngược lại, ngôn ngữ con người là hệ thống mở và năng sản, tức là nó cho phép con người tạo ra một loạt các ngữ lưu từ một tập hợp hữu hạn các yếu tố và cho phép con người tạo ra các câu từ mới. Điều này khả thi bởi vì ngôn ngữ con người dựa trên một mã kép (dual code), trong đó một số lượng hữu hạn các yếu tố vô nghĩa ban đầu (ví dụ: âm thanh, chữ cái hoặc cử chỉ) có thể được kết hợp để tạo thành vô số đơn vị ý nghĩa lớn hơn (từ và câu). Tuy nhiên, một nghiên cứu đã chứng minh rằng loài chim Pomatostomus ruficeps ở Úc có khả năng sử dụng các yếu tố âm giống nhau nhưng theo cách dàn xếp khác nhau để tạo ra hai âm thanh khác biệt về chức năng. Ngoài ra, loài chim Turdoides bicolor có khả năng tạo ra hai giọng hót khác biệt về chức năng được cấu thành từ cùng một loại âm, chỉ có thể được phân biệt bằng số lượng các yếu tố âm lặp lại.
Một số loài động vật đã được chứng minh là có khả năng tiếp thu các hình thức giao tiếp thông qua học tập xã hội: ví dụ như một con tinh tinh lùn tên là Kanzi đã học cách thể hiện bản thân bằng cách sử dụng một bộ từ vựng tượng trưng (xem tiếng Yerkes). Tương tự, nhiều loài chim và cá voi học các tiếng kêu âm hưởng bằng cách bắt chước các thành viên khác trong đàn của chúng. Tuy đúng là một số loài vật có thể tiếp thu số lượng lớn từ và ký hiệu, khả năng tiếp thu của chúng vẫn còn kém xa một đứa bé loài người năm 4 tuổi trung bình và chúng vẫn chưa tạo ra bất kỳ thứ gì tương tự như ngữ pháp phức tạp ở ngôn ngữ con người.
Ngôn ngữ con người khác biệt với các hệ thống giao tiếp động vật ở chỗ: nó sở hữu các đặc điểm ngữ pháp và ngữ nghĩa, chẳng hạn danh từ và động từ, thì hiện tại và thì quá khứ, được sử dụng để truyền đạt những ý nghĩa cực kỳ phức tạp.
Nguồn gốc
Các giả thuyết về nguồn gốc ngôn ngữ khác nhau ở các giả định cơ bản về ngôn ngữ. Một số giả thuyết dựa trên ý tưởng rằng ngôn ngữ phức tạp đến mức nó không thể nào chỉ đơn thuần xuất hiện từ hư không ở dạng hoàn chỉnh, chắc hẳn nó đã tiến hóa từ các hệ thống tiền ngôn ngữ ở tổ tiên vượn nhân. Những giả thuyết thế này được gọi là các giả thuyết mang tính liên tục. Quan điểm trái lại cho rằng ngôn ngữ là một đặc điểm riêng của con người và không thể so sánh với bất cứ thứ gì ở những loài phi-người và do đó, nó đã phải xuất hiện đột ngột trong quá trình tiến hóa từ tiền-hominid sang loài người sơ khai. Những lý thuyết dạng này được gọi là các giả thuyết mang tính gián đoạn. Ngoài ra, các giả thuyết dựa trên quan điểm di truyền do Noam Chomsky tiên phong coi ngôn ngữ như một khả năng bẩm sinh được mã hóa chủ yếu trong di truyền; còn các giả thuyết theo lý thuyết chức năng coi ngôn ngữ như một hệ thống văn hóa chủ yếu, được lĩnh hội thông qua tương tác xã hội.
Các lý thuyết liên tục được đa số học giả ủng hộ nhưng bất đồng về quá trình phát triển. Các học giả coi ngôn ngữ là khả năng bẩm sinh, chẳng hạn nhà tâm lý học Steven Pinker, coi tiền thân của ngôn ngữ là nhận thức ở động vật, Các mô hình dựa trên tính liên tục khác cho rằng ngôn ngữ tiến hóa từ âm nhạc và rất được tán thành bởi Rousseau, Herder, Humboldt và Charles Darwin. Một người đề xướng nổi bật của quan điểm này là nhà khảo cổ học Steven Mithen. Nhà ngôn ngữ học Mỹ Stephen Anderson khẳng định rằng tuổi của ngôn ngữ nói rơi vào khoảng 60.000 đến 100.000 năm và rằng:
Các nhà nghiên cứu về nguồn gốc tiến hóa của ngôn ngữ thường thấy hợp lý khi cho rằng ngôn ngữ chỉ được phát minh duy nhất một lần và tất cả các ngôn ngữ nói hiện đại theo một cách nào đó đều có quan hệ với nhau, ngay cả khi mối quan hệ đó không còn khôi phục được nữa ... vì những hạn chế của các phương pháp hiện thời nhằm tái tạo chúng.
Bởi lẽ ngôn ngữ đã xuất hiện từ thời tiền sử, trước khi có bất kỳ ghi chép thành văn nào, sự phát triển ban đầu của nó không để lại bất kì dấu tích lịch sử nào và giới khoa học tin rằng hiện giờ ta không thể quan sát bất kì quá trình nào có thể mô phỏng lại sự khởi thủy đó. Các học giả theo thuyết liên tục chủ trương tìm kiếm ở động vật các đặc điểm có thể xem là tương tự với ngôn ngữ ở loài người sơ khai. Các nhà khảo cổ thì có khả năng kiểm định và tìm kiếm các dấu vết sinh học thích nghi cho việc sử dụng ngôn ngữ ở con người, hoặc tìm kiếm các dạng hành vi biểu tượng tiền ngôn ngữ. Một số các dấu hiệu hóa thạch con người biểu hiện khả năng ngôn ngữ là: kích thước não so với khối lượng cơ thể, sự tiến hóa của thanh quản có khả năng tạo ra âm thanh tiên tiến và một số công cụ cùng các đồ tạo tác.
Một quan điểm truyền thống trong giới khảo cổ là các australopithecine tiền nhân tựu trung có hệ thống giao tiếp không khác mấy so với các loài vượn lớn. Tuy nhiên, một nghiên cứu về loài Ardipithecus ramidus năm 2017 đã thách thức quan điểm trên. Một số học giả cho rằng sự phát triển của các hệ thống tiền ngôn ngữ (proto-language) bắt đầu sớm nhất với Homo habilis (2,3 triệu năm trước) trong khi nhiều học giả khác cho rằng sự tiến hóa của giao tiếp biểu tượng nguyên thủy bắt đầu với Homo erectus (1,8 triệu năm trước) hoặc Homo heidelbergensis (0,6 triệu năm trước), và sự tiến hóa của ngôn ngữ chính thống bắt đầu với Homo sapiens hiện đại về mặt giải phẫu trong cuộc cách mạng Đồ đá cũ Thượng chưa đầy 100.000 năm trước.
Chomsky là học giả nổi bật đề xướng lý thuyết gián đoạn của sự tiến hóa ngôn ngữ.
Phân ngành
Nghiên cứu học thuật về ngôn ngữ được tiến hành trên nhiều lĩnh vực chuyên ngành và từ nhiều góc độ lý thuyết khác nhau, tất cả những thứ đó đều cung cấp các phương pháp tiếp cận hiện đại đối với ngôn ngữ học. Ví dụ, ngôn ngữ học mô tả mổ xẻ ngữ pháp của một ngôn ngữ đơn lẻ; ngôn ngữ học lý thuyết phát triển các lý thuyết, khái niệm ngôn ngữ và xác định bản chất ngôn ngữ dựa trên dữ liệu từ nhiều ngôn ngữ khác nhau; ngôn ngữ học xã hội nghiên cứu cách thức sử dụng ngôn ngữ trong bối cảnh xã hội, để rồi áp dụng ngược sang để nghiên cứu các chức năng xã hội của ngôn ngữ và mô tả ngữ pháp; ngôn ngữ học thần kinh nghiên cứu cách thức ngôn ngữ được xử lý trong bộ não và kiểm định các lý thuyết; ngôn ngữ học tính toán được xây dựng trên nền tảng ngôn ngữ học lý thuyết và mô tả để tạo nên các mô hình tính toán của ngôn ngữ nhằm xử lý ngôn ngữ tự nhiên hoặc thử nghiệm các giả thuyết ngôn ngữ học; và ngôn ngữ học lịch sử lần theo dấu vết lịch sử của từng ngôn ngữ dựa theo các mô tả ngữ pháp, từ vựng và tái tạo lại quan hệ ngôn ngữ thông qua phương pháp so sánh lịch sử.
Thời kỳ đầu
thumb|upright|[[Ferdinand de Saussure phát triển hướng tiếp cận cấu trúc luận đối với nghiên cứu ngôn ngữ.]] Nhà ngữ pháp học Ấn Độ thế kỷ thứ 5 TCN Pāṇini, nổi tiếng với công trình liệt kê 3.959 quy tắc hình thái tiếng Phạn, thường được coi là người khởi đầu ngành nghiên cứu ngữ pháp chính thống. Tuy nhiên, người Sumer đã nghiên cứu sự khác biệt giữa ngữ pháp tiếng Sumer và tiếng Akkad từ rất lâu trước đó rồi (vào khoảng năm 1900 TCN). Các truyền thống mô tả ngữ pháp tiếp tục phát triển ở tất cả các nền văn hóa cổ đại tiếp thu chữ viết.
Vào thế kỷ 17, các nhà ngữ pháp Port-Royal của Pháp có ý tưởng cho rằng ngữ pháp của mọi ngôn ngữ là sự phản ánh những điều cơ bản phổ quát của ý nghĩ và chính vì vậy, ngữ pháp tất phải phổ quát. Vào thế kỷ 18, nhà bác ngữ và chuyên gia về Ấn Độ cổ đại người Anh tên là William Jones lần đầu tiên áp dụng phương pháp so sánh lịch sử để nghiên cứu ngôn ngữ và đánh dấu cho sự khởi đầu của ngành ngôn ngữ học so sánh lịch sử. Wilhelm von Humboldt sau đó mở rộng ý tưởng nghiên cứu ngôn ngữ lịch sử từ các ngôn ngữ Ấn-Âu sang các nhóm ngôn ngữ khác. Đầu thế kỷ 20, Ferdinand de Saussure đề xuất khái niệm ngôn ngữ như một hệ thống tĩnh gồm các đơn vị liên kết với nhau, được xác định thông qua sự đối lập giữa chúng.
Ngôn ngữ học hiện đại
thumb|upright|[[Noam Chomsky là nhà ngôn ngữ học có ảnh hưởng nhất trong thế kỷ 20.]] Vào những năm 1960, Noam Chomsky xây dựng lý thuyết tạo sinh của ngôn ngữ, cho rằng hình thức cơ bản nhất của ngôn ngữ là một tập hợp các quy tắc cú pháp phổ quát ở toàn bộ loài người và đóng vai trò là cơ sở ngữ pháp của tất cả ngôn ngữ loài người. Bộ quy tắc này được ông gọi là Ngữ pháp Phổ quát (Universal Grammar); theo Chomsky, mục tiêu chính của ngôn ngữ học là tìm ra thứ ngữ pháp này. Vì vậy, ông cho rằng ngữ pháp của từng ngôn ngữ riêng lẻ chỉ có tầm quan trọng nhất định do chúng cho phép ta suy ra các quy tắc cơ bản phổ quát mà từ đó tạo ra sự biến đổi ngôn ngữ có thể quan sát được ngày nay.
Đối lập với các lý thuyết hình thức của trường phái tạo sinh, các lý thuyết chức năng của ngôn ngữ cho rằng ngôn ngữ về cơ bản là một công cụ, thế nên cấu trúc của nó được phân tích và hiểu rõ nhất khi ta đi nghiên cữu chức năng của nó. Các lý thuyết hình thức về ngữ pháp tìm cách xác định các yếu tố khác nhau của ngôn ngữ và mô tả sự liên hệ giữa chúng như là hệ thống các quy tắc hoặc các thao tác hình thức, trong khi các lý thuyết chức năng tìm cách xác định các chức năng của ngôn ngữ và sau đó liên hệ chúng với các yếu tố ngôn ngữ thực hiện chức năng đó.
Kiến trúc sinh lý và thần kinh của ngôn ngữ và lời nói
Nói là phương thức mặc định để diễn đạt ngôn ngữ ở tất cả các nền văn hóa. Việc tạo ra ngôn ngữ nói phụ thuộc vào năng lực điều khiển môi, lưỡi và các thành phần khác của bộ máy thanh âm rất tinh vi; dựa vào khả năng giải mã âm thanh của giọng nói, và dựa vào bộ máy thần kinh cần thiết để tiếp thu và sản xuất ngôn ngữ. Ngành nghiên cứu cơ sở di truyền của ngôn ngữ con người vẫn còn rất non trẻ: gen duy nhất hiện được biết có liên quan đến sự sản xuất ngôn ngữ ở người là FOXP2, mất đoạn gen này sẽ gây gián đoạn chức năng ngôn ngữ ở người.
Bộ não
thumb|Các khu vực ngôn ngữ của não bộ. [[Hồi góc được tô màu cam, hồi trên viền được tô màu vàng, vùng Broca được tô màu lam, vùng Wernicke được tô màu lục và vỏ não thính giác chính được tô màu hồng.]] Bộ não là trung tâm điều phối mọi hoạt động ngôn ngữ; nó kiểm soát cả việc sản xuất nhận thức ngôn ngữ, ý nghĩa và cơ chế tạo ra lời nói. Tuy nhiên, kiến thức của chúng ta về các cơ sở thần kinh liên quan đến ngôn ngữ vẫn còn rất hạn chế mặc cho những tiến bộ đáng kể trong kỹ thuật hình ảnh hiện đại. Ngành ngôn ngữ học chuyên nghiên cứu các khía cạnh thần kinh của ngôn ngữ được gọi là ngôn ngữ học thần kinh.
Công tác ban đầu của ngành ngôn ngữ học thần kinh là nghiên cứu ngôn ngữ ở những người bị tổn thương não, để xem xét các tổn thương ở những khu vực đó ảnh hưởng thế nào đến ngôn ngữ và lời nói. Các nhà khoa học thần kinh vào thế kỷ 19 phát hiện ra 2 khu vực của não bộ liên quan mật thiết đến quá trình xử lý ngôn ngữ của con người. Khu vực đầu tiên là vùng Wernicke, nằm ở phần sau của hồi thái dương trên thuộc bán cầu đại não ưu thế. Những người bị tổn thương vùng não này biểu hiện chứng thất ngôn tiếp thu, tức là tình trạng suy giảm trầm trọng khả năng hiểu ngôn ngữ, nhưng lời nói vẫn giữ nhịp điệu tự nhiên và cấu trúc câu tương đối bình thường. Khu vực thứ hai là vùng Broca, nằm ở phần sau của hồi trán dưới của bán cầu não ưu thế. Những người bị tổn thương khu vực này biểu hiện chứng thất ngôn biểu đạt, tức là họ biết điều mình muốn nói nhưng không tài nào nói ra được. Các đối tượng đôi khi hiểu được cuộc trò chuyện nhưng không thể nói trôi chảy, thường lặp từ của người khác, có biểu hiện nói không đúng ngữ điệu và không có khả năng sử dụng thông tin cú pháp để xác định ý nghĩa của câu. Cả hai loại thất ngôn trên ảnh hưởng đến ngôn ngữ ký hiệu y hệt như ngôn ngữ nói miệng. Chứng thất ngôn biểu đạt khiến cho đối tượng ra ký hiệu chậm hơn và sai ngữ pháp, còn chứng thất ngôn tiếp thu khiến đối tượng tuy ra hiệu trôi chảy, nhưng thường lan man khó hiểu và thường không hiểu được ý của đối phương. Những điều trên cho thấy rằng hai vùng này đặc trưng cho khả năng sử dụng ngôn ngữ, nhưng không liên quan gì đến khả năng tạo ra giọng nói.
Với những tiến bộ công nghệ vào cuối thế kỷ 20, các nhà ngôn ngữ học thần kinh đã và đang vận dụng các kỹ thuật không xâm nhập như chụp cộng hưởng từ chức năng (fMRI) và điện sinh lý để nghiên cứu quá trình xử lý ngôn ngữ ở những người khỏe mạnh.
Âm thanh của lời nói có thể được phân tích thành sự kết hợp của các yếu tố đoạn tính và siêu đoạn tính (segmental and suprasegmental). Các phần tử phân đoạn là những phần tử nối tiếp nhau theo trình tự, thường được biểu thị bằng các chữ cái riêng biệt trong bảng chữ cái, chẳng hạn chữ Latinh. Trong lời nói tự do, không có ranh giới rõ ràng giữa phân đoạn này và phân đoạn tiếp, và thường không có bất kỳ khoảng tạm dừng âm thanh nào giữa chúng. Do đó, các phân đoạn được phân biệt bằng các âm riêng biệt là kết quả của các cách phát âm khác nhau (có thể là nguyên âm hoặc phụ âm). Hiện tượng siêu phân đoạn bao gồm các yếu tố như trọng âm (stress), kiểu tạo âm (phonation type), âm sắc (timbre), điệu tính (prosody) hoặc ngữ điệu (intonation), tất cả đều có thể có ảnh hưởng trên nhiều phân đoạn.
Các phân đoạn phụ âm và nguyên âm kết hợp với nhau để tạo thành âm tiết, sau đó kết hợp với nhau để tạo thành ngữ lưu; điều mà có thể được phân biệt bằng khoảng trống giữa hai lần hít vào. Về mặt âm học, các phân đoạn khác nhau đặc trưng bởi các cấu trúc formant khác nhau, được biểu thị trong phổ sóng ghi lại âm thanh. Formant chính là các đỉnh biên độ trong phổ tần số của một âm thanh cụ thể.
Nguyên âm là những âm thanh không có ma sát nghe được, gây ra bởi sự thu hẹp hoặc tắc nghẽn một số chặng của đường dẫn âm trên. Chúng khác nhau về chất âm (quality) tùy theo độ mở của môi và vị trí của lưỡi trong khoang miệng.
Phụ âm là những âm bị ma sát nghe được hoặc bị cản trở tại một số chặng của đường dẫn âm trên. Các phụ âm thay đổi tùy theo vị trí cấu âm (place of articulation), tức là vị trí luồng khí bị cản trở trong đường dẫn âm, thường là ở môi, răng, kẽ kề nướu răng, ngạc cứng, ngạc mềm, lưỡi gà hoặc thanh môn. Mỗi vị trí cấu âm sẽ tạo ra một tập hợp các phụ âm khác nhau, được phân biệt rõ ràng hơn bởi phương pháp cấu âm (manner of articulation) hoặc loại ma sát, kể cả khi đóng hoàn toàn (trong trường hợp đó phụ âm được gọi là âm tắc hoặc dừng), hoặc các mức khẩu độ khác nhau tạo ra âm xát và âm lướt. Phụ âm cũng có thể là hữu thanh hoặc vô thanh (voiced-unvoiced), tùy thuộc vào độ rung động của dây thanh trong quá trình phát âm.
Một số âm cần sự giải phóng luồng khí bằng khoang mũi nên được gọi là âm mũi hoặc âm mũi hóa (nasalized). Một số âm được tạo ra bởi chuyển động lưỡi trong miệng, như các âm l thì được gọi là âm bên (lateral) vì luồng khí chạy dọc hai bên lưỡi, và như các âm r thì được gọi là âm r-tính (rhotic).
Phương thức biểu đạt
Ngôn ngữ con người rất linh hoạt trong cách thức truyền tải. Hai phương thức giao tiếp được coi là cơ bản: bằng miệng (lời nói và ra hiệu bằng miệng) và bằng tay (ra hiệu bằng tay và cử chỉ). Thông thường, ngôn ngữ bằng miệng đi kèm với cử chỉ và ngôn ngữ ký hiệu đi kèm với mấp máy miệng. Ngoài ra, một số cộng đồng ngôn ngữ sử dụng cả hai phương thức để truyền tải ý nghĩa từ vựng hoặc ngữ pháp, bổ trợ lẫn nhau. Việc sử dụng ngôn ngữ theo hai phương thức như vậy đặc biệt phổ biến trong các thể loại như kể chuyện (ví dụ thủ ngữ Anh-điêng đồng bằng và thủ ngữ thổ dân Úc đi đôi với ngôn ngữ miệng), đôi khi cũng xảy ra trong các cuộc trò chuyện thông thường. Ví dụ: nhiều ngôn ngữ Úc có một tập hợp phong phú các hậu tố cách ngữ pháp (case) cung cấp thông tin chi tiết về công cụ được sử dụng để thực hiện một hành động. Nhiều ngôn ngữ khác thiếu độ chính xác ngữ pháp như vậy ở ngôn ngữ nói, nhưng được bổ sung bằng cử chỉ để truyền đạt thông tin đó. Ví dụ, trong tiếng Iwaidja, câu nói 'anh ta đi săn cá với ngọn đuốc' được nói đơn giản là "anh ấy-săn cá đuốc", nhưng từ 'đuốc' được đi kèm với một cử chỉ biểu thị rằng nó đã được cầm. Một ví dụ nữa, ngôn ngữ nghi lễ Damin có vốn từ vựng truyền miệng chỉ vỏn vẹn vài trăm từ, mỗi từ đều rất chung chung về nghĩa, nhưng được bổ sung bằng cử chỉ để có độ chính xác cao hơn (ví dụ: từ duy nhất chỉ cá là l*i, sẽ đi kèm một cử chỉ để xác định loài cá).
Các phương thức ngôn ngữ thứ cấp bao gồm chữ viết (bao gồm chữ nổi), dấu hiệu (bằng ngôn ngữ được mã hóa thủ công), huýt sáo và đánh trống. Các phương thức ngôn ngữ bậc ba - chẳng hạn semaphore, mã Morse và bảng chữ cái chính tả - truyền tải phương thức viết thứ cấp theo một phương tiện khác. Đối với một số ngôn ngữ chết còn được duy trì cho mục đích nghi lễ hoặc phụng vụ, chữ viết mới là phương thức biểu đạt chính, còn nói chỉ là phương thức thứ yếu.
Cấu trúc
Nếu được coi như một hệ thống giao tiếp tượng trưng theo truyền thống, ngôn ngữ được xem như bao gồm ba phần: dấu hiệu (sign), ý nghĩa (meaning) và mã (code) cầu nối giữa dấu hiệu và ý nghĩa. Khoa học nghiên cứu quá trình thiết hiệu (phương thức các dấu hiệu và ý nghĩa được liên kết, sử dụng và giải thích) được gọi là ngành ký hiệu học. Dấu hiệu có thể bao gồm âm thanh, cử chỉ, chữ cái hoặc biểu tượng, tùy thuộc vào ngôn ngữ được nói, ra hiệu hay viết và chúng có thể được kết hợp thành các dấu hiệu phức tạp hơn, chẳng hạn từ và cụm từ. Khi được sử dụng để giao tiếp, một dấu hiệu sẽ được mã hóa và truyền đi bởi người gửi (sender) thông qua một kênh (channel) đến người nhận (receiver) phải giải mã nó.
thumb|right|Bản khắc [[tiếng Tamil cổ đại tại Thanjavur]] Một số đặc tính tách biệt ngôn ngữ con người khỏi các hệ thống giao tiếp khác, đó là: tính võ đoán (arbitrariness) của dấu hiệu ngôn ngữ, tức là ta không thể lường trước mối liên kết giữa dấu hiệu và ý nghĩa; tính sóng đôi (duality) của hệ thống ngôn ngữ, tức là những cấu trúc ngôn ngữ lớn hơn được xây dựng từ sự kết hợp các yếu tố nhỏ hơn, ví dụ: âm thanh xây dựng từ ngữ, rồi từ ngữ xây dựng ngữ đoạn; tính phân lập (discreteness) của các yếu tố ngôn ngữ, tức là các yếu tố cấu thành dấu hiệu ngôn ngữ là các đơn vị rời rạc, ví dụ: âm thanh và từ ngữ, có thể được phân biệt và tái sắp xếp theo các kiểu mẫu khác nhau; và tính năng sản (productivity) của hệ thống ngôn ngữ, tức là trên lý thuyết, một tổ hợp ngôn từ vô hạn có thể được sáng tạo từ hữu hạn yếu tố ngôn ngữ. De Saussure là nhà ngôn ngữ học tiên phong cho phương pháp phân chia ngôn ngữ thành các hệ thống ký hiệu và ý nghĩa riêng biệt như vậy, mà hiện nay được áp dụng trong hầu hết các ngành ngôn ngữ học.
Ngữ nghĩa
Các ngôn ngữ biểu đạt ý nghĩa thông qua sự liên hệ dạng ký hiệu (sign form) với một ý nghĩa hoặc nội dung. Dạng dấu hiệu phải là thứ có thể nhận biết được, chẳng hạn âm thanh, hình ảnh hoặc cử chỉ, sau đó được liên hệ đến một ý nghĩa cụ thể dựa theo quy ước xã hội. Vì mối quan hệ dạng ký hiệu-ý nghĩa lệ thuộc vào quy ước xã hội, các dấu hiệu ngôn ngữ có thể coi là tùy ý, tức là quy ước đó được thiết lập về mặt xã hội và lịch sử, chứ không phải về mặt tự nhiên giữa một dạng dấu hiệu cụ thể và ý nghĩa của nó.
Mọi ngôn ngữ đều có một cấu trúc ngữ nghĩa gọi là vị ngữ, đảm nhận chức năng xác định thuộc tính, trạng thái hoặc hành động. Ngữ nghĩa học có thể được định nghĩa là ngành khoa học nghiên cứu về phương thức người nói hoặc người thông dịch gán giá trị chân lý cho các phát biểu; do đó, ý nghĩa có thể được hiểu là quá trình mà một vị ngữ phát biểu đúng hoặc sai về một thực thể, ví dụ: "
Âm thanh thuộc một phần của hệ thống ngôn ngữ được gọi là âm vị (phoneme). Âm vị là loại âm thanh trừu tượng, được định nghĩa là đơn vị nhỏ nhất trong ngôn ngữ có thể dùng để phân biệt ý nghĩa của một cặp tối thiểu (minimal pair). Ví dụ trong tiếng Việt, tương [tɨəŋ˧˧] và thương [tʰɨəŋ˧˧] tạo thành một cặp tối thiểu, trong đó sự phân biệt /t/ và /th/ tạo ra hai từ khác hẳn nhau về nghĩa; tương tự trong tiếng Anh, bat [bæt] 'dơi' và pat [pʰæt] 'vỗ' tạo thành cặp tối thiểu do sự phân biệt /b/ và /p/. Tuy nhiên, mỗi ngôn ngữ tương phản âm thanh theo những cách khác nhau. Nếu như một ngôn ngữ không phân biệt giữa phụ âm hữu thanh và vô thanh, thì âm [p] và [b] (nếu xuất hiện) có thể được coi là một âm vị duy nhất và hai từ sẽ có cùng nghĩa. Giống tiếng Hàn và tiếng Hindi, tiếng Anh không phân biệt ngữ âm giữa phụ âm bật hơi và không bật hơi: /p/ trong spin [spɪn] và /p/ trong pin [pʰɪn] được coi là hai cách phát âm khác nhau của cùng một âm vị (hai âm này do vậy sẽ được gọi là tha âm vị (allophone)), trái lại trong tiếng Quan Thoại thì lại phân biệt giữa [pʰá] 'cúi' và [pá] 'tám' (dấu sắc của á ở đây tượng trưng cho thanh điệu cao). Một số ngôn ngữ có rất ít âm vị, chẳng hạn tiếng Rotokas và tiếng Pirahã sở hữu lần lượt 11 và 10 âm vị, trong khi một số lại có rất nhiều âm vị, chẳng hạn tiếng Taa sở hữu tận 141 âm vị. Trong nghiên cứu ngôn ngữ ký hiệu, thứ tương đương với âm vị được gọi là hiệu vị (chereme), tức là các yếu tố cơ bản của cử chỉ chẳng hạn hình dạng, hướng, vị trí và chuyển động của tay, tương ứng với phương pháp cấu âm trong khẩu ngữ.
Hệ thống chữ viết là hệ thống sử dụng các ký hiệu trực quan để đại diện cho ngôn ngữ nói. Bảng chữ cái Latinh (và những bảng chữ cái dựa theo hoặc bắt nguồn từ nó) ban đầu được tạo ra nhằm ký âm đơn lẻ, vì vậy những cộng đồng ngôn ngữ sử dụng bảng Latinh phải ghép các chữ cái lại để tạo thành một từ hoàn chỉnh. Trong các hệ chữ âm tiết (syllabic script), chẳng hạn hệ chữ Inuktitut, mỗi ký hiệu đại diện cho toàn bộ một âm tiết. Trong các hệ chữ tượng hình (logographic script), mỗi dấu hiệu đại diện cho toàn bộ một từ và hầu như không gợi ý cách phát âm của từ đó.
Bởi các ngôn ngữ đều có số lượng từ vựng rất lớn, không một hệ chữ tượng hình thuần túy nào tồn tại. Ngôn ngữ viết mô phỏng lại sự tiếp nối của các âm thanh và lời nói bằng cách sắp xếp các ký hiệu theo một khuôn mẫu, tuân theo một chiều viết nhất định. Chiều viết của một hệ chữ hoàn toàn tùy thuộc theo quy ước. Một số hệ chữ viết theo chiều ngang (từ trái sang phải giống hệ Latinh hoặc từ phải sang trái giống hệ Ả Rập), còn một số hệ khác viết theo chiều dọc, ví dụ như từ trên xuống dưới giống hệ chữ Hán truyền thống. Một số hệ viết theo các hướng ngược nhau xen kẽ các dòng, và một số hệ, chẳng hạn hệ Maya cổ, có thể được viết theo cả hai hướng và sử dụng các ký hiệu đặc biệt để chỉ dẫn người đọc hướng viết.
Các nhà ngôn ngữ học đã phát triển bảng chữ cái phiên âm quốc tế (IPA) để đại diện cho tất cả các đơn vị âm thanh rời rạc góp phần tạo nên ý nghĩa trong tất cả các ngôn ngữ nói miệng của con người.
Ngữ pháp
Ngữ pháp là bộ quy tắc của một ngôn ngữ cụ thể quy định sự kết ghép các các hình vị lại để tạo thành một ngữ lưu. Nếu hình vị được tự do di chuyển trong một ngữ lưu, chúng được gọi là từ; còn nếu bị ràng buộc với các từ hoặc hình vị khác thì gọi là phụ tố. Các quy tắc cấu trúc bên trong của từ được gọi là hình thái còn quy tắc cấu trúc bên trong của các cụm từ và câu thì gọi là cú pháp.
Phạm trù ngữ pháp
Ngữ pháp có thể được mô tả là một hệ thống các phạm trù (category) và một tập hợp các quy tắc kết hợp các phạm trù đó để tạo thành các khía cạnh ý nghĩa khác nhau. Từng ngôn ngữ sẽ có một kiểu mã hóa ý nghĩa theo phạm trù hoặc từ vị riêng. Tuy nhiên, vẫn có một số đặc điểm nhất quán đến mức gần như phổ quát ở mọi ngôn ngữ.
Từ loại
Các nhà ngôn ngữ học chia các thành phần trong câu nói thành các lớp từ theo chức năng và vị trí của chúng so với các phần khác của một câu. Ví dụ, tất cả các ngôn ngữ đều phân biệt giữa nhóm từ biểu thị nguyên mẫu sự vật-khái niệm và nhóm từ biểu thị nguyên mẫu hành động-sự kiện. Nhóm từ chỉ sự vật-khái niệm, bao gồm các từ tiếng Việt như "chó" và "nhạc", được gọi là danh từ. Nhóm từ chỉ hành động-sự kiện, bao gồm "nghĩ" và "hát", được gọi là động từ. Một nhóm từ phổ biến nữa là tính từ, mô tả đặc tính hoặc phẩm chất của các danh từ, chẳng hạn "chua" hoặc "lớn". Lớp từ "mở" nếu ta luôn có thể thêm từ mới vào lớp đó, nhưng "đóng" nếu chỉ có một số lượng cố định từ ngữ ở lớp đó. Trong tiếng Anh, lớp đại từ là lớp đóng còn lớp tính từ là lớp mở, do vô số tính từ có thể phái sinh từ động từ (ví dụ: "saddened") hoặc danh từ (ví dụ: thêm hậu tố -like vào sau một danh từ có thể tạo ra các tính từ, như trong "noun-like" 'giống danh từ'). Trong các ngôn ngữ khác như tiếng Hàn, điều này trái lại, số lượng đại từ là bất định nhưng số lượng tính từ lại cố định.
Mỗi từ loại đảm nhận những chức năng khác nhau của ngữ pháp. Ví dụ, động từ cấu thành vị ngữ, còn danh từ cấu thành tham tố (argument) của vị ngữ; ví dụ trong câu "Sally runs", vị ngữ sẽ là "runs" vì nó chỉ trạng thái cụ thể của tham tố "Sally". Một số động từ như "curse" có thể liên kết với 2 tham tố, ví dụ: "Sally cursed John". Một vị ngữ chỉ có thể nhận một tham tố duy nhất thì gọi là nội động từ (intransitive verb), còn nếu có thể nhận hai tham tố thì gọi là ngoại động từ (transitive verb).
Ngoài ra, ngôn ngữ còn có rất nhiều từ loại, chẳng hạn: liên từ để nối các mệnh đề, mạo từ để đánh dấu tính xác định của danh từ, thán từ để bộc lộ cảm xúc, biểu ý từ (ideophone) để gợi lên ý tưởng bằng âm thanh, giới từ để xác định vị trí của sự vật trong không gian, loại từ để phân loại danh từ theo hình dáng hoặc phẩm chất của sự vật, v.v.
Hình thái
Trong ngôn ngữ học, việc nghiên cứu cấu trúc bên trong của các từ phức và quá trình mà các từ ngữ hình thành được gọi là hình thái học. Trong hầu hết các ngôn ngữ, từ phức có thể được xây dựng từ nhiều hình vị. Ví dụ, từ "unexpected" trong tiếng Anh có thể được phân tích thành ba hình vị là "un-", "expect" và "-ed".
Hình vị có khả năng đứng độc lập gọi là căn tố (root), còn nếu phải đi kèm với các hình vị khác thì gọi là phụ tố (affix). Phụ tố có thể được phân loại dựa theo vị trí của chúng so với căn tố: tiền tố (prefix), hậu tố (postfix) và trung tố (infix). Phụ tố có vai trò thay nghĩa hoặc bổ nghĩa cho căn tố. Trong một số ngôn ngữ, từ ngữ có thể biến âm để biểu thị một ý nghĩa khác; ví dụ trong tiếng Anh, từ "run" ở thì quá khứ là "ran". Hiện tượng biến âm đó được gọi là ablaut. Ngoài ra, hình thái học phân biệt giữa hai khái niệm biến tố (thay nghĩa hoặc bổ nghĩa một căn tố) và phái sinh (tạo ra từ mới dựa trên một căn tố hiện có). Trong tiếng Anh, động từ "sing" có dạng biến tố thì quá khứ là "sung" và dạng phái sinh kèm hậu tố chỉ nghề nghiệp "-er" là "singer".
Dựa vào hình thái-cú pháp, ngôn ngữ có thể được phân thành 4 loại sau đây:
- Ngôn ngữ đơn lập (isolating language): Là ngôn ngữ mà một từ chỉ tương đương với một khía cạnh ý nghĩa rời rạc. Ví dụ trong một số ngôn ngữ như tiếng Trung và tiếng Việt, quá trình hình thái (morphological process) không tồn tại và tất cả thông tin ngữ pháp được mã hóa cú pháp theo các từ đơn lập.
- Ngôn ngữ hòa kết (fusional language): Là ngôn ngữ mà một hình vị có thể mang nhiều khía cạnh ý nghĩa riêng biệt, không thể phân tích thành các đơn vị nhỏ hơn. Điển hình cho ngôn ngữ dạng này là các ngôn ngữ Ấn-Âu; ví dụ, trong tiếng Latin, từ bonus 'tốt' bao gồm chính tố bon- 'tốt' và hậu tố -us biểu thị giống đực, số ít và danh cách (đuôi -us đứng riêng không có nghĩa).
- Ngôn ngữ chắp dính (agglutinative language): Là ngôn ngữ xây dựng từ bằng cách xâu chuỗi các hình vị lại với nhau; khác với kiểu hòa kết, mỗi hình vị vẫn có ý nghĩa rời rạc. Ví dụ điển hình của ngôn ngữ dạng này là tiếng Thổ Nhĩ Kỳ, có các từ kiểu như evlerinizden nghĩa là "từ nhà của bạn", có thể phân tích thành ev-ler-iniz-den và giải nghĩa lần lượt là "nhà-số nhiều-của bạn-từ".
- Ngôn ngữ hỗn nhập (polysynthetic language): Là ngôn ngữ có tính tổng hợp rất cao, thường có khả năng diễn đạt toàn bộ một câu chỉ với một từ duy nhất. Ví dụ trong tiếng Ba Tư, từ phức nafahmidamesh có nghĩa là tôi đã không hiểu nó, bao gồm các hình vị na-fahm-id-am-esh, với nghĩa lần lượt là "phủ định-hiểu-thì quá khứ-tôi-nó". Một ví dụ khác phức tạp hơn, từ tuntussuqatarniksatengqiggtuq trong tiếng Yupik có nghĩa là "Anh ấy chưa nói lại rằng anh ấy sẽ đi săn tuần lộc", bao gồm các hình vị tuntu-ssur-qatar-ni-ksaite-ngqiggte-uq với nghĩa lần lượt là "tuần lộc-săn-thì tương lai-nói-phủ định-lần nữa-ngôi ba.số ít.lối trình bày". Ngoại trừ tuntu ("tuần lộc"), các hình vị còn lại không thể đứng độc lập.
Nhiều hình thái ngôn ngữ thể hiện tính tham chiếu chéo các từ trong một câu, gọi là sự phù ứng (agreement). Ví dụ trong nhiều ngôn ngữ Ấn-Âu, các tính từ phải tham chiếu chéo với danh từ mà chúng bổ nghĩa về lượng, cách và giống. Chính vì vậy, từ bonus trong tiếng Latinh phải dùng sau một danh từ giống đực, số ít và ở dạng cách. Trong nhiều ngôn ngữ hỗn nhập, các động từ phải tham chiếu chéo với chủ thể và đối tượng. Ví dụ trong cụm từ tiếng Basque ikusi nauzu, nghĩa là "bạn đã thấy tôi", động từ phụ trợ thì quá khứ n-au-zu (tương tự như "do" trong tiếng Anh) phù ứng với chủ ngữ (bạn) qua tiền tố n- và phù ứng với đối tượng (tôi) qua hậu tố -zu. Giải nghĩa từng hình vị của từ này sẽ là "thấy bạn-làm thì quá khứ-tôi".
Cú pháp
upright=1.5|thumb|Ngoài từ loại, một câu có thể được phân tích thành các phần mang chức năng khác nhau: "The cat" là [[chủ ngữ, "on the mat" là cụm chỉ vị trí, và "sat" là lõi của vị ngữ.]] Một cách truyền đạt ý nghĩa khác của ngôn ngữ là thông qua thứ tự các từ trong một câu, đó chính là cú pháp. Các quy tắc cú pháp của một ngôn ngữ cho ta biết tại sao "I love you" là câu có nghĩa, nhưng "*love you I" thì không. Các quy tắc cú pháp xác định trật tự từ và sự ràng buộc cấu trúc câu, và làm thế nào những ràng buộc đó góp phần tạo nên ý nghĩa. Ví dụ, trong tiếng Anh, hai câu: "the slaves were cursing the master" [Đám nô lệ chửi (thì quá khứ tiếp diễn) tên chủ nô] và "the master was cursing the slaves" [Tên chủ nô chửi (thì quá khứ tiếp diễn) đám nô lệ] có nghĩa khác nhau bởi vì chủ ngữ là danh từ đứng trước động từ, còn tân ngữ là danh từ đứng sau động từ. Trái lại trong tiếng Latin, cả "Dominus servos vituperabat" và "Servos vituperabat dominus" đều có nghĩa là [Chủ nhân khiển trách (thì quá khứ tiếp diễn) đám nô lệ] bởi vì từ servos 'nô lệ' đang ở dạng đối cách (accusative case, biểu thị vị ngữ) và dominus 'chủ nhân' đang ở dạng danh cách (nominative case, biểu thị chủ ngữ).
Tiếng Latin sử dụng hình thái để phân biệt giữa chủ thể và đối tượng, còn tiếng Anh sử dụng trật tự từ. Một ví dụ khác về tầm ảnh hưởng của quy tắc cú pháp làm thay đổi ý nghĩa của câu là quy tắc đảo ngược trật tự từ trong câu hỏi, xuất hiện ở nhiều ngôn ngữ. Quy tắc này giải thích tại sao trong tiếng Anh, câu "John is talking to Lucy" khi chuyển thành câu hỏi phải là "Who is John talking to?" (1), chứ không phải "John is talking to who?" (2). Tất nhiên, câu (2) đôi khi được sử dụng để thay đổi sắc thái câu hỏi, nhấn mạnh sự nghi vấn vào "who?". Ngoài ra, cú pháp còn bao gồm các quy tắc kết hợp các ngữ đoạn ở những vị trí khác nhau lại để tạo thành một câu hoàn chỉnh. Câu có thể được coi là một cấu trúc dạng cây, tách ra thành các đơn vị ngữ đoạn nhỏ hơn ở những cấp khác nhau. Hình bên trên minh họa cú pháp đã phân tích của câu "the cat sat on the mat" tiếng Anh, bao gồm danh ngữ (noun phrase), động từ, và giới ngữ (prepositional phrase). Đoạn giới ngữ có thể được phân tích tiếp thành một giới từ và một danh ngữ, và danh ngữ đó lại có thể phân tích tiếp thành một mạo từ và một danh từ.
Lý do câu có thể được phân tích thành các ngữ đoạn là bởi vì mỗi ngữ đoạn hoàn toàn có thể di chuyển trong câu như một thành phần duy nhất nếu như một thao tác cú pháp nào đó được thực hiện. "The cat" và "on the mat" là hai ngữ đoạn/cụm từ, vì chúng được coi là các đơn vị riêng lẻ nếu người nói/người viết quyết định đưa giới ngữ lên đầu câu để nhấn mạnh vị trí: "[And] on the mat, the cat sat". Ví dụ, ngôn ngữ có thể được phân loại dựa trên thứ tự từ cơ bản của chúng, tức là thứ tự tương đối của động từ với các thành phần của một câu thông thường. Trong tiếng Anh, thứ tự từ cơ bản là SVO (chủ–động–tân): "Snake bit the man" (rắn cắn người), nhưng nếu nói một câu tương tự trong thổ ngữ Gamilaraay Úc thì phải theo trật tự SOV (chủ-tân-động): d̪uyugu n̪ama d̪ayn yiːy (rắn người cắn). Kiểu thứ tự từ được coi là một tham số (parameter) loại hình vì kiểu trật tự từ cơ bản còn tương ứng với các tham số cú pháp khác, chẳng hạn thứ tự tương đối của danh từ và tính từ, hoặc sự sử dụng tiền giới từ (preposition) hoặc hậu giới từ (postpositions). Những mối tương quan kiểu vậy được gọi là sự phổ niệm tất suy hay phổ niệm ngầm (implicational universal). Hầu hết, không phải tất cả, các ngôn ngữ có thứ tự câu SOV đều sử dụng hậu giới từ thay vì tiền giới từ, và tính từ thì thường đứng trước danh từ.
Mọi ngôn ngữ đều có các cấu trúc Chủ ngữ, Động từ và Tân ngữ, nhưng chúng lại khác nhau ở cách phân loại các mối quan hệ giữa tác thể và hành động. Tiếng Anh thuộc loại hình thái chủ cách-đối cách (nominative-accusative): trong các mệnh đề vị từ ngoại động tiếng Anh, chủ ngữ của câu nội động "I run" lẫn câu ngoại động "I love you" được coi là như nhau, được thể hiện bằng cùng một đại từ I "tôi". Một số ngôn ngữ khác thuộc loại hình thái khiển cách (ergative), ví dụ tiếng Gamilaraay, lại phân biệt giữa Tác thể (Agent) và Bị thể (Patient). Trong các ngôn ngữ khiển cách, tham tố đơn lẻ trong một câu nội động, chẳng hạn "I run", lại giống hệt như bị thể trong một câu ngoại động, tức là "me run" = "I run". Chỉ trong các câu ngoại động thì từ tương đương với "I" mới được sử dụng.
Các đặc điểm giống nhau giữa các ngôn ngữ thuộc cùng một loại hình có thể phát sinh hoàn toàn độc lập. Sự đồng đẳng đó có thể là do các quy luật phổ quát chi phối cấu trúc của ngôn ngữ tự nhiên, tức là "phổ niệm ngôn ngữ", hoặc chúng có thể là kết quả của sự hội tụ ngôn ngữ sinh ra bởi các vấn đề giao tiếp lặp đi lặp lại mà con người sử dụng ngôn ngữ để giải quyết. Do cách thức truyền ngôn ngữ giữa các thế hệ và trong một cộng đồng, ngôn ngữ luôn biến đổi và đa dạng hóa thành các ngôn ngữ mới, hoặc hội tụ lại do tiếp xúc ngôn ngữ. Các quá trình này có phần giống với tiến hóa sinh học, trong đó quá trình phái sinh với sự biến đổi dẫn đến sự hình thành cây phát sinh chủng loại.
Tuy nhiên, ngôn ngữ khác với sinh vật ở chỗ: ngôn ngữ dễ dàng tiếp nhận yếu tố từ các ngôn ngữ khác thông qua quá trình khuếch tán khi những cộng đồng ngôn ngữ khác biệt tiếp xúc với nhau. Con người đôi khi nói nhiều hơn một ngôn ngữ, tiếp thu ngôn ngữ mẹ đẻ hoặc nhiều ngôn ngữ khi còn nhỏ, hoặc học ngôn ngữ mới khi lớn lên. Vì sự tiếp xúc ngôn ngữ ngày càng tăng trong thế giới toàn cầu hóa, nhiều ngôn ngữ nhỏ đang lâm nguy bởi người nói chuyển sang dùng ngôn ngữ khác mà cho họ cơ hội tham gia vào cộng đồng ngôn ngữ lớn hơn và có ảnh hưởng hơn. Ý nghĩa của ký hiệu cũng có thể bị thay đổi theo thời gian, bởi sự biến hóa không ngừng của các quy ước ra hiệu. Ngành ngôn ngữ học nghiên cứu sự biến đổi ý nghĩa trong bối cảnh xã hội được gọi là ngữ dụng học. Ngành này chủ yếu quan tâm đến các mô hình của việc sử dụng ngôn ngữ và sự tạo nên ý nghĩa của những mô hình đó. Trong mọi ngôn ngữ, các biểu thức (expression) không chỉ có chức năng truyền đạt thông tin mà còn có cả chức năng hành động (action). Một số hành động nhất định chỉ có thể được thực hiện thông qua ngôn ngữ, điều mà vẫn có thể tác động một cách hữu hình lên thực thể, chẳng hạn "đặt tên" (hành động tạo ra từ riêng để chỉ một số thực thể) hoặc "tuyên bố hai người là vợ là chồng" (hành động tạo ra một khế ước xã hội về hôn nhân). Những hành động bằng ngôn ngữ nêu trên được các nhà ngữ dụng học gọi là ngôn hành (speech act), và chúng cũng có thể được thực hiện thông qua văn viết hoặc thủ ngữ.
Hình thức biểu đạt ngôn ngữ thường không tương ứng với ý nghĩa mà nó thực sự có trong bối cảnh xã hội. Ví dụ, tại bàn ăn, một người hỏi bằng tiếng Anh: "Can you reach the salt?", tức là ở đây, ý của anh ta không phải là muốn biết chiều dài sải tay của người kia, mà là đề nghị người kia một cách lịch sự rằng lấy hộ anh ấy lọ muối. Do vậy, ý nghĩa của câu từ còn phải phụ thuộc vào ngữ cảnh; khái niệm này được các nhà ngữ dụng học gọi là hàm ngôn hội thoại (conversational implicature). Những quy tắc xã hội của việc sử dụng ngôn ngữ chỉ phù hợp trong một số tình huống nhất định và cách thức phát biểu được hiểu thế nào trong mối quan hệ với bối cảnh khác nhau giữa từng cộng đồng văn hóa, và việc học các quy tắc đó đóng vai trò rất lớn trong năng lực giao tiếp ngôn ngữ của một người.
Thụ đắc ngôn ngữ
Tất cả con người khỏe mạnh, phát triển bình thường đều có khả năng học cách sử dụng ngôn ngữ. Trẻ em tiếp thu bất kỳ ngôn ngữ nào được sử dụng đáng kể xung quanh chúng, bất kể là thủ ngữ hay khẩu ngữ. Quá trình tiếp thu ngôn ngữ của trẻ em được gọi là thụ đắc ngôn ngữ đầu tiên (first-language acquisition), vì không giống như nhiều quá trình tiếp thu khác, sự "thụ đắc" không cần phải được giảng dạy mà diễn ra thụ động. Trong cuốn The Descent of Man, nhà tự nhiên học Charles Darwin gọi quá trình này là "an instinctive tendency to acquire an art" (một xu hướng bản năng nhằm tiếp thu nghệ thuật). Ngay từ khi sinh ra, trẻ sơ sinh ưu tiên phản ứng với lời nói con người hơn các âm thanh khác. Khoảng 1 tháng tuổi, trẻ đã có khả năng phân biệt giữa các âm tố khác nhau. Khoảng 6 tháng tuổi, trẻ sẽ bắt đầu bập bẹ, tạo ra các âm tố hoặc ký hiệu của ngôn ngữ sử dụng xung quanh chúng. Khoảng từ 12-18 tháng tuổi, trẻ hình thành khái niệm từ; vốn từ vựng trung bình của một đứa trẻ lúc 18 tháng tuổi rơi vào khoảng 50 từ. Thuật ngữ để chỉ những ngữ lưu đầu tiên của trẻ là holophrasis (nghĩa đen là "toàn bộ câu"), tức là những ngữ lưu chỉ sử dụng một từ để truyền đạt một số ý tưởng. Vài tháng sau khi đứa trẻ bắt đầu tạo ra từ, chú