Nhận dạng tiếng nói là một quá trình nhận dạng mẫu, còn được gọi là nhận dạng giọng nói tự động (ASR), nhận dạng giọng nói máy tính hoặc chuyển đổi giọng nói thành văn bản (STT). Với mục đích là phân lớp (classify) thông tin đầu vào là tín hiệu tiếng nói thành một dãy tuần tự các mẫu đã được học trước đó và lưu trữ trong bộ nhớ. Các mẫu là các đơn vị nhận dạng, chúng có thể là các từ, hoặc các âm vị. Nếu các mẫu này là bất biến và không thay đổi thì công việc nhận dạng tiếng nói trở nên đơn giản bằng cách so sánh dữ liệu tiếng nói cần nhận dạng với các mẫu đã được học và lưu trữ trong bộ nhớ.
Khó khăn cơ bản của nhận dạng tiếng nói đó là tiếng nói luôn biến thiên theo thời gian và có sự khác biệt lớn giữa tiếng nói của những người nói khác nhau, tốc độ nói, ngữ cảnh và môi trường âm học khác nhau. Xác định những thông tin biến thiên nào của tiếng nói là có ích và những thông tin nào là không có ích đối với nhận dạng tiếng nói là rất quan trọng. Đây là một nhiệm vụ rất khó khăn mà ngay cả với các kỹ thuật xác suất thống kê mạnh cũng khó khăn trong việc tổng quát hoá từ các mẫu tiếng nói những biến thiên quan trọng cần thiết trong nhận dạng tiếng nói.
Các nghiên cứu về nhận dạng tiếng nói dựa trên ba nguyên tắc cơ bản:
- Tín hiệu tiếng nói được biểu diễn chính xác bởi các giá trị phổ trong một khung thời gian ngắn (short-term amplitude spectrum). Nhờ vậy ta có thể trích ra các đặc điểm tiếng nói từ những khoảng thời gian ngắn và dùng các đặc điểm này làm dữ liệu để nhận dạng tiếng nói.
- Nội dung của tiếng nói được biểu diễn dưới dạng chữ viết, là một dãy các ký hiệu ngữ âm. Do đó ý nghĩa của một phát âm được bảo toàn khi chúng ta phiên âm phát âm thành dãy các ký hiệu ngữ âm.
- Nhận dạng tiếng nói là một quá trình nhận thức. Thông tin về ngữ nghĩa (semantics) và suy đoán (pragmatics) có giá trị trong quá trình nhận dạng tiếng nói, nhất là khi thông tin về âm học là không rõ ràng.
Cách tiếp cận nhận dạng tiếng nói bằng thống kê bao gồm: sử dụng mô hình Markov ẩn, mạng nơ-ron, sử dụng cơ sở tri thức, v.v..
Các hệ thống nhận dạng tiếng nói có thể được phân thành hai loại: "phụ thuộc vào người nói" (speaker-dependent) và "không phụ thuộc vào người nói" (speaker-independent). Các ứng dụng của nhận dạng tiếng nói bao gồm giao diện người dùng bằng giọng nói, quay số bằng giọng nói, điều khiển thiết bị gia đình, tìm kiếm từ khóa, nhập dữ liệu đơn giản, chuẩn bị tài liệu có cấu trúc, xác định đặc điểm của người nói, xử lý văn bản từ giọng nói và nhập liệu giọng nói trực tiếp trong máy bay.
Khác với nhận dạng tiếng nói, thuật ngữ nhận dạng giọng nói hoặc xác định người nói chỉ việc xác định ai đang nói, chứ không phải nội dung của lời nói. Nhận dạng giọng nói có thể đơn giản hóa việc dịch nội dung tiếng nói trong các hệ thống được đào tạo trên giọng nói của một người cụ thể hoặc có thể được sử dụng để chứng thực hoặc xác minh danh tính của người nói trong quá trình bảo mật.
Lịch sử của nhận dạng tiếng nói có nhiều giai đoạn và đột phá quan trọng. Gần đây, lĩnh vực này đã được hưởng lợi từ các tiến bộ trong lĩnh vực học sâu và dữ liệu lớn. Sự tiến bộ được chứng minh không chỉ qua sự gia tăng các bài báo học thuật được xuất bản trong lĩnh vực này, mà quan trọng hơn là việc ngành công nghiệp trên toàn thế giới áp dụng nhiều phương pháp học sâu trong việc thiết kế và triển khai các hệ thống nhận dạng tiếng nói.
👁️
2 | 🔗 | 💖 | ✨ | 🌍 | ⌚
**Nhận dạng tiếng nói** là một quá trình nhận dạng mẫu, còn được gọi là **nhận dạng giọng nói tự động** (**ASR**), **nhận dạng giọng nói máy tính** hoặc **chuyển đổi giọng nói thành văn
**Ngữ liệu tiếng nói** (hay còn gọi là **ngữ liệu lời nói**) là một cơ sở dữ liệu các tệp âm thanh giọng nói và văn bản phiên âm. Trong công nghệ tiếng nói (speech
**Xử lý tiếng nói** là sự nghiên cứu tiếng nói của con người dưới dạng tín hiệu, và các phương pháp xử lý những tín hiệu này.
Tín hiệu tiếng nói thường được thể hiện
**Nhận dạng mẫu** (_pattern recognition_) là một ngành thuộc lĩnh vực học máy (_machine learning_). Nói cách khác, nó có thể được xem là việc "cần thực hiện một tác động vào dữ liệu thô
Trước đây, việc điều khiển một cỗ máy bằng cách nói chuyện với chúng chỉ là những câu chuyện trong khoa học viễn tưởng. Nhưng viễn tưởng này đang dần trở thành hiện thực với
nhỏ|Hình ảnh của một trang chữ bao gồm các ký tự chữ nổi và các ký tự chữ chìm ở trang bên kia **Nhận dạng quang học chữ nổi Barille** là hoạt động chụp và
**Nhận dạng ký tự quang học** (tiếng Anh: _Optical Character Recognition_, viết tắt là **OCR**), là loại phần mềm máy tính được tạo ra để chuyển các hình ảnh của chữ viết tay hoặc chữ
Trong nhận dạng mẫu, các **đặc trưng** là các thuộc tính riêng rẽ mà ta có thể xác định và đo đạc được khi quan sát một hiện tượng nào đó. Việc lựa chọn các
**Đài Tiếng nói Việt Nam** (**TNVN**), cũng được gọi là **VOV** (viết tắt từ tên ), là đài phát thanh quốc gia trực thuộc Chính phủ Việt Nam, có nhiệm vụ "tuyên truyền đường lối,
**Windows Speech Recognition** là một ứng dụng nhận dạng tiếng nói có sẵn trong Windows Vista, Windows 7 và Windows 8. ## Tính năng Phần mềm nhận dạng giọng nói Windows cho phép người dùng
**Vocapia Research** là một công ty hàng đầu về nghiên cứu và phát triển các giải pháp công nghệ, các hệ thống nhận dạng tiếng nói (speech recognition hay speech-to-text), phân đoạn tự động dữ
**Vùng nhận dạng phòng không** (tiếng Anh: _Air Defense Identification Zone_, viết tắt là : ADIZ) là vùng bầu trời do một quốc gia hoặc vùng lãnh thổ tự ấn định ra và bắt buộc
nhỏ|Tổng hợp giọng nói Trên máy tính, **tổng hợp giọng nói** là việc tạo ra giọng nói của người từ đầu vào là văn bản hay các mã hóa việc phát âm. Hệ thống này
Đây là bài con của **Trí tuệ nhân tạo**, nội dung chú trọng vào sự phát triển và **lịch sử ngành trí tuệ nhân tạo**. ## Sự phát triển của lý thuyết trí tuệ nhân
**Common Voice** là một dự án crowdsourcing bắt đầu bởi Mozilla để tạo ra một cơ sở dữ liệu miễn phí cho phần mềm nhận dạng giọng nói. Dự án được hỗ trợ bởi các
nhỏ| Một [[Vịt cổ xanh|con le le, trông giống như một con vịt và bơi như một con vịt.]] **Nhận dạng vịt** (), hoặc **phép thử vịt** hay **kiểm thử vịt** là một hình thức
**Trí tuệ nhân tạo tổng quát** (**Artificial general intelligence**, hay **AGI**) là một loại trí tuệ nhân tạo (AI) trong lý thuyết, nằm giữa cận dưới và cận trên của năng lực nhận thức con
**Nhận dạng thực thể có tên** (tiếng Anh: **named-entity recognition**, viết tắt NER, còn gọi là **nhận dạng thực thể định danh**, _xác định thực thể_ hoặc _trích xuất thực thể_) là một nhiệm vụ
nhỏ|Mẫu giấy CMND trống **Giấy chứng minh nhân dân** (**CMND**; trong khẩu ngữ thường được gọi tắt là **chứng minh thư** hoặc **giấy chứng minh** hay đơn giản hơn nữa là **_chứng minh_**) là tên
thumb|Corporate Brand Attributes example — Brand Signature: Brand Mark ([[trademark), Brand Logotype, Brandline (or Brand Slogan) and Supergraphic.]] **Hệ thống nhận dạng thương hiệu** (tiếng Anh: _Corporate identity program_, **CIP**) là thuật ngữ bao hàm
**Điện toán nhận thức** (tiếng Anh: cognitive computing) mô tả các nền tảng công nghệ, nói rộng ra, dựa trên các ngành khoa học về trí tuệ nhân tạo (AI) và xử lý tín hiệu.
Sau đây là **danh sách các dự án trí tuệ nhân tạo** trong hiện tại và quá khứ đáng chú ý. ## Các dự án chuyên ngành ### Mô phỏng bộ não con người *
**Tiếng Phạn** hay **Sanskrit** (chữ Hán: 梵; _saṃskṛtā vāk_ संस्कृता वाक्, hoặc ngắn hơn là _saṃskṛtam_ संस्कृतम्) là một cổ ngữ Ấn Độ và là một ngôn ngữ tế lễ của các tôn giáo như
thumb|Bản đồ thể hiện các quốc gia sử dụng nhiều tiếng Indonesia. Xanh đậm = quốc gia, xanh nhạt = được nói bởi > 1%. thumb|Một người nói tiếng Indonesia được ghi âm ở [[Hà
nhỏ|phải|Chọn lọc các nhân vật chính và phụ của _Fairy Tail_, tính cả các thành viên của hội tiêu đề. Bộ manga và anime _Fairy Tail_ có sự tham gia của một dàn nhân vật
là một ngôn ngữ Đông Á được hơn 125 triệu người sử dụng ở Nhật Bản và những cộng đồng dân di cư Nhật Bản khắp thế giới. Tại Việt Nam nó cũng là một
Series _Yu-Gi-Oh!_ do Kazuki Takahashi sáng tạo bao gồm nhiều nhân vật khác nhau. Bối cảnh diễn ra tại thành phố hư cấu Domino ở Nhật Bản, nơi sinh sống của hầu hết nhân vật
**Tiếng Latinh** hay **Latin** (tiếng Latinh: __, ) là ngôn ngữ thuộc nhóm ngôn ngữ gốc Ý của ngữ hệ Ấn-Âu, ban đầu được dùng ở khu vực quanh thành phố Roma (còn gọi là
**Xử lý ngôn ngữ tự nhiên** (_natural language processing_ - NLP) là một nhánh của trí tuệ nhân tạo tập trung vào các ứng dụng trên ngôn ngữ của con người. Trong trí tuệ nhân
Dàn nhân vật phụ trong anime/manga **_Hetalia: Axis Powers_** cực kì hùng hậu. Sau đây là những quốc gia hay được nhắc đến nhất ngoài khối Phát xít và Đồng Minh. Phần giới thiệu sẽ
**Tiếng Ireland** (), hay đôi khi còn được gọi là **tiếng Gael** hay **tiếng Gael Ireland** là một ngôn ngữ Goidel thuộc hệ ngôn ngữ Ấn-Âu, có nguồn gốc ở Ireland và được người Ireland
**Học sâu** (tiếng Anh: **deep learning**, còn gọi là **học cấu trúc sâu**) là một phần trong một nhánh rộng hơn các phương pháp học máy dựa trên mạng thần kinh nhân tạo kết hợp
**Chính tả tiếng Việt** là sự chuẩn hóa hình thức chữ viết của ngôn ngữ tiếng Việt. Đây là một hệ thống quy tắc về cách viết các âm vị, âm tiết, từ, cách dùng
**Tiếng Latinh thông tục** (tiếng Latinh: _sermo vulgaris_, tiếng Anh: _Vulgar Latin_) hay còn được gọi là **tiếng Latinh bình dân** hoặc **Latinh khẩu ngữ,** là một phổ rộng bao gồm nhiều phương ngữ xã
**Siêu nhân** là một siêu anh hùng xuất hiện trong các truyện tranh Mỹ do DC Comics phát hành. Nhân vật được tạo ra bởi nhà văn Jerry Siegel và họa sĩ Joe Shuster, và
**Tiếng Trung Quốc** (), còn gọi là **tiếng Trung**, **tiếng Hoa**, **tiếng Hán**, **tiếng Tàu**, **Trung văn** (中文 _Zhōng wén_), **Hoa ngữ** (華語/华语 _Huá yǔ_), **Hoa văn** (華文/华文), **Hán ngữ** (漢語/汉语 _Hàn yǔ_), là một
**Tiếng Hán thượng cổ** (tiếng Hán: 上古漢語; Hán Việt: _thượng cổ Hán ngữ_) là giai đoạn cổ nhất được ghi nhận của tiếng Hán và là tiền thân của tất cả các dạng tiếng Hán
Sau đây là danh sách các nhân vật của loạt manga và anime **_Enen no Shouboutai_**. ## Thế giới ### Hoàng quốc Tokyo Mặc dù được mệnh danh như là một "quốc gia" hay "đế
Dưới đây là danh sách các nhân vật trong manga và anime Gakuen Alice. ## Các học sinh của khối Sơ đẳng thuộc Học viện Alice ### Yukihira Mikan (Sakura Mikan) nhỏ Tên: Tá Thương
Dưới đây là danh sách nhân vật trong light novel Sword Art Online của tác giả Kawahara Reki ## Nhân vật chính ### Kirito :Tiếng Nhật: :Tên thật: : : Là nhân vật chính của
Manga và anime Tokyo Ghoul bao gồm rất nhiều nhân vật giả tưởng được tạo ra bởi mangaka Ishida Sui. Bối cảnh của TG đặt trong một thế giới giả tưởng nơi mà Ghoul -
**Hy Lạp** (Tiếng Hy Lạp hiện đại: , _elliniká_, hoặc , _ellinikí glóssa_) là một ngôn ngữ Ấn-Âu, bản địa tại Hy Lạp, Tây và Đông Bắc Tiểu Á, Nam Ý, Albania và Síp. Nó
**Nội Mông Cổ** (tiếng Mông Cổ: Hình:Oburmonggul.svg, _Öbür Monggol_; ), tên chính thức là **Khu tự trị Nội Mông Cổ,** thường được gọi tắt là **Nội Mông**, là một khu tự trị của Cộng hòa
**Tiếng Thái** (, ), còn gọi là **tiếng Xiêm** hay **tiếng Thái Xiêm**, là ngôn ngữ chính thức của Thái Lan và là tiếng mẹ đẻ của người Thái, dân tộc chiếm đa số ở
phải|nhỏ|300x300px| Hình minh họa bởi Yoshioka Airi có Cecil ở giữa cùng với Rosa (trái), Kain (phải) cũng như các nhân vật có thể chơi được khác trong _Final Fantasy IV_. _Final Fantasy IV là_
**Tiếng Pháp** (, IPA: hoặc , IPA: ) là một ngôn ngữ Rôman (thuộc hệ Ấn-Âu). Giống như tiếng Ý, Bồ Đào Nha, Tây Ban Nha, România, Catalonia hay một số khác, nó xuất phát
nhỏ|_"Tôi nói tiếng Việt Nam"_ (碎呐㗂越南), bên trên viết bằng [[chữ Quốc ngữ (chữ Latinh), bên dưới viết bằng chữ Nôm.|250x250px]] **Chữ viết tiếng Việt** là những bộ chữ viết mà người Việt dùng để
**Tiếng Ả Rập** (, **' hay **' ) là một ngôn ngữ Trung Semit đã được nói từ thời kỳ đồ sắt tại tây bắc bán đảo Ả Rập và nay là _lingua franca_ của
**Tiếng Bengal**, cũng được gọi là **tiếng Bangla** ( ), một ngôn ngữ Ấn-Arya được nói tại Nam Á. Đây là ngôn ngữ chính thức và ngôn ngữ quốc gia của Cộng hòa Nhân dân
**Cộng hòa Dân chủ Nhân dân Triều Tiên** (), gọi ngắn là **Triều Tiên** (, MR: Chosŏn) hay **Bắc Triều Tiên** (, MR: Puk-chosŏn) là một quốc gia ở Đông Á, tạo thành nửa phía