Dịch máy thống kê (SMT) là một phương pháp dịch máy, trong đó các bản dịch được tạo ra trên cơ sở các mô hình thống kê có các tham số được bắt nguồn từ việc phân tích các cặp câu song ngữ. Các phương pháp tiếp cận thống kê tương phản với các phương pháp tiếp cận dựa trên luật trong dịch máy cũng như với dịch máy dựa trên ví dụ.
Những ý tưởng đầu tiên của dịch máy thống kê đã được giới thiệu bởi Warren Weaver vào năm 1949 , bao gồm cả những ý tưởng của việc áp dụng lý thuyết thông tin của Claude Shannon. Dịch máy thống kê được tái giới thiệu vào năm 1991 bởi các nhà nghiên cứu làm việc tại Trung tâm nghiên cứu Thomas J. Watson của IBM và đã góp phần đáng kể trong sự hồi sinh việc quan tâm đến dịch máy trong những năm gần đây. Ngày nay nó là phương pháp dịch máy được nghiên cứu nhiều nhất.
Cơ sở
Ý tưởng đằng sau dịch máy thống kê đến từ lý thuyết thông tin. Tài liệu được dịch theo phân bố xác suất trong đó là ngôn ngữ đích (ví dụ, Tiếng Việt) dịch từ là ngôn ngữ nguồn (ví dụ, Tiếng Anh).
Các vấn đề của mô hình phân phối xác suất đã được tiếp cận theo một số cách. Một cách tiếp cận trực quan là áp dụng định lý Bayes, đó là , trong đó là xác suất để chuỗi nguồn (f) là bản dịch của chuỗi đích e, xác suất này gọi là mô hình dịch, và là xác suất chuỗi e thực sự xuất hiện trong ngôn ngữ đích, xác suất này gọi là mô hình ngôn ngữ. Phân tích này giúp tách các vấn đề thành hai bài toán con. Bản dịch tốt nhất được tìm bằng cách chọn ra bản có xác suất cao nhất:
:.
Để áp dụng phương pháp này một cách đầy đủ, cần thực hiện việc tìm kiếm trên tất cả các chuỗi của ngôn ngữ đích. Khối lượng tìm kiếm này rất lớn, và nhiệm vụ thực hiện tìm kiếm hiệu quả là công việc của một bộ giải mã dịch máy, sử dụng nhiều kỹ thuật để hạn chế không gian tìm kiếm nhưng vẫn giữ chất lượng dịch thuật chấp nhận được. Kỹ thuật đánh đổi giữa chất lượng và thời gian tính toán cũng có thể được tìm thấy trong nhận dạng tiếng nói.
Do hệ thống dịch không thể lưu trữ tất cả các chuỗi nguồn và bản dịch của chúng, một tài liệu thường được dịch từng câu một, nhưng ngay cả việc lưu tất cả câu cũng không khả thi. Mô hình ngôn ngữ thường được tính xấp xỉ bằng mô hình n-gram, và cách tiếp cận tương tự đã được áp dụng cho mô hình dịch, nhưng có thêm sự phức tạp do độ dài câu và thứ tự từ khác nhau trong các ngôn ngữ.
Các mô hình dịch thống kê ban đầu thường dùng mô hình lấy cơ sở theo từ (mô hình 1-5 mô hình Markov ẩn của IBM của Stephan Vogel và Mô hình 6 của Franz-Joseph Och ), nhưng những tiến bộ đáng kể đã được thực hiện từ khi có mô hình lấy cơ sở theo cụm từ. Các công trình nghiên cứu gần đây đã kết hợp cú pháp hoặc cấu trúc bán-cú pháp để làm tăng chất lượng dịch .
Dịch máy thống kê trên cơ sở từ
Trong dịch máy thống kê trên cơ sở từ, các đơn vị cơ bản của bản dịch là một từ trong ngôn ngữ tự nhiên. Một ví dụ về một hệ thống dịch máy thống kê trên cơ sở từ là phần mềm tự do Giza++ (giấy phép GPL), dùng để tập huấn cho các mô hình dich IBM, mô hình HMM và mô hình 6 . Vì những ưu thế của Giza++, hiện nay có một số nỗ lực đưa áp dụng tính toán phân tán trực tuyến cho phần mềm này.
Dịch máy thống kê trên cơ sở cụm từ
Dịch máy thống kê trên cơ sở cụm từ có mục đích là để giảm bớt các hạn chế của dịch máy thống kê trên cơ sở từ bằng cách dịch cụm từ, trong đó độ dài cụm từ nguồn và cụm từ đích có thể khác nhau. Các cụm từ trong kỹ thuật này thường không cụm từ theo nghĩa ngôn ngữ học mà là các cụm từ được tìm thấy bằng cách sử dụng phương pháp thống kê để trích rút từ các cặp câu. Việc sử dụng các cụm từ theo nghĩa ngôn ngữ học (tức là dựa trên cú pháp, xem phân loại cú pháp) làm giảm chất lượng của dịch máy bằng phương pháp này.
Dịch máy thống kê trên cơ sở cú pháp
Dịch máy thống kê trên cơ sở cú pháp dựa trên ý tưởng của dịch các đơn vị cú pháp (phân tích cây của câu), hơn là những từ đơn hay cụm từ (như trong dịch máy thống kê trên cơ sở cụm từ). Ý tưởng này đã xuất hiện từ lâu, tuy nhiên phiên bản thống kê của ý tưởng này chỉ được hình thành khi có những bộ phân tích ngẫu nhiên mạnh mẽ trong những năm 1990.
Lợi ích
Những lợi ích thường xuyên được trích dẫn của dịch máy thống kê trên mô hình truyền thống là:
Sử dụng tốt hơn các nguồn tài nguyên
Có rất nhiều ngôn ngữ tự nhiên có đủ dữ liệu ở định dạng máy đọc được.
Nói chung, hệ thống SMT không bị bó hẹp vào một cặp ngôn ngữ cụ thể nào.
Dịch máy dựa trên luật đòi hỏi việc xây dựng các quy tắc ngôn ngữ, có thể tốn kém, và thường không khái quát được cho các ngôn ngữ khác.
Các bản dịch tự nhiên**
Vấn đề
Gióng hàng câu
Trong khi phương pháp dịch máy thống kê dựa trên những cặp câu song ngữ, thì một câu trong ngôn ngữ này có thể được dịch ra nhiều câu khác nhau trong ngôn ngữ khác và ngược lại. Việc gióng hàng câu có thể được thực hiện thông qua các thuật toán gióng hàng Gale-Church.
Từ ghép
Thành ngữ
Tùy thuộc vào bộ cặp câu sử dụng, các thành ngữ có thể không được dịch thoát nghĩa hay theo nghĩa bóng, ẩn nghĩa của chúng. Ví dụ, bằng cách sử dụng bộ cặp câu Canada Hansard, "hear" luôn được dịch là "Bravo!" vì trong từ "Hear, hear!" trong ngữ cảnh họp quốc hội được dịch là "Bravo!".
Hình thái học
Khác biệt trong thứ tự từ
Thứ tự từ trong các ngôn ngữ là khác nhau. Một số ngôn ngữ có thể được phân loại bằng cách đặt tên theo thứ tự điển hình của chủ ngữ (S), động từ (V) và đối tượng (O) trong một câu và có thể có các ngôn ngữ theo dạng, chẳng hạn, SVO hoặc VSO. Ngoài ra còn có thêm sự khác biệt trong thứ tự từ, ví dụ, khi có những yếu tố ngữ pháp phụ trợ, ví dụ thứ tự từ của câu hỏi khác câu khẳng định.
Để giải quyết vấn đề sắp xếp thứ tự từ, nhiều bản dịch ứng với các thứ tự từ khác nhau có thể được sinh ra, sau đó các bản dịch này được xếp hạng về xác suất xuất hiện, với sự giúp đỡ của mô hình ngôn ngữ, và bản dịch có xác suất cao nhất có thể được lựa chọn.
Cú pháp
Từ nằm ngoài kho từ vựng
Hệ thống dịch máy thống kê lưu trữ các cụm từ một cách độc lập, không có mối quan hệ nào giữa các cụm từ. Những cụm từ không có trong dữ liệu sẽ không được dịch. Vấn đề này sẽ gặp phải khi thiếu dữ liệu, hoặc hệ thống được sử dụng trong lĩnh vực kiến thức mới.
👁️
1 | 🔗 | 💖 | ✨ | 🌍 | ⌚
**Dịch máy thống kê** (**SMT**) là một phương pháp dịch máy, trong đó các bản dịch được tạo ra trên cơ sở các mô hình thống kê có các tham số được bắt nguồn từ
Dịch máy nói chung bắt đầu từ thập niên 50, mặc dù một số công việc có thể tìm thấy ở thời kỳ trước đó. Thí nghiệm Georgetown-IBM năm 1954 liên quan hoàn toàn đến
**Dịch máy bằng nơ-ron** (**Neural machine translation:** NMT) là một cách tiếp cận dịch máy sử dụng mạng nơ-ron nhân tạo lớn để dự đoán chuỗi từ được dịch,bằng cách mô hình hóa toàn bộ
**Dịch máy dựa trên ví dụ** (**EBMT**) là một phương pháp dịch tự động, thường có cơ sở dữ liệu sử dụng ngữ liệu song ngữ với các văn bản song song. Nhìn chung, đây
Trong máy tính, một **hệ thống kế thừa** (tiếng Anh: **legacy system**) là một phương pháp cũ, công nghệ, hệ thống máy tính, hoặc chương trình ứng dụng, "của, liên quan đến, hoặc là một
[[Tập_tin:UEFA_members_Champions_League_stages.png|nhỏ|450x450px|Bản đồ các quốc gia UEFA, các vòng đấu đạt được bởi các đội ở UEFA Champions League và Cúp C1 châu Âu. ]] Trang này liệt kê chi tiết **thống kê Cúp C1 châu
**Cục Tin học và Thống kê tài chính** là cơ quan trực thuộc Bộ Tài chính, có chức năng tham mưu, giúp Bộ trưởng Bộ Tài chính thực hiện nhiệm vụ quản lý nhà nước
**Địa thống kê** là một nhánh của địa chất học, liên quan đến việc phân tích các quá trình khai thác mỏ bằng các mô hình toán học. Địa thống kê liên quan đến việc
**Cục Thống kê** là cơ quan trực thuộc Bộ Tài chính, thực hiện chức năng tham mưu, giúp Bộ trưởng Bộ Tài chính quản lý nhà nước về thống kê; tổ chức hoạt động thống
**Google Dịch** (tên tiếng Việt chính thức, lúc đầu gọi là **Google Thông dịch**, tên tiếng Anh là **Google Translate**) là một công cụ dịch thuật trực tuyến do Google phát triển. Nó cung cấp
Đây là dòng thời gian các sự kiện chính vào tháng 6 năm 2020 của đại dịch COVID-19, gây ra bởi SARS-CoV-2, lần đầu tiên được phát hiện ở Vũ Hán, Trung Quốc. ## Thống
**Bộ trình dịch GNU** ( - thường được viết tắt thành **GCC**) là một tập hợp các trình biên dịch được thiết kế cho nhiều ngôn ngữ lập trình khác nhau. GCC là một thành
**Transformer** là một mô hình học sâu được giới thiệu năm 2017, được dùng chủ yếu ở lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) và thị giác máy tính (CV). Giống như các
**Torch** là một thư viện học máy mã nguồn mở, một framework tính toán khoa học và là một ngôn ngữ kịch bản dựa trên ngôn ngữ lập trình Lua. Nó cung cấp một lượng
**Công nghệ thông tin và truyền thông** (tiếng Anh: _Information and communications technology_, ICT) là cụm từ thường dùng như từ đồng nghĩa rộng hơn cho công nghệ thông tin (IT), nhưng thường là một
**Chiến dịch Lam Sơn 719** hay **Cuộc Hành quân Hạ Lào** (cách gọi của Việt Nam Cộng hòa) hay **Chiến dịch đường 9 - Nam Lào** (cách gọi của Chính phủ Cách mạng lâm thời
[[Phần cứng|Phần cứng máy tính là nền tảng cho xử lý thông tin (sơ đồ khối). ]] **Lịch sử phần cứng máy tính** bao quát lịch sử của phần cứng máy tính, kiến trúc của
**Chiến dịch Overlord**, hay **Cuộc tập trận Hornpipe**, là mật danh của **Trận Normandie,** một chiến dịch quân sự quy mô lớn của quân đội Đồng Minh tại miền Bắc nước Pháp trong Chiến tranh
**Chiến dịch Barbarossa** (), còn được gọi là **Cuộc xâm lược của Đức vào Liên Xô** là mật danh của chiến dịch xâm lược Liên Xô do Quân đội Đức Quốc xã tiến hành trong
**Chiến dịch Linebacker II**, hay còn được biết đến là **Chiến dịch Điện Biên Phủ trên không**, là chiến dịch quân sự cuối cùng của Hoa Kỳ chống lại Việt Nam Dân chủ Cộng hoà
nhỏ|Một máy NCR Personas 75-Series, máy ATM đa chức năng ở Hoa Kỳ nhỏ|213x213px|[[Otto., một máy ATM Phần Lan]] nhỏ|Các máy ATM trong nhà có kích thước nhỏ hơn để thuận tiện cho việc chuyển
**Chiến dịch Pedestal** (, **Trận chiến giữa tháng Tám**), được người dân Malta gọi là **** (, **Đoàn vận tải Santa Maria**), là một chiến dịch tiếp vận đảo Malta của Hải quân Hoàng gia
**Chiến dịch mùa Xuân năm 1975**, hay **Tổng tiến công và nổi dậy mùa Xuân 1975, giải phóng hoàn toàn miền Nam**, là những cuộc tấn công quân sự cuối cùng của Quân Giải phóng
**Trận Điện Biên Phủ** (; ), còn gọi là **Chiến dịch Điện Biên Phủ**, là trận đánh lớn nhất trong Chiến tranh Đông Dương lần thứ nhất diễn ra tại lòng chảo Mường Thanh, châu
**Chiến dịch Blau** (tiếng Đức: **_Fall Blau_**) là mật danh của Kế hoạch tổng tấn công từ mùa hè năm 1942 của quân đội Đức Quốc xã trên toàn bộ cánh Nam của mặt trận
**Chiến dịch Trị Thiên** là một chiến dịch trong Chiến tranh Việt Nam do Quân Giải phóng miền Nam Việt Nam thực hiện vào năm 1972. Đây là một phần trong Chiến dịch Xuân hè
**Đại dịch COVID-19** là một đại dịch bệnh truyền nhiễm với tác nhân là virus SARS-CoV-2 và các biến thể của nó đang diễn ra trên phạm vi toàn cầu. Khởi nguồn vào cuối tháng
**Dịch tự động** hay còn gọi là **dịch máy** (tiếng Anh: _machine translation_) là một nhánh của xử lý ngôn ngữ tự nhiên thuộc phân ngành trí tuệ nhân tạo, nó là sự kết hợp
**Phương tiện truyền thông mạng xã hội** (tiếng Anh: _social media_) là các ứng dụng hoặc chương trình được xây dựng dựa trên nền tảng Internet, nhằm tạo điều kiện cho việc tạo mới hoặc
**Chiến dịch Sa mạc Tây** hay **Chiến tranh Sa mạc** diễn ra tại Sa mạc Tây thuộc Ai Cập và Libya là giai đoạn đầu của Mặt trận Bắc Phi thuộc Chiến tranh thế giới
là tên gọi cuộc triệt thoái của quân Nhật ra khỏi đảo Guadalcanal diễn ra từ ngày 14 tháng 1 đến 7 tháng 2 năm 1943. Cuộc triệt thoái này được tiến hành với sự
**Phần mềm dạng dịch vụ** (**SaaS** ) là mô hình cấp phép và phân phối phần mềm trong đó phần mềm được cấp phép trên cơ sở đăng ký và được lưu trữ tập trung.
nhỏ|Hệ thống xử lý giao dịch Xử lý giao dịch là một cách tính toán, chia làm việc vào cá nhân không hoạt động được gọi là giao dịch. Một **hệ thống xử lý giao
phải|nhỏ|277x277px| Minh họa của một ứng dụng sử dụng libvorbisfile để phát file Ogg Vorbis Trong khoa học máy tính, **thư viện** là tập hợp các tài nguyên không biến động được sử dụng bởi
Cuộc **bầu cử tổng thống Hoa Kỳ năm 1896** là cuộc bầu cử tổng thống bốn năm một lần lần thứ 28, được tổ chức vào thứ Ba, ngày 3 tháng 11 năm 1896. Cựu
Đây là dòng thời gian các sự kiện chính vào tháng 3 năm 2020 của đại dịch COVID-19, gây ra bởi SARS-CoV-2, lần đầu tiên được phát hiện ở Vũ Hán, Trung Quốc. ## Thống
Tự động tắt máy trong 10 giây, lưu trữ dữ liệu, nhắc báo động khi nhiệt độ cao hơn 37.5 ° C. Đo một nút bấm, màn hình LCD lớn, ngay cả trẻ em hoặc
Tự động tắt máy trong 10 giây, lưu trữ dữ liệu, nhắc báo động khi nhiệt độ cao hơn 37.5 ° C. Đo một nút bấm, màn hình LCD lớn, ngay cả trẻ em hoặc
Tự động tắt máy trong 10 giây, lưu trữ dữ liệu, nhắc báo động khi nhiệt độ cao hơn 37.5 ° C.Đo một nút bấm, màn hình LCD lớn, ngay cả trẻ em hoặc người
Sản phẩm cung cấp bởi:Công ty TNHH TM Khoa học Kỹ thuật Lâm ViệtĐịa chỉ: K63, KDC Thới An, P. Thới An, Quận 12, TP. Hồ Chí MinhEmail:
[email protected] - 0961.818.961MÁY KHUẤY TỪ GIA NHIỆTHÃNG
nhỏ|[[Honda Wave 125 S, đời 2007]]nhỏ|Một [[mô tô ba bánh.]] **Xe máy** (còn gọi là **mô tô** hay **xe hai bánh**, **xe gắn máy**, phiên âm từ tiếng Pháp: _Motocyclette_) là loại xe có hai
**Chiến dịch Linebacker** là chiến dịch do Hoa Kỳ thực hiện trong Chiến tranh Việt Nam nhầm giải tỏa áp lực tiến công của Quân giải phóng trong Chiến dịch hè 1972. Thực hiện bằng
**Chiến dịch Kavkaz** là tên gọi chung cho một chuỗi các hoạt động quân sự tại khu vực Kavkaz diễn ra giữa quân đội Liên Xô và quân đội Đức Quốc xã trong cuộc Chiến
**Sử dụng thuốc trừ dịch hại** đề cập tới cách hành động thực tế theo đó các loại thuốc trừ dịch hại, (gồm cả thuốc diệt cỏ, thuốc diệt nấm, thuốc trừ sâu, hay các
**Chiến dịch Budapest** (Tiếng Nga:_Будапештская операция_) là trận đánh lớn nhất giữa quân đội Liên Xô với quân đội Đức Quốc xã và quân đội Hungary tại _Mặt trận Hungary_ thuộc Chiến tranh Xô-Đức trong
**Chiến dịch Lyublin–Brest** hay **Chiến dịch Lublin-Brest** là một chiến dịch quân sự diễn ra trong Chiến tranh Xô-Đức do Hồng quân Liên Xô tổ chức nhằm tiếp tục tấn công vào Cụm tập đoàn
**Chiến dịch tấn công Moravská–Ostrava** (đặt theo tên cũ của thành phố Ostrava) diễn ra từ ngày 10 tháng 3 đến ngày 5 tháng 5 năm 1945 là một chiến dịch quân sự lớn do
nhỏ| [[Ổ đĩa cứng|Ổ cứng lưu trữ thông tin ở dạng nhị phân và do đó được coi là một loại phương tiện kỹ thuật số vật lý. ]] **Phương tiện truyền thông kỹ thuật
Việt Nam đã nhận biết các dấu hiệu đại dịch COVID-19 và có các biện pháp kiểm soát từ khá sớm. Đầu tháng 1 năm 2020, trên một số tờ báo lớn tại Việt nam
nhỏ|phải|Các kệ hàng trống do việc mua đồ hoản loạn ở [[Lufkin, Texas, Hoa Kỳ, vào ngày 13 tháng 3 năm 2020.]] Nền kinh tế toàn cầu đã bị ảnh hưởng rất lớn bởi sự