• vi-VNen-GB

Máy dịch tự động

Ý tưởng dịch máy có từ năm 1629. Tuy nhiên, dịch máy thực sự phát triển sau năm 1954. Đến cuối những năm 1980, đã có thêm nhiều phương pháp mới trong dịch máy được ra đời. Đặc biệt là phương pháp dịch thống kê (SMT) và phương pháp dịch theo ví dụ (EBMT).  Hai phương pháp này bắt đầu thay thế các luật cú pháp và ngữ nghĩa bởi việc xử lý các khối liệu văn bản lớn, mà năng lực tính toán đã cho phép.

Dịch máy theo các mô hình thống kê đã tỏ ra là phương pháp hữu hiệu để phát triển các hệ thống dịch máy chất lượng cao khi các máy dịch SMT đã liên tục thắng thế trong các cuộc thi dịch máy hàng năm. Các phương pháp nhằm tăng chất lượng hệ dịch SMT cơ sở vẫn đang được nhiều nhà nghiên cứu quan tâm với mục tiêu có được những xử lý phù hợp với những đặc điểm của các cặp ngôn ngữ cụ thể như tương quan trật tự từ, cách chọn từ phù hợp với ngữ cảnh kết hợp với các phương pháp xử lý cú pháp trong bước tiền và hậu xử lý.

Nhận thấy nhiều ưu điểm, chúng tôi đã quyết định xây dựng hệ thống máy dịch lấy phương pháp SMT làm nền tảng và tiến hành lai ghép SMT, EBMT, RBMT với nhau với hy vọng đem lại sự khác biệt trong chất lượng máy dịch.

Hệ thống máy dịch là một hệ thống phân tán, các máy dịch được đặt rải rác trong môi trường mạng (LAN/Internet), được kết nối với nhau bởi một bộ phân tải (load balancer) và bộ đệm với mục đích tăng khả năng phục vụ nhiều người dùng đồng thời nhưng vẫn bảo đảm được chất lượng dịch tự động.

Hiện tại chúng tôi đã xây dựng máy dịch theo các chủ đề Luật và Y Khoa, trong đó chất lượng bản dịch của máy dịch chủ đề Luật đã tiến tới mức hữu dụng cao. Máy dịch theo các chủ đề khác đang được tiếp tục xây dựng; chúng tôi sẽ công bố các máy dịch chủ đề này mỗi khi chất lượng dịch thỏa mãn các tiêu chuẩn chất lượng của VIEGRID đề ra.