• vi-VNen-GB
Tin Viegrid
Giải pháp tăng tốc cho bài toán gióng câu song ngữ do Viện CNTT, ĐHQGHN và công ty VIEGRID hợp tác phát triển được báo cáo tại hội nghị FAIR năm 2014
(14/07/2014)

Hội nghị FAIR - Fundamental and Applied IT Research - "Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin" là hội nghị quốc gia lớn nhất về lĩnh vực Công nghệ thông tin được tổ chức thường niên mỗi năm một lần. Năm 2014, hội nghị FAIR được tổ chức tại Thái Nguyên cùng với đông đảo các  trường đại học và viện nghiên cứu trong nước. Tại hội nghị lần này, lĩnh vực xử lý ngôn ngữ tự nhiên có nhiều báo cáo chất lượng cao. Một trong những vấn đề quan trọng trong việc đưa công nghệ xử lý ngôn ngữ  vào ứng dụng thực tế chính là việc giải quyết bài toán gióng câu song ngữ.

Ngày nay, xử lý ngôn ngữ thường dựa vào phương pháp thống kê, cần sử dụng những kho dữ liệu lớn. Đặc biệt, công nghệ dịch máy, đòi hỏi sản xuất những kho khối liệu các cặp câu dịch tới hàng triệu cặp. Gióng câu là để tìm ra các cặp câu song ngữ là bản dịch của nhau trong các tài liệu song ngữ. Ngày nay, khi khối liệu song ngữ trở lên vô cùng lớn, tốc độ tính toán trở nên vô cùng quan trọng. Tại hội nghị FAIR năm 2014, các tác giả Nguyễn Ái Việt và Nguyễn Tấn Tôn Thất Đỗ Vũ – Công ty VIEGRID và Viện CNTT, ĐHQGHN đã báo cáo đề tài “Một số đặc trưng tương quan của các cặp câu song ngữ Anh-Việt và một mô hình dóng câu thống kê”.

Gióng câu thống kê dựa trên tương quan giữa độ dài của các cặp câu song ngữ, được giả thiết như là một phân bố xác suất dạng Gauss. Do các tham số của phân bố Gauss là chưa biết, các tác giả khác thường phải sử dụng một thuật toán gồm hai giai đoạn để xác định các tham số sau đó mới tiến hành gióng câu và sau đó lại tiến hành điều chỉnh để có được hiệu suất cao nhất.

Nhóm tác giả đã sử dụng một khối liệu song ngữ Anh-Việt có quy mô công nghiệp lớn nhất ViệT Nam của công ty VIEGRID để xác định các tham số của phân bố này với các độ đo độ dài câu khác nhau bằng số ký tự, âm vị và từ. Kết quả, thời gian tính toán giảm nhiều lần, với chất lượng gióng tăng tới 5-6%. Đây thực sự là một bước tiến quan trọng về công nghệ.

Đặc biệt, về mặt lý luận, ưu thế của phương pháp đã chứng tỏ rằng ứng với mỗi cặp ngôn ngữ sẽ có tham số tương quan phổ quát về độ dài tương ứng. Đây là một phát hiện rất thú vị và quan trọng về mặt ngôn ngữ học. Về mặt CNTT là chúng ta có thể tính toán trước các tham số với mỗi cặp song ngữ để cải thiện tốc độ dóng câu. Đồng thời, cung cấp các số liệu quan trọng cho các ngành ngôn ngữ học và các ngành công nghệ thông tin sử dụng cho mục đích nghiên cứu và ứng dụng.

VIEGRID là doanh nghiệp có những tài nguyên ngôn ngữ lớn nhất Việt Nam, có thể là cơ sở để phát triển các ứng dụng đồng thời cũng hỗ trợ các nghiên cứu cơ bản có chất lượng quốc tế. Đây là công trình đầu tiên được phép công bố trong mối hợp tác giữa Viện CNTT, ĐHQGHN và VIEGRID. Trong tương lai, hai đơn vị sẽ tiếp tục hợp tác khai thác tài nguyên nói trên để nghiên cứu các đặc trưng ngôn ngữ Anh-Trung-Việt để cung cấp cho cộng đồng cùng nghiên cứu để có các công trình khoa học có chất lượng quốc tế và các ứng dụng thực tế có chất lượng cao.

Duy Khánh