• vi-VNen-GB

VMEDSUB - Nhịp cầu vượt qua rào cản ngôn ngữ

Trong thời đại công nghệ thông tin hiện nay, việc giao tiếp giữa người với máy, máy với máy….luôn là vấn đề được quan tâm thì việc trao đổi thông tin bằng tiếng nói có một vai trò quan trọng. Tuy nhiên, máy tính ngày nay chỉ nhận thông tin từ con người qua các thiết bị như: bàn phím, chuột… Mặc dù tốc độ xử lý của máy tính ngày càng được cải thiện đáng kể song tốc độ tạo lập thông tin của các thiết bị này vẫn còn thấp. Con người mong muốn máy tính ngày càng mạnh hơn, thông minh hơn và một trong những yêu cầu đó là máy tính phải tương tác với người sử dụng bằng tiếng nói tự nhiên. Đây có thể coi là một bước tiến lớn nhằm nâng cao sức mạnh của máy tính, đồng thời tăng tốc độ truyền đạt thông tin giữa máy tính và con người.

Xử lý, nhận diện giọng nói trở thành lĩnh vực quan trọng trong xu hướng phát triển của công nghệ hiện nay. Truyền tải nội dung số có xu hướng chuyển sang nghe nhìn, các file nghe/nhìn cần chuyển sang text để xử lý thông minh phục vụ tìm kiếm, khai thác thông tin và sản xuất ra nội dung mới. Đặc biệt là khi ngành công nghệ thông tin đang ngày một phát triển thì các ứng dụng xử lý tiếng nói càng trở lên cấp thiết hơn bao giờ hết. Trên thế giới đã có nhiều hệ thống nhận diện giọng nói bằng tiếng Anh đã và đang được ứng dụng rất hiệu quả như: Via Voice của IBM, Spoken Toolkit của CSLU… nhưng ở Việt Nam những ứng dụng nhận diện tiếng nói vẫn còn là một lĩnh vực rất mới mẻ. Nắm bắt được xu thế của thời đại công nghệ, VIEGRID đã cho ra đời ứng dụng “Hệ thống nhận dạng giọng nói, phụ đề và chuyển ngữ VMEDSUB”. Mục đích của ứng dụng này trong việc nhận dạng giọng nói, chuyển ngữ là làm cho việc tương tác giữa con người và máy hiệu quả hơn và tự nhiên hơn, nhận dạng và chuyển ngữ chính xác, tiết kiệm thời gian làm việc cho con người…

Hệ thống VMEDSUB có đầy đủ các chức năng cơ bản của một hệ thống nhận diện tiếng nói như: Người dùng có thể nhập đường dẫn (link) tới một máy chủ, website (youtube), hoặc thư mục chứa file video/audio trên máy tính. Ứng dụng sẽ tải stream về, nhận dạng tiếng nói và output text tương ứng vào cửa sổ làm việc. Người dùng có thể sửa các lỗi nhận dạng nếu có (lỗi dưới 5%). Người dùng có thể chọn ngôn ngữ nguồn (source) và ngôn ngữ đích (target) tùy ý. Phần mềm sẽ tự động dịch text ra ngôn ngữ tùy ý, người dùng có thể sửa các lỗi dịch. Người dùng có thể lựa chọn phụ đề được hiển thị trên video bằng cách chọn:

a) Hiển thị phụ đề bằng ngôn ngữ gốc 

b) Hiển thị phụ đề bằng ngôn ngữ dịch

c) Hiển thị phụ đề kép

Phát âm bằng ngôn ngữ dịch phần mềm sẽ cung cấp các công cụ xử lý để bảo đảm chất lượng và hiệu quả công việc cao nhất.

Hệ thống nhận dạng giọng nói, phụ đề và chuyển ngữ VMEDSUB có thể được sử dụng trong rất nhiều lĩnh vực hiện nay như văn hóa, giáo dục (phụ đề video các bài giảng nước ngoài), thông tin truyền thông, sản xuất nội dung nghe nhìn đa ngữ, luyện nghe và phát âm, chuyển kho âm thanh thành dữ liệu text phục vụ phân loại, tìm kiếm. Đặc biệt là được ứng dụng trong lĩnh vực giải trí, phim ảnh, việc chuyển ngữ, lồng tiếng bằng các phụ đề tiếng khác nhau, chuyển nội dung từ text sang tiếng nói, phát nội dung giúp cho những người khiếm thính có thể nghe được nội dung của bất kỳ video nào. Nếu trước kia, con người mất nhiều giờ đồng hồ để thực hiện thực hiện việc nhận dạng, chuyển ngữ thủ công thì với hệ thống VMEDSUB con người thao tác sử dụng hoàn toàn tự động, chỉ trong vài phút kết quả sẽ được hiển thị trên màn hình máy của người dùng, nhanh và thuận tiện hơn rất nhiều lần.

Hệ thống phần mềm VMEDSUB cung cấp một chức năng riêng biệt giúp các đơn vị, tổ chức có thể tạo thành nhóm video riêng. Có hai hình thức nhóm khác nhau là nhóm miễn phí và nhóm có phí.

VMEDSUB là một sân chơi cho tất cả mọi người trong nhiều lĩnh vực khác nhau.

Thông tin chi tiết xem tại: https://medsub.viegrid.com/