Phá vỡ rào cản ngôn ngữ trên web

altTại một cuộc gặp ở trụ sở Google vào năm 2004, cuộc thảo luận chuyển sang nội dung một e-mail của một người Hàn Quốc hâm mộ công ty Sergey Brin, một trong hai nhà sáng lập Google, cho dịch nghĩa nội dung e-mail bằng dịch vụ phiên dịch tự động của công ty.

 

Nội dung e-mail tiếng Hàn đại khái cho biết Google là công cụ tìm kiếm ưa thích nhất của tác giả, nhưng khi dịch sang tiếng Anh lại cho ra những câu chữ ngô nghê và tối nghĩa. Khi đó, ông Brin cho rằng Google lẽ ra có thể làm tốt hơn thế.


Tầm nhìn chiến lược của Google

 

Sáu năm sau đó, dịch vụ phiên dịch Google Translate miễn phí của công ty xử lý được 52 ngôn ngữ, nhiều hơn bất kỳ hệ thống tương tự nào. Mỗi tuần, dịch vụ được sử dụng hàng trăm triệu lần để dịch những trang web và nội dung khác. Alon Lavie, một giáo sư tại Viện Công nghệ ngôn ngữ thuộc Đại học Carnegie Mellon của Mỹ, nhận định: “Những gì Google Translate làm được thật đáng kinh ngạc”.

 

Nỗ lực mở rộng sang những lĩnh vực khác với công cụ tìm kiếm trực tuyến của Google đang mang đến những kết quả trái ngược nhau. Dự án sách số đang bị treo lại ở tòa án do chưa giải quyết được vấn đề bản quyền, trong khi việc giới thiệu mạng xã hội Buzz làm dấy lên nỗi lo về vấn đề riêng tư.

 

Những kết quả này cho thấy Google thỉnh thoảng có thể gặp khó khăn khi tìm cách thách thức những truyền thống kinh doanh và văn hóa. Tuy nhiên, sự phát triển nhanh chóng của Google trong lĩnh vực phiên dịch nhắc nhở mọi người rằng điều gì có thể xảy ra khi công ty này tận dụng sức mạnh điện toán khổng lồ của mình để xử lý những vấn đề phức tạp.

 

Mạng lưới trung tâm dữ liệu mà Google xây dựng để phục vụ cho công cụ tìm kiếm trực tuyến có thể đang là chiếc máy tính lớn nhất thế giới khi được gắn kết với nhau. Chính chiếc máy tính này đang được Google sử dụng để vượt qua những giới hạn của công nghệ phiên dịch hiện nay.

 

Tim O’Reilly, người sáng lập nhà xuất bản công nghệ O’Reilly Media, nhận định: “Phiên dịch bằng máy là một trong những ví dụ rõ nhất cho thấy tầm nhìn chiến lược của Google. Đây không phải là lĩnh vực mà ai cũng đánh giá đúng. Tuy nhiên, Google hiểu thứ gì đó về công nghệ mà không ai khác hiểu và sẵn sàng đầu tư để giải quyết những vấn đề loại này trước thị trường một bước”.

 

Việc tạo ra được một cỗ máy phiên dịch từ lâu được xem là một trong những thách thức lớn nhất trong lĩnh vực trí tuệ nhân tạo. Trong nhiều thập kỷ qua, các nhà khoa học máy tính tìm cách sử dụng phương pháp dịch dựa trên quy luật, cú pháp của ngôn ngữ – tức là dạy máy tính những quy luật, cú pháp của hai ngôn ngữ và cung cấp cho nó những quyển từ điển cần thiết.

 

Tuy nhiên, đến giữa thập niên 90 của thế kỷ trước, các nhà nghiên cứu bắt đầu chuyển sang phương pháp thống kê. Họ nhận thấy rằng nếu đưa vào máy tính hàng ngàn hoặc hàng triệu đoạn văn bản và phần dịch thuật do con người thực hiện, máy tính có thể học cách dịch chính xác nội dung mới.

 

Kỹ thuật này cần đến lượng dữ liệu và sức mạnh điện toán khổng lồ, nhưng hóa ra đây lại là điểm mạnh của Google. Vic Gundotra, Phó chủ tịch kỹ thuật của Google, cho biết: “Hạ tầng của chúng tôi rất phù hợp với hướng đi này. Chúng tôi có thể thực hiện những phương pháp mà người khác thậm chí không dám mơ tới”.

 

Không chỉ vì lợi nhuận

 

Cũng như các đối thủ trong cùng lĩnh vực, đáng chú ý nhất là Microsoft và IBM, Google cung cấp cho công cụ phiên dịch nội dung những hoạt động tại trụ sở Liên hiệp quốc (được phiên dịch sang sáu thứ tiếng bởi con người) và những hoạt động tại Nghị viện châu Âu (được phiên dịch sang 23 ngôn ngữ). Không dừng lại ở đó, Google còn tìm kiếm dữ liệu từ trên web, dự án số hóa sách và những nguồn khác để tăng cường thêm ngôn ngữ cho công cụ phiên dịch của mình.

 

Đối với những ngôn ngữ còn xa lạ, Google đã tung ra một bộ công cụ hỗ trợ người sử dụng trong việc chuyển nghĩa những ngôn ngữ này, rồi bổ sung dữ liệu vào trong cơ sở dữ liệu. Vì thế, dù các hệ thống phiên dịch tự động còn lâu mới hoàn hảo, thì dịch vụ Google Translate hiện đủ tốt để truyền tải nội dung chính của một đoạn văn bản cần chuyển nghĩa, từ đó nhanh chóng trở thành công cụ ưa thích của hàng triệu người.

 

Google Translate có thể đe dọa đến doanh số của phần mềm phiên dịch doanh nghiệp của những công ty như IBM. Tuy nhiên, phiên dịch tự động có thể chẳng bao giờ là lĩnh vực mang lại nhiều doanh thu và lợi nhuận, ít nhất là so với những gì mà lĩnh vực quảng cáo mang lại cho Google.

 

Thế nhưng, nỗ lực của Google có thể mang lại một số lợi ích đáng kể cho họ. Trước hết, bất kỳ thứ gì giúp người sử dụng lướt web dễ dàng hơn cũng đều có lợi cho hoạt động quảng cáo trực tuyến của Google. Ngoài ra, hệ thống này còn có thể dẫn đến những ứng dụng mới lý thú, hứa hẹn thu hút thêm người truy cập những dịch vụ của họ.

 

Chẳng hạn như Google gần đây cho biết sẽ dùng công nghệ nhận biết giọng nói để tạo ra phụ đề cho những video nói tiếng Anh trên trang web YouTube, vốn sau đó có thể được phiên dịch sang những ngôn ngữ khác. Ngoài ra, Google cũng cho biết đang kết hợp công cụ dịch thuật của mình với việc phân tích hình ảnh, từ đó cho phép người sử dụng – lấy ví dụ – chụp ảnh một tờ thực đơn tiếng Đức bằng điện thoại và có ngay nội dung được dịch sang tiếng Anh.

 

Ông Franz Ocho, nhà khoa học đứng đầu nhóm phiên dịch bằng máy của Google, thừa nhận hệ thống phiên dịch của Google vẫn cần được cải thiện nhưng tin rằng chất lượng của nó sẽ gia tăng nhanh chóng theo thời gian. Ông nhận định: “Công nghệ này có thể phá vỡ rào cản ngôn ngữ. Nó sẽ cho phép bất kỳ ai cũng có thể giao tiếp với người khác”.

 

Thu Phương / TBKTSG