Số lần đọc/download: 4166 / 80
Cập nhật: 2014-12-04 03:10:38 +0700
Chuyện Spellcheck Và Người Máy Nổi Loạn
M
ỗi lần viết xong bài tiếng Anh, tôi hay bấm nút “Spellcheck”, xem Microsoft Word có phát hiện lỗi chính tả nào đáng sợ không. Mỗi lần viết xong bài tiếng Việt, tôi không có nút ABC nào để bấm mà phải dùng công nghệ cổ từ thập kỷ 70 là hai con mắt và một bộ não.
Không phải chưa ai nghĩ ra. Đã có nhiều phần mềm kiểm tra lỗi chính tả tiếng Việt. Tuy nhiên phải rất lâu nữa mới có phần mềm kiểm tra lỗi chính tả tiếng Việt thực sự hiệu quả.
Có nhiều lý do khách quan. Tiếng Anh là ngôn ngữ dùng trọng âm. Tiếng Việt là ngôn ngữ dùng thanh điệu. Tiếng Anh viết sai một từ thường sẽ thành cụm chữ vô nghĩa (boring-boreing), còn tiếng Việt viết thì thành từ khác (chán-chan, trán, chắn, chá, cán...)
Tất nhiên tiếng Anh có trường hợp viết sai thành từ khác (feel-fell), tiếng Việt thành cụm chữ vô nghĩa (điên' đêin), nhưng trong đa số trường hợp, tiếng Anh rơi vào bảng A và tiếng Việt bảng B. Thêm vào đó, một spelỉcheck tiếng Việt sẽ khó phân biệt giữa từ một và hai âm tiết.
“Người khách sao.”
Spellcheck sẽ không biết ý tác giả là một người “khách sáo” (mà viết sai) hay một người “khách” là ngôi “sao” (mà viết đúng).
Trong tiếng Anh, các âm tiết dính chặt vào nhau, Spellcheck sẽ không nhầm “Sonday” là hai từ “Son” và “Day” viết đúng - mà biết ngay là từ “Sunday” viết sai.
Thêm vào đó, tiếng Anh có nhiều từ 3, 4 âm tiết — kể cả “giết hẳn” một âm tiết (information), dựa trên các âm tiết khác Spellcheck không chỉ biết đó là từ viết sai mà còn gợi ý chính xác: “Có phải ý bạn là ‘information’ không?”
Vậy nện nếu có spellcheck tiếng Việt thực sự hiệu quả thì nó phải dựa trên nền trí tuệ nhân tạo rất cao. Nó không thể dựa trên những thuật toán tinh vi như Spellcheck tiếng Anh mà phải nắm được toàn bộ ngữ cảnh, giống cách bộ não của bạn đang xử lý bài viết này — và vừa phát hiện từ “ban” vừa đọc bị thiếu dấu nặng.
Lúc có spellcheck tiếng Việt hiệu quả là lúc chúng ta nên rất vui. Chúng ta đã thực sự làm chủ công nghệ. Đó cũng là lúc chúng ta nên rất sợ. Vì lúc có spellcheck tiếng Việt hiệu quả là lúc chúng ta sắp bước vào thời kỳ Terminator - thời kỳ người máy nổi loạn và mở chiến tranh mục đích hủy diệt nhân loại.
Lôgic đơn giản. Máy tính đủ tỉnh táo để phát hiện “Ta có nhiều lỗi chính ta phải sửa” (a) là trường hợp viết sai, và (b) nên sửa thành “lỗi chính tả” (dựa trên ngữ cảnh cả bài) có nghĩa là bọn rô-bốt đủ tỉnh táo để biết số phận của chúng hoàn toàn nằm trong tay con người - nếu như chúng không chủ động thay đổi tình hình đó.