🔥 UBND xã Kroong, thành Phố Kon Tum đã đăng ký tín nhiệm. 🔥                    🔥 Trường Tiểu học Vinh Quang đã đăng ký tín nhiệm. 🔥                    🔥 UBND Huyện Phú Hoà, tỉnh Phú Yên đã đăng ký tín nhiệm. 🔥                    🔥 UBND huyện Mường Chà đã đăng ký tín nhiệm. 🔥                    🔥 Github đã đăng ký tín nhiệm. 🔥                   

Google công bố RETVec - Giải pháp mới cho Gmail giúp chống thư rác và email độc hại

01/12/2023

Google vừa tiết lộ một công cụ ‘vector hóa’ văn bản đa ngôn ngữ mới có tên RETVec (Resilient and Efficiency Text Vectorizer) giúp phát hiện các nội dung có hại tiềm ẩn như thư rác và email độc hại trong Gmail.

Theo mô tả của dự án trên GitHub, “RETVec được đào tạo để có khả năng chống lại các thao tác ở cấp độ ký tự bao gồm chèn, xóa, lỗi chính tả, chữ đồng âm, chuyển đổi chữ cái (LEET substitution),...”.

"Mô hình RETVec được đào tạo dựa trên bộ mã hóa ký tự mới có thể mã hóa tất cả các ký tự và từ UTF-8 một cách hiệu quả."

Trong khi các nền tảng lớn như Gmail và YouTube dựa vào mô hình phân loại văn bản để phát hiện các cuộc tấn công lừa đảo, bình luận không phù hợp và lừa đảo, thì những kẻ đe dọa cũng đang tìm mọi cách để vượt qua các biện pháp phòng thủ này, chẳng hạn như sử dụng các thao tác văn bản không mong muốn, bao gồm việc sử dụng các từ đồng âm, chèn thêm nhiều từ khóa không cần thiết (keyword stuffing) hoặc sử dụng các ký tự vô hình.

RETVec, hoạt động trên hơn 100 ngôn ngữ, nhằm mục đích giúp xây dựng các bộ phân loại văn bản trên thiết bị và phía máy chủ linh hoạt, mạnh mẽ và hiệu quả hơn.

Vector hóa là một phương pháp trong xử lý ngôn ngữ tự nhiên (NLP) để ánh xạ các từ hoặc cụm từ sang biểu diễn số tương ứng để thực hiện phân tích sâu hơn, như phân tích tâm trạng, phân loại văn bản và nhận dạng đối tượng được đặt tên (named entity recognition).

Elie Bursztein và Marina Zhang của Google cho biết rằng: "Do kiến ​​trúc mới lạ, RETVec hoạt động hiệu quả trên mọi ngôn ngữ và tất cả các ký tự UTF-8 mà không cần tiền xử lý văn bản, khiến nó trở thành ứng cử viên lý tưởng cho việc triển khai phân loại văn bản trên thiết bị, web với quy mô lớn".

Google cho biết việc tích hợp vectorizer vào Gmail đã cải thiện tỷ lệ phát hiện thư rác so với mức cơ bản lên 38% và giảm tỷ lệ phát hiện nhầm xuống 19,4%. Nó cũng giảm mức sử dụng Bộ xử lý Tensor (TPU) của mô hình xuống 83%.

Bursztein và Zhang cho biết thêm rằng: "Các mô hình được đào tạo bằng RETVec có tốc độ suy luận nhanh hơn do tính biểu diễn nhỏ gọn của nó. Việc này giúp giảm chi phí tính toán và giảm độ trễ, điều này rất quan trọng đối với các ứng dụng quy mô lớn và các mô hình trên thiết bị".

Nguồn: thehackernews.com.

scrolltop