Google vừa tiết lộ một công cụ ‘vector hóa’ văn bản đa ngôn ngữ mới có tên RETVec (Resilient and Efficiency Text Vectorizer) giúp phát hiện các nội dung có hại tiềm ẩn như thư rác và email độc hại trong Gmail.
Theo mô tả của dự án trên GitHub, “RETVec được đào tạo để có khả năng chống lại các thao tác ở cấp độ ký tự bao gồm chèn, xóa, lỗi chính tả, chữ đồng âm, chuyển đổi chữ cái (LEET substitution),...”.
"Mô hình RETVec được đào tạo dựa trên bộ mã hóa ký tự mới có thể mã hóa tất cả các ký tự và từ UTF-8 một cách hiệu quả."
Trong khi các nền tảng lớn như Gmail và YouTube dựa vào mô hình phân loại văn bản để phát hiện các cuộc tấn công lừa đảo, bình luận không phù hợp và lừa đảo, thì những kẻ đe dọa cũng đang tìm mọi cách để vượt qua các biện pháp phòng thủ này, chẳng hạn như sử dụng các thao tác văn bản không mong muốn, bao gồm việc sử dụng các từ đồng âm, chèn thêm nhiều từ khóa không cần thiết (keyword stuffing) hoặc sử dụng các ký tự vô hình.
RETVec, hoạt động trên hơn 100 ngôn ngữ, nhằm mục đích giúp xây dựng các bộ phân loại văn bản trên thiết bị và phía máy chủ linh hoạt, mạnh mẽ và hiệu quả hơn.
Vector hóa là một phương pháp trong xử lý ngôn ngữ tự nhiên (NLP) để ánh xạ các từ hoặc cụm từ sang biểu diễn số tương ứng để thực hiện phân tích sâu hơn, như phân tích tâm trạng, phân loại văn bản và nhận dạng đối tượng được đặt tên (named entity recognition).
Elie Bursztein và Marina Zhang của Google cho biết rằng: "Do kiến trúc mới lạ, RETVec hoạt động hiệu quả trên mọi ngôn ngữ và tất cả các ký tự UTF-8 mà không cần tiền xử lý văn bản, khiến nó trở thành ứng cử viên lý tưởng cho việc triển khai phân loại văn bản trên thiết bị, web với quy mô lớn".
Google cho biết việc tích hợp vectorizer vào Gmail đã cải thiện tỷ lệ phát hiện thư rác so với mức cơ bản lên 38% và giảm tỷ lệ phát hiện nhầm xuống 19,4%. Nó cũng giảm mức sử dụng Bộ xử lý Tensor (TPU) của mô hình xuống 83%.
Bursztein và Zhang cho biết thêm rằng: "Các mô hình được đào tạo bằng RETVec có tốc độ suy luận nhanh hơn do tính biểu diễn nhỏ gọn của nó. Việc này giúp giảm chi phí tính toán và giảm độ trễ, điều này rất quan trọng đối với các ứng dụng quy mô lớn và các mô hình trên thiết bị".
Nguồn: thehackernews.com.
Tín nhiệm mạng | Apple đã phát hành các bản cập nhật bảo mật khẩn cấp để khắc phục hai lỗ hổng zero-day đang bị lạm dụng trong các cuộc tấn công và ảnh hưởng đến các thiết bị iPhone, iPad và Mac
Tín nhiệm mạng | Tin tặc đang khai thác một lỗ hổng nghiêm trọng trong ownCloud, CVE-2023-49103, có thể gây tiết lộ mật khẩu quản trị, thông tin xác thực máy chủ thư, và các khóa cấp phép trong các triển khai dạng container
Tín nhiệm mạng | Các nhà nghiên cứu bảo mật đã phát hiện một "lỗ hổng thiết kế nghiêm trọng" trong tính năng ủy quyền trên toàn miền của Google Workspace có thể bị kẻ tấn công khai thác để leo thang đặc quyền và giành được quyền truy cập trái phép vào các API của Workspace
Tín nhiệm mạng | Nhóm nghiên cứu bảo mật đã phát hiện một vấn đề của "xác thực bắt buộc" có thể bị khai thác để rò rỉ token NTLM của người dùng Windows bằng cách lừa nạn nhân mở một tệp Microsoft Access độc hại
Tín nhiệm mạng | Một nghiên cứu mới đã chứng minh rằng những kẻ tấn công mạng thụ động có thể lấy được các khóa bí mật từ máy chủ SSH dễ bị tấn công bằng cách quan sát thời điểm xảy ra lỗi tính toán trong khi kết nối đang được thiết lập