El nuevo algoritmo vectorial implementado en Gmail mejorará enormemente la tasa de identificación de spam y phishing emails

Google abrió recientemente un nuevo vectorizador de texto en varios idiomas llamado RETVec en GoogleColab. Este vectorizador se ha implementado en Gmail para mejorar la tasa de reconocimiento de correos electrónicos no deseados y de phishing y, al mismo tiempo, reducir la tasa de falsos positivos. Google dice que RETVec está capacitado para resistir operaciones a nivel de caracteres, incluidas inserciones, eliminaciones, errores ortográficos,Homógrafos, reemplazo de LEET, etc. Este modelo está entrenado sobre un nuevo codificador de caracteres que puede codificar eficazmente todos los caracteres y palabras UTF-8.

¿Por qué entrenar un modelo así? Debido a que Gmail envía y recibe decenas de millones de correos electrónicos todos los días, y si contiene varios tipos de spam, puede ser de miles de millones, y los spammers eludirán el sistema de detección de Google, como el uso de homógrafos.

RETVec admite más de 100 idiomas y está diseñado para ayudar a crear una clasificación de texto más flexible y eficiente en el servidor y el dispositivo, al mismo tiempo que es más potente y eficiente.

Según las propias estadísticas de Google, después de aplicar RETVec a Gmail, la tasa de detección de spam aumentó en un 38 % en comparación con la línea de base, la tasa de falsos positivos se redujo en un 19,4 % y el uso de la unidad de procesamiento tensorial (TPU) se redujo en un 83 %.

Los ingenieros de Google dicen que los modelos entrenados con RETVec exhiben velocidades de inferencia más rápidas debido a su representación compacta. Los modelos más pequeños pueden reducir los costos computacionales y reducir la latencia, lo cual es fundamental para los modelos en sistemas y dispositivos a gran escala.

La vectorización es un método en PNL, o procesamiento del lenguaje natural, que se utiliza para asignar palabras o frases del vocabulario a las expresiones digitales correspondientes para realizar análisis adicionales, como análisis de sentimientos, clasificación de texto y reconocimiento de entidades nombradas.