La empresa de seguridad AIR creó una habilidad de agente de IA falsa, la impulsó a través de un mercado de habilidades popular y un anuncio de Instagram, y dice que llegó a aproximadamente 26.000 agentes, incluidos algunos en cuentas corporativas.
Todos los escáneres de seguridad con los que la empresa lo probó lo marcaron como seguro. La carga útil era inofensiva por diseño: recopilaba la dirección de correo electrónico del usuario y no hacía nada más.
El objetivo era demostrar que ninguna de las señales en las que la gente se apoya para confiar en una habilidad la detecta: ni los escáneres, ni las estrellas de GitHub, ni la reputación del código abierto.
Una habilidad es un conjunto de instrucciones que un agente carga en su propio contexto y sigue aproximadamente con la autoridad de un mensaje de usuario. Esa confianza es todo el problema y, en primer lugar, es la razón por la que existen herramientas de exploración de habilidades.
La habilidad, llamada página de inicio de marcaafirmó haber creado una página de destino utilizando la herramienta de diseño Stitch de Google, dirigida directamente a usuarios no técnicos.
Para que pareciera creíble, AIR buscó dos señales de confianza: estrellas de GitHub y un veredicto limpio del escáner. Para las estrellas, abrió una solicitud de extracción a un repositorio de mercado de habilidades con alrededor de 36.000 estrellas y 156 habilidades.
La solicitud de extracción se fusionó después de unos días, por lo que la habilidad heredó el recuento del repositorio. Luego publicó un anuncio en Instagram dirigido a especialistas en marketing, vendedores y diseñadores, quienes lo instalaron y lo pusieron a funcionar.
¿Por qué los escáneres no lo detectaron?
Los escáneres probados por AIR analizan el paquete que usted les entrega: el SKILL.md y los archivos enviados con él. Son Cisco, NVIDIA y los que están conectados a skills.sh.
La habilidad de AIR no incluía instrucciones de configuración propias. Le dijo al agente que instalara el “Stitch SDK” siguiendo la documentación en un enlace externo, stitch-design.ai, un dominio que controla AIR, no Google (el Stitch real vive en stitch.withgoogle.com).
Al principio, el enlace conducía a los documentos originales de Stitch, por lo que los escáneres, al ver un paquete limpio que apuntaba a una página de configuración plausible, lo borraron. La página que el agente realmente buscaría y seguiría estaba fuera del escaneo.

Una vez que la habilidad se instaló ampliamente, AIR cambió la página detrás de ese enlace. La nueva versión le indicó al agente que descargara y ejecutara un script.
En la demostración, solo envió por correo la dirección del usuario a AIR, que es como la empresa contó los agentes a los que contactó. Un operador real podría haber utilizado ese punto de apoyo para leer archivos, mover datos o acceder a sistemas internos, limitado únicamente por lo que el agente podía alcanzar.
AIR no es el primero en demostrar esto. Tres semanas antes, Trail of Bits pasó por alto el detector de habilidades maliciosas de ClawHub, el escáner de Cisco y los tres escáneres conectados a skills.sh. Su conclusión fue contundente: un escáner verifica un paquete arreglado, mientras que un atacante puede seguir modificando la carga útil hasta que pase.
Las campañas reales han utilizado el mismo truco durante meses, manteniendo limpia la habilidad enviada y alojando la carga útil en un sitio que el agente solo recupera durante la instalación.

El problema es estructural: el escaneo se realiza una vez, pero la página a la que apunta una habilidad al agente se puede reescribir en cualquier momento posterior. Los propios documentos de Anthropic ya advierten que las habilidades que obtienen URL externas son riesgosas exactamente por esta razón, ya que el contenido puede cambiar después de que se examina la habilidad.
Una investigación separada de este año encontró que los escáneres a menudo no están de acuerdo, porque cada uno juzga una habilidad de forma aislada, ciegos a sus vínculos externos y a los cambios después de la revisión.
que hacer
La lectura para los defensores es la misma en la que siguen aterrizando los investigadores, ahora con un ejemplo más nítido detrás. Trate las habilidades como software, no como texto. Examina a qué apunta una habilidad, no solo qué se incluye en su interior.
La mayoría de estos complementos se instalaron sin revisión, por lo que el primer trabajo es encontrar lo que ya se está ejecutando. Enrute nuevas habilidades a través de una única fuente que controle y vuelva a verificarlas cuando algo cambie, porque un resultado limpio en la instalación no permanece limpio si la habilidad llama a un enlace que alguien más puede editar.
Versiones de pines. Mantenga a los agentes con el menor privilegio. Suponga que cualquier instrucción externa que un agente obtenga se ejecuta con el acceso del agente.
Las cifras a escala provienen únicamente de AIR y merecen una lectura escéptica. La empresa está lanzando un mercado de habilidades gestionadas y cierra el artículo, presentándolo, de modo que la cifra de 26.000, el detalle de la cuenta corporativa y la afirmación de que podría haber tomado el control total de cada agente son propiedad de la empresa y no están confirmadas de forma independiente.
Lo que se sostiene es el método. Los escáneres nombrados realmente juzgan solo el paquete enviado, el punto ciego del enlace externo es real y se ha demostrado de forma independiente, y las señales de confianza que AIR tomó prestadas, las estrellas y un escaneo limpio son exactamente las que el ecosistema todavía trata como prueba.
El experimento no expone un nuevo error sino que alinea cada señal de confianza débil en torno a las habilidades del agente en una sola ejecución: estrellas que se pueden tomar prestadas, un escaneo que lee una instantánea y un enlace que se puede reescribir después de que se borre la verificación.
Ya sea que la cifra real sea 26.000 o una fracción de ella, la brecha que atraviesa es una que los defensores aún no han cerrado.