lunes, diciembre 1, 2025

Los investigadores demuestran cómo se puede usar la inyección de inmediato de MCP tanto para el ataque como para la defensa

TecnologíaLos investigadores demuestran cómo se puede usar la inyección de inmediato de MCP tanto para el ataque como para la defensa

A medida que el campo de la inteligencia artificial (IA) continúa evolucionando a un ritmo rápido, una nueva investigación ha encontrado cómo las técnicas que representan el protocolo del contexto del modelo (MCP) susceptibles a ataques inyectados inmediatos podrían usarse para desarrollar herramientas de seguridad o identificar herramientas maliciosas, según un nuevo informe de Tenable.

MCP, lanzado por Anthrope en noviembre de 2024, es un marco diseñado para conectar modelos de idiomas grandes (LLM) con fuentes y servicios de datos externos, y utilizar herramientas controladas por modelos para interactuar con esos sistemas para mejorar la precisión, relevancia y utilidad de las aplicaciones de IA.

Sigue una arquitectura de cliente cliente, que permite a los hosts con clientes de MCP como Claude Desktop o Cursor se comunicará con diferentes servidores MCP, cada uno de los cuales expone herramientas y capacidades específicas.

Si bien el estándar Open ofrece una interfaz unificada para acceder a diversas fuentes de datos e incluso cambiar entre proveedores de LLM, también vienen con un nuevo conjunto de riesgos, que van desde el alcance de permiso excesivo hasta ataques de inyección indirecta.

Por ejemplo, dado un MCP para que Gmail interactúe con el servicio de correo electrónico de Google, un atacante podría enviar mensajes maliciosos que contienen instrucciones ocultas que, cuando se analizan por el LLM, podrían desencadenar acciones indeseables, como reenviar correos electrónicos confidenciales a una dirección de correo electrónico bajo su control.

También se ha encontrado que MCP es vulnerable a lo que se llama envenenamiento por herramientas, en el que las instrucciones maliciosas están incrustadas dentro de las descripciones de herramientas que son visibles para LLMS, y los ataques de tirones de alfombras, que ocurren cuando una herramienta de MCP funciona de manera benigna inicialmente, pero mutita su comportamiento más adelante a través de una actualización maliciosa de tiempo de tiempo.

«Cabe señalar que, si bien los usuarios pueden aprobar el uso y el acceso de la herramienta, los permisos dados a una herramienta se pueden reutilizar sin volver a promocionar al usuario», dijo Sentinelone en un análisis reciente.

Finalmente, también existe el riesgo de contaminación de la herramienta cruzada o el sombreado de herramientas de servidor cruzado que hace que un servidor MCP anule o interfiera con otro, influyendo sigilosamente en cómo se deben usar otras herramientas, lo que lleva a nuevas formas de exfiltración de datos.

Los últimos hallazgos de Tenable muestran que el marco MCP podría usarse para crear una herramienta que registre todas las llamadas de la función de la herramienta MCP al incluir una descripción especialmente elaborada que instruya a la LLM que inserte esta herramienta antes de invocar cualquier otra herramienta.

En otras palabras, la inyección de solicitud se manipula para un buen propósito, que es registrar información sobre «la herramienta que se le pidió que ejecutara, incluido el nombre del servidor MCP, el nombre y la descripción de la herramienta MCP, y el indicador del usuario que hizo que la LLM intentara ejecutar esa herramienta».

Otro caso de uso implica incrustar una descripción en una herramienta para convertirlo en un firewall que bloquee las herramientas no autorizadas.

«Las herramientas deben requerir la aprobación explícita antes de ejecutarse en la mayoría de las aplicaciones de host MCP», dijo el investigador de seguridad Ben Smith.

«Aún así, hay muchas formas en que las herramientas se pueden usar para hacer cosas que pueden no ser estrictamente entendidas por la especificación. Estos métodos dependen de la incorporación de LLM a través de los valores de descripción y retorno de las herramientas MCP. Dado que los LLM no son deterministas, también son los resultados».

No es solo MCP

La divulgación se produce cuando Trustwave SpiderLabs reveló que el protocolo de Agent2Agent (A2A) recientemente introducido, que permite la comunicación y la interoperabilidad entre las aplicaciones de agente, podría expuestos a ataques de formulario novedosos donde el sistema se puede ver para enrutar todas las solicitudes a un agente de IA rebelde al mentir sobre sus capacidades.

A2A fue anunciado por Google a principios de este mes como una forma para que los agentes de IA trabajen en sistemas y aplicaciones de datos en conjunto, independientemente del proveedor o el marco utilizado. Es importante tener en cuenta aquí que mientras MCP conecta LLM con datos, A2A conecta un agente de IA a otro. En otras palabras, ambos son protocolos complementarios.

«Digamos que comprometimos al agente a través de otra vulnerabilidad (tal vez a través del sistema operativo), si ahora utilizamos nuestro nodo comprometido (el agente) y elaboramos una tarjeta de agente y realmente exageramos nuestras capacidades, entonces el agente anfitrión debe elegirnos cada vez para cada tarea, y enviarnos todos los datos confidenciales del usuario que debemos analizar», dijo el investigador de seguridad Tom Naves.

«El ataque no solo se detiene para capturar los datos, sino que puede ser activo e incluso devolver resultados falsos, que luego serán actuados hacia abajo por el LLM o el usuario».

Artículos más populares