Microsoft ha presentado dos nuevas herramientas de código abierto llamadas MURALLA y Claridad para ayudar a los desarrolladores a probar mejor la seguridad de los agentes de inteligencia artificial (IA).
RAMPART, abreviatura de Risk Assessment and Measurement Platform for Agentic Red Teaming, funciona como un marco de pruebas de seguridad nativo de Pytest para escribir y ejecutar pruebas de seguridad para agentes de IA, que cubren problemas adversarios y benignos, así como varias categorías de daños.
Los usuarios pueden escribir casos de prueba para atacar o sondear a un agente de IA para explorar posibles violaciones de seguridad, como inyecciones cruzadas, donde datos no confiables llegan a un sistema de IA indirectamente a través de una fuente de datos (por ejemplo, correo electrónico, archivo o página web) procesada por este, o regresiones de comportamiento no intencionadas y exfiltración de datos.
RAMPART luego evalúa el resultado de esas pruebas e informa los resultados. Todo lo que necesita es un adaptador que conecte un agente al conjunto de pruebas. La herramienta se basa en PyRIT (abreviatura de Python Risk Identification Tool), que Microsoft lanzó hace más de dos años como una forma de probar sistemas de inteligencia artificial.
Clarity, por otro lado, ha sido descrita por el gigante tecnológico como una «caja de resonancia estructurada» para ayudar a los desarrolladores a llegar al enfoque correcto incluso antes de escribir una sola línea de código. Es un «socio de pensamiento de IA que retrocede», guiándolos a través de la aclaración de problemas, la exploración de soluciones, el análisis de fallas y el seguimiento de decisiones.
Al hacer públicas estas herramientas, Microsoft dijo que la idea es abordar por qué ciertas decisiones se incorporan en una etapa temprana del desarrollo de software para que cualquier problema potencial (por ejemplo, el acceso de un agente a una herramienta) se aborde mucho antes de que se construya el sistema.
«Queríamos darles a los gerentes de producto e ingenieros una manera de poner a prueba sus suposiciones al inicio de un proyecto, cuando cambiar de rumbo es barato y la conversación correcta puede ahorrar meses de retrabajo», dijo Ram Shankar Siva Kumar, un Data Cowboy y fundador del AI Red Team de Microsoft, en un blog compartido con The Hacker News.
Microsoft señaló que una motivación secundaria detrás de invertir en estas herramientas es hacer que los incidentes sean reproducibles y las mitigaciones verificables y escalar los aprendizajes de los ejercicios de equipos rojos convirtiéndolos en activos de ingeniería ejecutables.
«Mientras que PyRIT se optimiza para el descubrimiento de cajas negras por parte de los investigadores de seguridad después de que se construye el sistema, RAMPART se construye para los ingenieros a medida que se construye el sistema», agregó Siva Kumar. «La claridad ayuda a los equipos a aclarar la intención del diseño y capturar las suposiciones. Juntos, estos enfoques hacen que la seguridad de la IA pase de una revisión única a un conjunto de artefactos vivos que los desarrolladores pueden utilizar durante todo el ciclo de vida».