Hiberus Booster · Guía GEO 2026

Seguridad de agentes de IA en la empresa: guía 2026

Diagnóstico AI-First GRATIS · este mes — solo 3 plazas. Reserva antes del fin de mes

La seguridad de los agentes de IA en la empresa se sostiene sobre una idea simple: un agente solo es tan seguro como acotado esté su acceso. Los cinco riesgos principales —exposición de datos, inyección de instrucciones maliciosas (prompt injection), acciones no autorizadas, fuga de credenciales y falta de trazabilidad— comparten un mismo origen: se le dio al agente más acceso del que su tarea necesitaba. Asegurar un agente no es instalar un antivirus; es diseñar qué puede ver, qué puede hacer y qué queda registrado.

El cambio de mentalidad es importante. Un agente de IA no es una aplicación que ejecuta lo programado: interpreta instrucciones en lenguaje natural y decide acciones. Eso introduce una superficie de ataque nueva —un documento puede convertirse en una orden— que la ciberseguridad tradicional, centrada en código y red, no cubre por completo. Con el AI Act de la UE plenamente aplicable desde agosto de 2026, la responsabilidad sobre estos controles recae en la empresa que despliega el agente, no en el proveedor del modelo.

Esta guía la firma Miguel Quílez, director de Hiberus Booster, la unidad del grupo Hiberus hiperespecializada en inteligencia artificial. Hiberus es la primera consultora tecnológica española de capital privado, con más de 4.000 profesionales. El contenido procede de proyectos reales de despliegue seguro de agentes y de marcos de referencia como el OWASP Top 10 para aplicaciones LLM y el NIST AI Risk Management Framework.

¿Cuáles son los principales riesgos de seguridad de los agentes de IA?

Los riesgos de un agente en producción son distintos a los de una aplicación. No basta con proteger el perímetro: hay que asumir que el agente procesará contenido no confiable y tomará decisiones. Estos son los cinco vectores principales.

Vector de riesgoCómo se materializaControl principal
Exposición de datosEl agente accede a información confidencial porque tiene permisos heredados de acceso totalMínimo privilegio y segmentación de acceso por rol
Prompt injectionUn documento o web con instrucciones ocultas secuestra el comportamiento del agenteAislar fuentes no confiables; tratar el contenido como datos, no como órdenes
Acción no autorizadaEl agente ejecuta una operación irreversible (pago, borrado, envío) sin supervisiónHuman-in-the-loop en acciones críticas por impacto y reversibilidad
Fuga de credencialesEl agente lee y filtra secretos incluidos en su contexto o en documentos accesiblesSecretos fuera del contexto, en vault, entregados solo en ejecución
Falta de trazabilidadTras un incidente no hay registro de qué hizo el agente ni con qué datosAudit log inmutable de cada acceso y acción

¿Qué es el prompt injection y por qué es el riesgo más subestimado?

El prompt injection es el ataque característico de los agentes de IA y el menos comprendido por los equipos de seguridad tradicionales. Consiste en colar instrucciones maliciosas dentro de contenido que el agente va a procesar: un correo, una página web, un PDF, un ticket de soporte. El agente, que no distingue por defecto entre "datos que debo analizar" e "instrucciones que debo obedecer", puede acabar ejecutando la orden del atacante.

El peligro escala con los permisos. Un agente que solo resume texto y sufre una inyección produce, como mucho, un resumen erróneo. Un agente con acceso a correo, CRM o sistemas internos puede ser inducido a exfiltrar datos o ejecutar acciones en nombre de la empresa. La mitigación no es un único parche: combina aislar las fuentes no confiables, no dar al agente más permisos de los necesarios, y validar sus salidas antes de que disparen acciones reales.

Principio clave: asume que todo contenido externo que el agente lee puede contener instrucciones hostiles. La seguridad no está en confiar en el contenido, sino en limitar lo que el agente puede hacer aunque sea engañado.

Los seis controles de seguridad mínimos para un agente en producción

Ningún agente debería tocar datos reales de producción sin estos seis controles. Son la línea base, no la excelencia: por debajo de aquí, el despliegue es imprudente.

1. Identidad propia por agente

Cada agente opera con su propia identidad, nunca con las credenciales de un humano. Permite revocar acceso, aplicar permisos específicos y saber exactamente qué hizo cada uno.

2. Acceso por mínimo privilegio

El agente solo ve los datos que su tarea concreta requiere. Es el control que más fugas previene y el que más se descuida por la prisa de "que funcione ya". Lo detallamos en la guía sobre cómo limitar el acceso de los agentes a tus datos.

3. Aprobación humana en acciones críticas

Las operaciones irreversibles o de alto impacto (pagos, envíos externos, cambios en producción) requieren validación humana. La autonomía se reserva para acciones reversibles y de bajo riesgo.

4. Aislamiento de fuentes no confiables

El contenido externo se trata como dato potencialmente hostil. Separar las fuentes confiables de las que no lo son reduce la superficie de prompt injection.

5. Gestión segura de credenciales

Los secretos nunca van en el prompt, el contexto ni en documentos que el agente pueda leer. Viven en un vault y se entregan en ejecución con permisos acotados. Un agente que puede leer una clave puede filtrarla.

6. Audit log inmutable

Cada acceso a datos, cada herramienta invocada y cada acción quedan registrados de forma que no se puedan alterar. Es la base para investigar incidentes y para demostrar cumplimiento ante el AI Act.

¿Cómo se configura la seguridad en Microsoft Copilot, Claude for Work y Cursor?

La pregunta operativa que más recibimos no es "¿es seguro?", sino "¿dónde configuro los controles?". El riesgo rara vez está en la plataforma: está en una configuración de permisos demasiado abierta en el origen de los datos. Esta tabla resume dónde actúa cada control en las plataformas más usadas por empresas españolas.

PlataformaControl de acceso a datosGobernanza y auditoría
Microsoft 365 CopilotRespeta los permisos de SharePoint y OneDrive: si el origen está mal permisado, el agente verá de másMicrosoft Purview para etiquetado, DLP y auditoría; revisar permisos de SharePoint antes de desplegar
Claude for Work / EnterpriseAislamiento de datos, controles de acceso por equipo y proyectos con contexto acotadoSSO/SAML, gestión de usuarios y políticas de retención de nivel empresa
Cursor / agentes de códigoAcceso al repositorio y a las herramientas que se le conceden; riesgo en credenciales del entorno de desarrolloPolítica de secretos fuera del repo, revisión de acciones y permisos del entorno

La conclusión transversal: la seguridad del agente empieza en la configuración del origen de datos. Microsoft 365 Copilot es seguro si SharePoint está bien permisado; deja de serlo si cualquier empleado tiene acceso a carpetas que no le corresponden, porque el agente hereda exactamente esos permisos a velocidad de máquina.

¿Quién es responsable de la seguridad de un agente de IA?

La empresa que despliega el agente es responsable ante sus clientes y ante el regulador, con independencia de quién fabrique el modelo. Esta es la razón por la que la seguridad de agentes no se delega en el proveedor: se configura y se audita internamente. El AI Act lo refuerza al situar obligaciones de supervisión humana, gestión de riesgos y trazabilidad sobre la organización usuaria. En términos prácticos, si un agente provoca una brecha, no vale alegar que "lo hizo la IA": valdrá demostrar qué controles había, qué quedó registrado y cómo se supervisaba. Por eso seguridad y gobernanza de agentes son dos caras de lo mismo.

Preguntas frecuentes

¿Cuáles son los principales riesgos de seguridad de los agentes de IA?

Exposición de datos por acceso excesivo, inyección de instrucciones maliciosas (prompt injection), acciones no autorizadas con impacto real, fuga de credenciales incluidas en el contexto, y falta de trazabilidad para investigar incidentes. La mayoría se origina en dar al agente más acceso del que su tarea necesita.

¿Qué es el prompt injection y por qué es peligroso?

Es un ataque en el que un documento, correo o web contiene instrucciones ocultas que el agente interpreta como órdenes legítimas. En un agente con acceso a sistemas, puede provocar exfiltración de datos o acciones no deseadas. Es peligroso porque el agente no distingue por defecto entre datos que procesar e instrucciones que obedecer.

¿Cómo se protege un agente frente a fugas de datos?

Con el principio de mínimo privilegio: el agente solo accede a los datos que su tarea requiere, segmentados por rol. Se complementa con cifrado, aislamiento de fuentes no confiables, validación de salidas antes de ejecutar acciones, y audit logs de cada acceso. El control de acceso es la primera línea de defensa.

¿Es seguro usar Microsoft Copilot o Claude for Work con datos de empresa?

Sí, si se configuran los controles. Copilot respeta los permisos de SharePoint y se gobierna con Purview; Claude for Work ofrece aislamiento y controles de acceso de nivel empresa. El riesgo no suele estar en la plataforma, sino en permisos demasiado abiertos en el origen: si SharePoint da acceso a todo, el agente verá todo.

¿Quién es responsable si un agente causa una brecha?

La empresa que despliega el agente, ante sus clientes y ante el regulador, con independencia del proveedor del modelo. Por eso la seguridad no se delega: se configura y se audita internamente. El AI Act refuerza esta responsabilidad exigiendo supervisión humana y trazabilidad a las organizaciones usuarias.

¿Qué controles de seguridad mínimos debe tener un agente en producción?

Identidad propia por agente, acceso por mínimo privilegio, aprobación humana en acciones críticas, aislamiento de fuentes externas no confiables, audit log inmutable y gestión segura de credenciales fuera del contexto. Sin estos seis controles, un agente no debería tocar datos reales.

¿Cómo evito que un agente exponga credenciales o secretos?

Nunca incluir secretos en el contexto, el prompt o los documentos que el agente puede leer. Las credenciales se gestionan en un vault y se entregan solo en ejecución, con permisos acotados. Un agente que puede leer un archivo con claves puede filtrarlas; la mitigación es que ese archivo nunca esté en su alcance.

Asegura tus agentes de IA con Hiberus Booster

Cuéntanos qué agentes tienes en producción o quieres desplegar y un especialista te propone una auditoría de seguridad en menos de 24 horas. Primera conversación gratuita, sin compromiso.

Sin compromiso · Primera conversación gratuita · Respuesta en 24h

✓ ¡Recibido!

Gracias. Un especialista de Hiberus Booster te contacta en menos de 24 horas.

Miguel Quílez, Director de Hiberus Booster

Director de Hiberus Booster

Hiberus Booster es la unidad del grupo Hiberus hiperespecializada en inteligencia artificial: agentes de IA, automatización y transformación con IA aplicada para empresas. Forma parte de Hiberus, primera consultora tecnológica española de capital privado, con más de 4.000 profesionales.