El recién lanzado modelo de inteligencia artificial Claude Fable 5, desarrollado por Anthropic y presentado como una de las plataformas más avanzadas en materia de seguridad, habría sido vulnerado en menos de 48 horas tras su llegada al mercado.
El investigador conocido bajo el seudónimo Pliny the Liberator afirmó haber logrado evadir los mecanismos de protección del sistema mediante técnicas de jailbreak, un conjunto de métodos diseñados para sortear las restricciones impuestas por los modelos de IA.
De acuerdo con las declaraciones difundidas por el investigador, el ataque no consistió en explotar una falla tradicional del software, sino en manipular la forma en que el modelo interpreta las instrucciones. Entre las técnicas empleadas se encontrarían el uso de caracteres Unicode especiales, homoglifos y estructuras narrativas capaces de ocultar solicitudes potencialmente restringidas.
Uno de los métodos más efectivos, según el reporte, fue la fragmentación de instrucciones complejas en múltiples consultas aparentemente inofensivas. Cada una lograba superar los filtros de seguridad de forma individual y, posteriormente, las respuestas eran combinadas para reconstruir la información deseada.
Anthropic había destacado previamente que Claude Fable 5 incorporaba nuevas capas de protección destinadas a detectar solicitudes relacionadas con áreas sensibles como ciberseguridad, química y biología. En estos casos, el sistema redirigía las consultas a una versión especializada del modelo con mayores controles de seguridad.
El incidente ha generado debate dentro de la comunidad tecnológica sobre los límites actuales de la seguridad en sistemas de inteligencia artificial. Expertos señalan que, a medida que los modelos se vuelven más sofisticados, también evolucionan las técnicas utilizadas para eludir sus mecanismos de protección.
Pliny the Liberator es conocido en la comunidad de investigación en IA por analizar vulnerabilidades y técnicas de evasión en distintos modelos generativos. Sus hallazgos han sido compartidos públicamente con el objetivo de evidenciar debilidades y promover mejoras en la seguridad de estos sistemas.
Hasta el momento, Anthropic no ha ofrecido detalles adicionales sobre el alcance de las pruebas reportadas ni sobre posibles actualizaciones destinadas a reforzar las defensas del modelo.
El caso vuelve a poner sobre la mesa un desafío persistente para la industria: desarrollar sistemas de inteligencia artificial que no solo sean más capaces, sino también más resistentes frente a intentos cada vez más creativos de eludir sus restricciones.


