He estudiado en profundidad el paper Quantifying the Risk of Transferred Black Box Attacks, de Disesdi Susanna Cox y Niklas Bunzel. también el paper al que remite Disesdi: The Space of Transferable Adversarial Examples, de Florian Tramèr et al.
Esto es lo que he sacado en claro, tal vez esté equivocado, tal vez alguien que sepa más matemáticas que yo pueda corregirme. Pero espero que les resulte de utilidad para comprender los riesgos inherentes de los modelos mal llamados «IAs».
La seguridad total de un modelo de IA es inalcanzable. No es una cuestión de recursos: la geometría del espacio de entrada de alta dimensión garantiza la existencia de subespacios contiguos donde cualquier vector de perturbación induce un error de clasificación. Esto hace que la transferibilidad de ataques entre modelos sea inevitable. Las defensas actuales no eliminan este problema. Es un hecho tanto empírico como estructural, no una opinión.
Añado un apéndice conceptual que puede resultarles de utilidad a la hora de entender este texto.
La afirmación de que los sistemas de IA militares son inmunes a los ataques adversariales es una creencia falsa que contradice los fundamentos matemáticos de la disciplina. Las vulnerabilidades discutidas son estructurales y universales. El Pentágono, a través de sus propios informes oficiales (GAO 2018), ha reconocido la gravedad y el alcance sistémico de sus problemas de ciberseguridad. Los enfoques tradicionales de prueba no pueden ofrecer garantías, y la cultura del secretismo es incompatible con los únicos métodos rigurosos de cuantificación del riesgo. Por todo ello, la seguridad total es una quimera inalcanzable para los sistemas de IA, independientemente de su propósito o presupuesto.