Adoptar una cultura basada en las métricas

El trabajo «Letalidad objetiva: por qué la infantería debe adoptar una cultura basada en las métricas», publicado originalmente en la página amiga The Connecting File, abre un debate interesante para cualquier organización. El peso en cada cultura organizacional de la valoración cualitativa y cuantitativa, o la pertinencia y eficacia de los métodos de evaluación cualitativos y cuantitativos son un elemento clave en la capacidad de mejora de cualquier grupo humano organizado.

Actualmente estoy estudiando e implementando, dentro de mi formación profesional con el Warfare Mastery Institute, los métodos de optimización recogidos en Winning The Fight. A Conceptual Framework for Combat Performance Enhancement, para su transferencia al mundo de la empresa. La lectura del artículo de Andrew Danko ha añadido una dialéctica muy interesante: la tensión entre lo cuantitativo-cualitativo. Amablemente, el Mayor Geoff Ball me ha dado permiso para traducir y publicar este interesante material, que pese a ser fruto de la experiencia profesional del Cuerpo de Marines de los EEUU, es fácilmente aplicable al campo académico y profesional civil.

Introducción y contexto

El presente artículo aborda un problema transversal a las organizaciones militares y civiles: la dependencia de sistemas de evaluación binarios (aprobado/suspendido) que no permiten cuantificar el grado de mejora ni comparar objetivamente el rendimiento entre unidades. Danko demuestra, mediante un experimento controlado a nivel de pelotón, que competencias tradicionalmente consideradas cualitativas pueden ser medidas con métricas de tiempo, precisión y tasa de error, generando muestras de referencia y datos de progreso verificables.

Desde una perspectiva de gestión empresarial, esta aproximación resuelve tres limitaciones comunes: (1) la imposibilidad de establecer estándares empíricos de desempeño, (2) la falta de validación objetiva de los programas de formación, y (3) la ausencia de mecanismos para identificar y escalar mejores prácticas entre equipos.

No obstante, la mera introducción de métricas cuantitativas no garantiza objetividad.

Special Tactics Institute en su obra Winning the Fight: A Conceptual Framework for Combat Performance Enhancement, sostiene una tesis centrada en la mejora del rendimiento organizacional: la efectividad no nace de la acumulación de datos, sino del juicio humano fundamentado en el sentido común y el pensamiento cualitativo. Los autores recalcan que la búsqueda de sistemas aparentemente cuantitativos puede generar una falsa sensación de control cuando, en realidad, los números asignados responden a valoraciones subjetivas. En sus propias palabras:

«It is critical to understand however that some of these systems can be ineffective and misleading. They were developed to give the illusion of quantitative analysis when in reality, the analysis is still qualitative since the numbers assigned to threats are ultimately subjective and based on human thinking rather than measurable data.» (Special Tactics Institute, s.f., p. 66)

Esta advertencia no implica rechazar la medición objetiva, sino reconocer sus límites y la necesidad de mantener el sentido común como filtro interpretativo. Precisamente, el artículo de The Connecting File que traducimos, ofrece una propuesta compatible con esta visión. El autor no propone sustituir el criterio humano por algoritmos, sino complementar la evaluación cualitativa con métricas básicas (tiempos, porcentajes de acierto, tasas de error) allí donde sea posible hacerlo sin caer en artificios. Su experimento con un pelotón de infantería demuestra que muchas competencias consideradas «no cuantificables» admiten registros objetivos que permiten establecer muestras de referencia, medir mejoras reales y comparar rendimientos entre unidades —todo ello sin perder de vista que el liderazgo y la adaptabilidad siguen siendo cualitativos.

La lectura del artículo de Danko resulta así un complemento práctico al marco conceptual de Winning the Fight, libro que recomiendo encarecidamente. Mientras que este último nos previene contra la ilusión de la falsa métrica, el primero nos muestra cómo construir indicadores útiles sin caer en ese error. Ambos convergen en un mismo principio: el dato sirve al juicio racional, no al revés.

Traducción:

Letalidad objetiva: por qué la infantería debe adoptar una cultura basada en las métricas

Por el teniente Andrew Danko

En la profesión militar, las corazonadas no bastan.

Manejamos las armas y el equipamiento más avanzados tecnológicamente del mundo, calibrados con extrema precisión. Sin embargo, cuando evaluamos la eficacia en combate de nuestro activo más importante —el marine de infantería—, a menudo recurrimos a valoraciones ambiguas y subjetivas.

Estamos dejando de lado la eficacia letal.

Para forjar una fuerza superior, la infantería del Cuerpo de Marines debe pasar de una cultura de opiniones subjetivas a una de evaluación objetiva. El camino para lograr esta transformación es escalable y factible, pero debe comenzar en los niveles más bajos del liderazgo.

Parte I: Los límites del sistema de aprobado/suspenso: nuestra situación actual

El marco actual del Cuerpo de Marines para garantizar la preparación para el combate se basa en el Manual de Entrenamiento y Preparación (T&R) de cada especialidad profesional. En el caso de la infantería, el NAVMC 3500.44D establece estas normas. Este manual describe las «capacidades básicas» que debe poseer una unidad y las desglosa en miles de «ejercicios» de entrenamiento individuales y colectivos. Cada evento incluye una Lista de Verificación de Evaluación del Desempeño (PECL) correspondiente que describe las condiciones para su finalización satisfactoria. En teoría, esto crea un sistema estandarizado. En la práctica, fomenta una cultura de «marcar casillas» en la que la evaluación es abrumadoramente binaria: una unidad se califica como «Entrenada» o «Sin entrenar».

El defecto fundamental de este sistema es su incapacidad para proporcionar a los líderes los datos necesarios para una gestión genuina del rendimiento. A nivel individual, un jefe de sección 0331 altamente motivado que puede desmontar y volver a montar una M240B con los ojos vendados recibe la misma marca de «Entrenado» que un artillero 0311 recién llegado y con formación cruzada que se esfuerza por completar la tarea con un manual técnico. A nivel de unidad, una Compañía de Fusileros «completa» una tarea de T&R con fuego real simplemente por el hecho de ejecutarla, a menudo sin ningún requisito mínimo de precisión de tiro vinculado a la calificación. Incluso si un comandante con visión de futuro recopila estos datos, la información existe en el vacío.

El resultado es que este modelo de aprobado/suspenso nos priva de cuatro capacidades cruciales que son el propósito mismo de recopilar métricas:

Establecer una referencia: La marca de verificación nos dice que un marine ha aprobado, pero no nos dice qué tan bien. Sin recopilar datos sobre el intento inicial —como el tiempo para desmontar un arma o el porcentaje de aciertos inicial de una unidad en un campo de tiro— no tenemos una referencia objetiva a partir de la cual medir la competencia. No podemos distinguir entre «apenas competente» y «maestría».
Seguimiento de la mejora: Sin una referencia, no disponemos de ningún mecanismo para demostrar de forma tangible un aumento de la competencia a lo largo del tiempo. La mejora sigue siendo anecdótica. No podemos afirmar de forma definitiva que el tiempo de recarga de un marine ha disminuido en un 15 %, o que la precisión de un pelotón ha mejorado en un 25 % durante un bloque de entrenamiento.
Validación del entrenamiento: Si no podemos hacer un seguimiento de la mejora con datos concretos, nunca podremos validar objetivamente la eficacia de un plan de entrenamiento. Un comandante que desarrolla un nuevo programa de tiro siente que es mejor, pero no puede demostrarlo con estadísticas, lo que dificulta justificar su adopción por parte de otras unidades.
Establecimiento de estándares significativos: Sin recopilar y almacenar datos, no podemos calcular promedios para crear estándares basados en datos para individuos (por rango y puesto) o unidades (por escuadrón, pelotón, etc.). Se pierde la capacidad de comparar la Compañía A con la Compañía B, o de ver cómo se sitúan los líderes de equipo de fuego de una unidad frente al promedio del batallón. Esta limitación impide la identificación y la difusión de las mejores prácticas en toda la fuerza.

Esta cultura de evaluación subjetiva se extiende a nuestro nivel más alto de certificación previa al despliegue. El Grupo de Entrenamiento de Operaciones Expedicionarias (EOTG), aunque invaluable, se basa en una metodología de evaluación que aún carece de los datos cuantificables necesarios para demostrar, por ejemplo, que la fuerza de asalto de una MEU es un 15 % más rápida —con un 10 % menos de bajas simuladas— a la hora de asegurar un objetivo que la MEU que se desplegó antes que ella. Nos quedamos con un sistema que nos dice si estamos «entrenados», pero no qué tan bien, cuánto hemos mejorado o cómo nos comparamos realmente con nuestros pares.

Parte II: La solución a nivel micro — Demostrar el concepto

La respuesta a las limitaciones del sistema T&R no es descartarlo, sino complementarlo con una cultura de datos que comience a nivel de pelotón. Como comandante del 2.º Pelotón de la Compañía Kilo, 3.er Batallón, 6.º Regimiento de Marines, puse a prueba esta teoría. Pasamos de preguntarnos «¿hemos aprobado?» a preguntarnos «¿qué tal lo hemos hecho y cómo podemos demostrar que estamos mejorando?».

Para establecer nuestra referencia, nuestro experimento fue sencillo en su diseño. Cronometramos a cada marine mientras realizaba múltiples repeticiones de recargas tanto rápidas como tácticas desde las posiciones de pie, de rodillas y boca abajo. Esto nos permitió calcular un tiempo medio fiable para cada tipo de recarga en cada posición para cada individuo. Este conjunto de datos inicial —mucho más matizado que un simple aprobado/suspenso— se convirtió en nuestro punto de partida objetivo, a partir del cual pudimos calcular los promedios para todo el pelotón, por rango y por puesto.

Con esta referencia, elaboramos un plan de entrenamiento de dos semanas centrado en la repetición deliberada. Lo más importante es que este enfoque basado en datos empoderó a nuestros marines. Durante nuestras clases de «Optimización del peso y carga del equipo de combate», cualquier marine que pudiera demostrar que su configuración de equipo preferida le permitía alcanzar o superar los promedios de recarga del pelotón estaba autorizado a utilizarla. Esto fomentó la implicación, la innovación y un sentido de pertenencia que una simple lista de verificación de T&R nunca podría inspirar.

Los resultados fueron innegables. Al final de las dos semanas, no solo sentíamos que habíamos mejorado, sino que habíamos cuantificado nuestro porcentaje exacto de mejora. Validamos nuestro plan de entrenamiento no con pruebas anecdóticas, sino con cifras frías y contundentes. Este experimento a nivel micro demostró un concepto vital: muchas habilidades de infantería «incuantificables» pueden, de hecho, medirse, y hacerlo genera resultados reales.

Parte III: La visión a nivel macro: de los promedios de pelotón a los estándares de todo el cuerpo

El enfoque basado en datos, probado a nivel de pelotón, alcanza su verdadero potencial cuando se aplica a toda la fuerza. Podemos empezar por utilizar mejor los datos que ya recopilamos. Aunque hoy en día las unidades rara vez comparan los promedios de PFT/CFT, la capacidad está inherente al sistema. Los datos existen para identificar la compañía o el batallón «más en forma», lo que permite a los líderes analizar qué están haciendo esas unidades de alto rendimiento en sus programas de entrenamiento físico y aplicar esas lecciones en otros lugares. Del mismo modo, ya cuantificamos la puntería individual a través de la Calificación Anual de Rifle (ARQ). Pero, ¿cuántos equipos de mando comparan estadísticamente las puntuaciones generales de ARQ de su compañía o batallón con las de sus homólogos para comparar el rendimiento y buscar los programas de entrenamiento más eficaces —demostrados por las propias estadísticas?

Estas métricas existentes, por muy valiosas que sean, tienen una limitación fundamental: miden el rendimiento individual, no la eficacia de combate colectiva. La letalidad de una unidad no es meramente la suma de las puntuaciones ARQ de sus miembros. Esto revela el siguiente paso crítico: debemos empezar a establecer y hacer un seguimiento de las estadísticas que actualmente no se miden. Las habilidades que realmente determinan el resultado de un tiroteo —cómo actúa una unidad colectivamente bajo presión— son las que actualmente no logramos cuantificar.

Esta es la distinción crucial entre la puntería individual y el fuego y la maniobra a nivel de unidad. Una puntuación ARQ no capta nada de esto: ni la capacidad de un equipo de fuego para obtener y mantener la superioridad de fuego, ni la capacidad de una sección para desplazar el fuego, ni la habilidad de un pelotón para distribuir sus armas con el fin de suprimir y neutralizar al enemigo. Para medir esto, necesitamos nuevas métricas. Los modernos sistemas automatizados de objetivos, ya en uso en diversas instalaciones del Cuerpo de Marines, proporcionan las herramientas para capturarlas:

Porcentaje de impactos: La simple relación entre las balas disparadas y las que alcanzan el objetivo en toda la unidad.
Precisión / Letalidad: El porcentaje de impactos dentro de una zona vital e incapacitante, lo que indica la eficacia con la que la unidad concentra su fuego.
Tiempo de supresión: El tiempo transcurrido desde la exposición del objetivo hasta que los primeros disparos impactan en el objetivo o cerca de él, lo que mide la velocidad de la unidad para obtener la superioridad de fuego.

Con este nivel de detalle, podemos ir más allá del modelo de T&R de «aprobado/suspenso» y establecer estándares objetivos y respaldados por datos para la eficacia colectiva en combate. Este enfoque respalda directamente la visión de Force Design 2030, que aboga por una fuerza más avanzada técnicamente y basada en datos.

Imaginemos un «Programa de Análisis de Letalidad» a nivel de división. Al estandarizar los escenarios de campo de tiro, podríamos responder finalmente a preguntas cruciales:

¿Qué es un rendimiento verdaderamente «bueno»? Podríamos establecer el porcentaje medio real de impactos, los estándares de precisión/letalidad y el tiempo de supresión para un pelotón de fusileros en el campo de tiro G-29, basándonos en datos de docenas de unidades. [NOTA de trad: El «campo de tiro G29» se refiere a un campo de tiro y maniobras de instrucción con fuego real, llamado G-29C, que se encuentra en la base del Cuerpo de Marines de EE. UU. en Camp Lejeune, Carolina del Norte. Es una instalación moderna diseñada específicamente para que los infantes de marina entrenen en operaciones de combate a nivel de pelotón, integrando fuego real y movimiento táctico. La «C» en su nombre indica que es una versión de combate, pero su propósito principal es instructivo.]
¿Qué TTP son más eficaces? Si las secciones de un batallón tienen una media del 75 % de aciertos en la zona crítica, mientras que las de otro tienen una media del 60 %, los líderes pueden ordenar a la unidad de alto rendimiento que comparta su plan de entrenamiento de puntería con todo el regimiento.

Este es el futuro: ir más allá de los datos existentes en un micro-ecosistema y construir una infantería que aprenda, se adapte y mejore, basándose en pruebas objetivas.

Parte IV: El imperativo creativo — Medir lo «inmedible»

La transición a una cultura basada en datos no es un problema tecnológico; es un reto de liderazgo que exige creatividad. Para que esto funcione, los líderes, desde el jefe de equipo hasta el comandante de batallón, deben buscar activamente oportunidades para cuantificar habilidades que durante mucho tiempo se han considerado puramente subjetivas. El espíritu debe ser: « Si es crítico para el combate, debe haber una forma de medir nuestra competencia en ello».

Esto no significa que tengamos que reinventar la rueda. Empieza por examinar las herramientas que ya tenemos, como las Listas de Verificación de Evaluación del Rendimiento (PECL) que se encuentran en todos los Manuales de Entrenamiento y Preparación (T&R) del Cuerpo de Marines de EE. UU., y preguntarnos no «¿Se completó la tarea?» sino «¿Qué tan bien se completó?»

Pensemos en una tarea fundamental: solicitar una evacuación de heridos (CASEVAC). Al aplicar de forma creativa métricas a la PECL existente, transformamos una simple lista de verificación en una potente herramienta de recopilación de datos.

Con estos datos, la observación subjetiva «El sargento X envió un buen CASEVAC 9-line» se convierte en una evaluación objetiva: «Desde el punto de la lesión, el sargento X transmitió un 9-line con una precisión del 100 % en 75 segundos, 30 segundos más rápido que la media del pelotón y sin ninguna solicitud de retransmisión». [NOTA del trad: el CASEVAC 9‑Line (o 9‑Line Casualty Evacuation) es un formato estandarizado de solicitud de evacuación de bajas que se transmite por radio. Su objetivo es proporcionar, en nueve líneas numeradas, la información esencial que necesita la unidad de evacuación (ya sea un helicóptero, un vehículo u otro medio) para localizar a los heridos, entender la situación en el lugar y preparar el equipo necesario. Es una herramienta de comunicación universal, diseñada para ser rápida, clara y precisa en el estrés del combate.]

Esta misma mentalidad de aplicar métricas se extiende desde las tareas individuales hasta nuestras acciones de unidad más complejas y dinámicas, donde lo «bueno» se deja con demasiada frecuencia a la interpretación.

Fuego y maniobra de la escuadra: En lugar de limitarse a señalar: «La escuadra fue agresiva», podemos recopilar datos que lo demuestren midiendo métricas como el tiempo de brecha de supresión (el tiempo entre la última ronda del elemento de apoyo y la primera del elemento de maniobra), la velocidad de avance (metros por minuto) y el tiempo de «preparación» del elemento (la rapidez con la que un elemento en movimiento está listo para apoyar el siguiente movimiento).
Superación de obstáculos (alambrada): Una brecha «chapucera» puede ser fatal, pero «chapucera» no es una métrica útil. Podemos medir los componentes de la acción: tiempo de seguridad de la brecha (cuánto tarda la unidad de apoyo en lograr la supresión requerida), tiempo de creación del carril y rendimiento de personal (la tasa de marines que pasan por el carril), lo que identifica cuellos de botella que un simple «pasa/no pasa» dejaría de lado.
Establecimiento de una defensa: Ocupar una posición defensiva es más que simplemente cavar un agujero. Es una carrera contra el propio ciclo de toma de decisiones del enemigo, en la que cada segundo y cada dato cuentan. Podemos medir todo el proceso, desde las acciones individuales hasta la capacidad del pelotón para informar a sus superiores.

Hay que reconocer que ciertas habilidades de infantería, como el juicio táctico o la presencia de liderazgo, siempre pueden contener un elemento subjetivo. El objetivo, entonces, no es perseguir tontamente la cuantificación perfecta en todo, sino reducir sistemáticamente la subjetividad siempre que sea posible. Cuando no es viable utilizar una métrica simple como el tiempo o la precisión, debemos crear criterios de puntuación estandarizados y tangibles —una muestra cuantificable, una rúbrica— que puedan aplicarse de manera coherente en toda la fuerza. Esto garantiza que incluso una «puntuación» cualitativa se base en una comprensión común del rendimiento. Al estandarizar estos criterios de evaluación y, lo que es más importante, al almacenar los datos resultantes, podemos ir más allá del ámbito de las opiniones contradictorias y empezar a seguir las tendencias en el rendimiento, incluso para nuestras habilidades más complejas.

Sin este esfuerzo creativo y deliberado por asignar métricas tangibles a nuestras competencias básicas, nuestra comprensión del rendimiento real de una unidad seguirá siendo subjetiva. La comunidad de infantería permanecerá atrapada en un bucle de opiniones contradictorias, incapaz de demostrar de forma definitiva nuestro progreso.

Esto no es un llamamiento a convertir a los líderes de infantería en científicos de datos, sino un reto para ser más metódicos y objetivos en nuestra preparación para la guerra. El líder que puede cuantificar el rendimiento de su unidad es el líder que puede dirigir su mejora.

Conclusión

Hemos examinado las limitaciones inherentes a nuestra actual cultura de «aprobado/suspenso» y hemos visto cómo un enfoque basado en datos, probado a nivel de pelotón, puede ampliarse a toda la fuerza. No se trata de un argumento a favor de crear más burocracia o de convertir a los líderes de infantería en científicos de datos. Es un argumento a favor de adoptar una cultura de autoevaluación objetiva, en la que «hemos mejorado» ya no sea una opinión, sino un hecho cuantificable.

El futuro de la letalidad de la infantería no vendrá determinado por la unidad que marque más tareas de T&R como «verdes», sino por aquella que pueda demostrar objetivamente su superioridad mucho antes de que se dispare el primer tiro. Las herramientas están disponibles, la metodología es sólida y la necesidad es clara.

El momento de empezar a medir es ahora.

El primer teniente Andrew K. Danko es oficial ejecutivo de la Compañía Kilo, Equipo de Desembarco del 3.º Batallón, 6.º Regimiento de Marines.

Glosario de acrónimos y términos militares

Término / Acrónimo (inglés)	Significado en inglés	Traducción / Equivalente en español
ARQ	Annual Rifle Qualification	Calificación Anual de Fusil
Bn	Battalion	Batallón
CASEVAC	Casualty Evacuation	Evacuación de Bajas
CFT	Combat Fitness Test	Prueba de Aptitud Física de Combate
CO	Commanding Officer	Oficial Comandante / Comandante de Unidad
CP	Command Post	Puesto de Mando
EOTG	Expeditionary Operations Training Group	Grupo de Entrenamiento de Operaciones Expedicionarias
FDC	Fire Direction Center	Centro de Dirección de Tiro (no aparece explícito, pero se infiere en contexto de apoyo de fuegos)
FFL	Final Protective Line	Línea de Protección Final (defensa)
GCE	Ground Combat Element	Elemento de Combate Terrestre
KIA	Killed in Action	Muerto en Combate
LCPL	Lance Corporal	Soldado de primera / Cabo segundo (en algunos ejércitos)
MEU	Marine Expeditionary Unit	Unidad Expedicionaria de Marines
METL	Mission Essential Task List	Lista de Tareas Esenciales de la Misión
MEF	Marine Expeditionary Force	Fuerza Expedicionaria de Marines
PECL	Performance Evaluation Checklist	Lista de Verificación de Evaluación del Desempeño
PFT	Physical Fitness Test	Prueba de Aptitud Física
PLC	Platoon	Pelotón (aunque PLC no es acrónimo estándar, se usa en contexto)
SGT	Sergeant	Sargento
T&R	Training and Readiness (Manual)	Manual de Entrenamiento y Disponibilidad Operativa
TRP	Target Reference Point	Punto de Referencia de Tiro / Punto de Referencia del Blanco
TTP	Tactics, Techniques, and Procedures	Tácticas, Técnicas y Procedimientos
USMC	United States Marine Corps	Cuerpo de Marines de los Estados Unidos

Nota sobre rangos (USMC vs. ejércitos hispanohablantes)

USMC	Equivalente aproximado en español
Lance Corporal (LCPL)	Soldado de primera / Cabo
Corporal (CPL)	Cabo
Sergeant (SGT)	Sargento
CWO5 (Chief Warrant Officer 5)	Oficial Técnico Superior (rango asimilable a comandante o teniente coronel en algunos ejércitos)

Adoptar una cultura basada en las métricas

Introducción y contexto

Traducción:

Parte I: Los límites del sistema de aprobado/suspenso: nuestra situación actual

Parte II: La solución a nivel micro — Demostrar el concepto

Parte III: La visión a nivel macro: de los promedios de pelotón a los estándares de todo el cuerpo

Parte IV: El imperativo creativo — Medir lo «inmedible»

Conclusión

Glosario de acrónimos y términos militares

Nota sobre rangos (USMC vs. ejércitos hispanohablantes)

Comentarios

Deja una respuesta

Más entradas

La Cultura de siempre para los desafíos de mañana

Dennis Perkins, maestro del liderazgo

Core competences frente a la incertidumbre y la volatilidad, un ejemplo del uso inteligente de destrezas low tech.

Fast16: el arma cibernética que se adelantó cinco años a Stuxnet

Del Espectro Electromagnético a la empresa