Sesgos predictivos y polticas de Estado: la dualidad entre precisin y recall

Los modelos predictivos no son necesariamente de inteligencia artificial; los usamos todo el tiempo para tomar decisiones, ya sea con la ayuda de analistas, nuestro propio aprendizaje o mediante estadsticas. En el mundo de la IA, la eficacia de un modelo predictivo se mide mediante varias mtricas, siendo dos de las ms importantes la precisin y el recall. Para comprender cmo estos conceptos influyen tanto en la tecnologa como en la toma de decisiones polticas, es fundamental entender primero qu significan y cmo se aplican.
La precisin es una medida de cuntas de las predicciones positivas de un modelo son realmente correctas. Es decir, de todas las veces que el modelo dice que algo va a suceder, cuntas veces realmente sucede. Por otro lado, el recall mide cuntas de las instancias realmente positivas fueron identificadas por el modelo, o en otras palabras, cuntas veces el modelo encuentra correctamente los casos que quera identificar.
Estos conceptos estn ampliamente usados en todas las ramas de la ciencia. Por ejemplo, en medicina, para evaluar la eficacia de un estudio de diagnstico, se utilizan medidas similares llamadas sensibilidad (equivalente a recall) y especificidad (equivalente a precisin). La sensibilidad indica cuntos de los casos reales de la enfermedad son correctamente identificados por el estudio, mientras que la especificidad mide cuntos de los resultados negativos son correctos o sea no detectar un caso positivo cuando en realidad s lo era. En estadstica, se habla de errores tipo I y tipo II, que corresponden a los falsos positivos y falsos negativos respectivamente. Un error tipo I ocurre cuando se rechaza una hiptesis verdadera (equivalente a baja precisin), y un error tipo II ocurre cuando no se detecta una hiptesis falsa (equivalente a bajo recall).
Dependiendo del contexto y la aplicacin del modelo predictivo, puede ser ms beneficioso priorizar una mtrica sobre la otra. Por ejemplo, en un modelo de prediccin de cncer, preferimos centrarnos en el recall. Esto es porque, ante la mnima sospecha, es crucial que el paciente consulte a su mdico para evitar pasar por alto un posible caso de cncer. En contraste, si estamos desarrollando un sistema de deteccin de spam en correos electrnicos, es ms importante centrarse en la precisin para asegurar que los correos legtimos no sean marcados incorrectamente como spam y no se nos llene la casilla de correo con basura.
No slo los modelos de IA utilizan estas mtricas, sino tambin los modelos predictivos empleados por analistas polticos, fuerzas policiales y empresas. En cualquier caso, el peligro es no medir adecuadamente el desempeo de estos modelos.
Un caso ilustrativo es el del presidente Nayib Bukele en El Salvador. Su administracin enfrent altos ndices de violencia y adopt un enfoque de alto recall, donde ante la mnima sospecha, se detena a individuos para reducir la violencia. Esta estrategia puede ser efectiva a corto plazo, ya que el indicador de violencia baja rpidamente. No obstante, muchos inocentes pueden ser detenidos injustamente.
Un ejemplo ms reciente y cercano es el movimiento de gnero en Argentina, donde la sociedad presiona al estado para que se tomen acciones drsticas contra la violencia de gnero. Ante la exigencia de que no ocurra ni un caso ms de feminicidio, se prioriza el recall, tomando acciones que, aunque necesarias para proteger a las vctimas, pueden generar injusticias al acusar o detener a personas basndose en sospechas, invirtiendo la carga de la prueba.
Sin embargo, al observar las estadsticas oficiales del Sistema Nacional de Informacin Criminal (SNIC) de Argentina para 2022, vemos que el 82,3% de las vctimas de homicidios dolosos fueron hombres, mientras que las mujeres representaron el 17,7%. En trminos de suicidios, los hombres representaron el 78,9% de las vctimas. Estos datos indican que la violencia afecta a hombres y mujeres de diferentes maneras y que enfocarse nicamente en la violencia de gnero puede ser una visin sesgada cuando hay otros problemas graves que tambin requieren atencin.
Es importante reconocer que no existe una medida equivalente de violencia de gnero contra los hombres, lo cual introduce un sesgo en la percepcin y abordaje de la violencia. Los datos muestran que los hombres son las principales vctimas de homicidios y suicidios, por lo que las polticas pblicas deben ser inclusivas y abordar todas las formas de violencia de manera equilibrada.
As como en la inteligencia artificial, en la administracin pblica y en las polticas empresariales, el equilibrio entre precisin y recall es delicado y crucial. Los modelos predictivos deben ser medidos adecuadamente con las herramientas adecuadas para evitar decisiones equivocadas que pueden tener consecuencias significativas.
La bsqueda de soluciones efectivas debe considerar cuidadosamente las implicaciones de cada enfoque. Priorizar una mtrica sobre la otra puede tener consecuencias significativas, y es responsabilidad de los lderes, analistas y cientficos encontrar el equilibrio adecuado para servir mejor a la sociedad. Si en todos los campos cientficos entendemos la importancia de medir estos indicadores y de tratar de alcanzar un punto intermedio, por qu no aplicamos lo mismo en las polticas de estado? Sera beneficioso poder medir con indicadores concretos, pblicos y transparentes, en lugar de oscilar de un extremo al otro.