Como decíamos en el último párrafo del artículo anterior, la IA Generativa está mostrando que no es tan fácil de implementar como se vendía y que los datos con los que ha de operar necesitan estar mucho más curados para que las decisiones vía algoritmos sean adecuadas, proporcionadas y justas. A los llamados datos sintéticos, tan viejos como los algoritmos mismos y con sus claroscuros como ellos, Gartner los ubica en el abismo de la desilusión no por innecesarios, sino por el recorrido que todavía necesitan para ser una opción con menos fisuras y al que se ha de llegar invirtiendo en la tríada AI TRisSM (Trust, Risk & Security). Traducido a RR.HH. significa construir un modelo de gobernanza adaptado a los casos de uso previstos, que dé confianza a las partes sobre el cumplimiento normativo del modelo vía transparencia de su diseño, su aprendizaje y su uso, y que sea coherente con los valores de responsabilidad social corporativa. Así las cosas, “gobernar” la IA desde RR.HH. es preparar a la organización para trabajar con ella construyendo, en paralelo, la arquitectura de gestión de datos adecuada para que esa nueva forma de trabajar con ella funcione. Es decir, primero (y después de saber para qué es útil aplicar Ia IA Gen) hay que revisar herramientas, procesos y toma de decisiones, y luego organizar los datos sabiendo cuáles se necesitan y con qué fin.
El estudio de Gartner revela que el proceso ha sido a la inversa: mucha inversión en datos, mucho dato sintético para equilibrar infrarrepresentaciones y mucho etiquetado neutro para minimizar sesgos, y todo para acabar constatando que nada de ello asegura, a fecha de hoy, el cumplimiento normativo.
¿Pero qué son los datos sintéticos? Básicamente datos que parecen reales pero que no lo son. Los crean los científicos de datos en su interacción con RR.HH. y su función es la de complementar la información con la que opera el algoritmo, llenando lagunas de infrarrepresentatividad, por ejemplo, de mujeres respecto de hombres en los perfiles STEM o de colectivos vulnerables. Puesto que los modelos de IA aprenden de los datos, la principal función de los sintéticos es que lo hagan de la manera más equilibrada posible. ¿Es tan fácil como parece? Lamentablemente no. De hecho, es tan complejo como entender en sí mismo el concepto de equidad.
Trasladar la equidad a una base de datos significa encontrar la representatividad adecuada de la información que queremos considerar.
Beneficios y riesgos de los datos sintéticos
Los datos sintéticos pueden ayudar a aumentar la diversidad de escenarios simulando diferentes trayectorias profesionales, experiencias laborales o niveles de formación de los colectivos menos representados, lo que le permite al modelo entrenarse no solo con los perfiles reales disponibles, sino con un espectro más amplio y más representativo de la realidad social. Y también son un aliado para la protección de la privacidad, ya que en lugar de replicar los pocos ejemplos reales de personas de grupos vulnerables, pueden crear otros que no correspondan a individuos concretos, reduciendo riesgos de exposición de datos sensibles.
Pero para conseguir todo ello han de sortear no pocos riesgos:
- En su afán por igualar la representatividad de los diferentes colectivos pueden generar perfiles que no existen en el mercado laboral. Por ejemplo: de personas con discapacidad o mujeres en STEM en proporciones idealizadas que no corresponden a la oferta real.
- Al generarse a partir de datos pueden “aprender” de los patrones mayoritarios o sesgos históricos que éstos contengan. Por ejemplo: reforzar los sesgos de contratación por género si no son debidamente equilibrados.
Además, los datos sintéticos también han de cumplir con normativas como el AI Act europeo o la LOPD/GDPR, que exigen explicar cómo se entrenan los modelos, y cuya trazabilidad y transparencia son también necesarias de cara a las auditorías tanto internas como externas que se imponen como obligatorias (y sobre las que todavía no hay información acerca de sus requerimientos).
Más allá de todo esto, poco se habla de que en RR.HH. la confianza es un factor clave, tanto en la relación con los candidatos como con los empleados y sus representantes. ¿Cómo se puede percibir un proceso de selección mediado por un algoritmo entrenado con datos no reales? ¿Puede ponerse en riesgo su legitimidad? ¿Y qué decir de la validez del funcionamiento práctico del algoritmo más allá de su efectividad en el laboratorio? ¿Y si ha sido entrenado para identificar la “idoneidad cultural” con datos sintéticos sin tener en cuenta las complejidades de una entrevista real?
Los riesgos de los datos sintéticos son los riesgos de los datos en general y el quid de la cuestión está en cómo se define, en el team RR.HH-científicos de datos, la equidad en ellos.
