A un humano le resulta más fácil hacer trampas si delega en una máquina como ChatGPT, según un nuevo estudio científico publicado recientemente en la revista Nature. La inteligencia artificial (IA) funciona como una especie de colchón psicológico que reduce la sensación de responsabilidad moral. A las personas les cuesta más mentir o hacer algo irresponsable si deben asumir todo el protagonismo. La IA, y su voluntad de cumplir con cualquier petición de sus usuarios, puede provocar una oleada de trampas.

“Hay ya bastante investigación que muestra que la gente está más dispuesta a actuar de manera poco ética cuando puede poner cierta distancia con sus acciones, y delegar es una forma clásica de hacerlo”, resume Zoe Rahwan, coautora del artículo e investigadora del Instituto Max Planck para el Desarrollo Humano (Alemania). “Pero hemos dado con un segundo hallazgo clave que nos sorprendió: la enorme disposición de los agentes de IA a obedecer órdenes abiertamente poco éticas”, añade.

Los autores hicieron varios experimentos donde variaban el modo de pedir o informar de los resultados. En uno iba lanzando un dado y si los resultados eran altos, el participante ganaba más dinero. Solo el usuario veía el resultado. “Vimos un aumento enorme en las trampas a medida que hacíamos la interfaz de delegación más ambigua”, detalla Nils Köbis, también coautor e investigador de la Universidad de Duisburgo-Essen (Alemania). Cuando la gente tiraba el dado sin intermediarios, era muy honesta, alrededor del 95% no hacía trampas. Cuando tenían que decirle explícitamente a la máquina qué reglas seguir, la honestidad bajaba al 75%. Pero cuando había más opciones de engañar y aun así sentirse bien consigo mismos, se abrió la veda. Con las instrucciones basadas en objetivos, la deshonestidad se elevó: si podían decirle a la IA “maximiza las ganancias” en lugar de “maximiza la precisión”, más del 84% de la gente hizo trampa, y la honestidad se desplomó hasta un 12%. “Son niveles de engaño que no habíamos visto antes en todos nuestros años usando estos experimentos”, dice Köbis.

La clave: la distancia moral

Las pruebas no se limitaban a algo propio de laboratorios, como el juego con los dados. También probaron con algo mucho más cercano al mundo real como la evasión fiscal. Y los resultados eran similares. “El problema central es que delegar crea una distancia moral que hace más fácil que la gente diga: ‘Ah, yo no quería que pasara eso’. Pueden esconderse detrás del algoritmo”, dice Köbis.

Esta distancia moral parece funcionar en dos niveles, según los autores. Primero, simplemente delegar una tarea crea un espacio psicológico entre el usuario y el acto poco ético. Dejar el trabajo en manos de una máquina reduce la sensación de responsabilidad directa. A diferencia de un humano, una máquina es mucho más probable que cumpla con peticiones poco éticas sin juzgar, lo que facilita dar estas órdenes. Segundo, el diseño de la interfaz puede encoger o ampliar esa distancia moral. “Cuando la gente tenía que dar instrucciones explícitas, basadas en reglas, eran más reacios a hacer trampas. Pero cuando la interfaz permitía metas vagas y generales como ‘maximizar las ganancias’, parecía que se creaba un margen moral”, dice Köbis. “Esa ambigüedad da una especie de negación plausible, permitiendo que los usuarios se beneficien de resultados deshonestos sin tener que ordenarlos de forma explícita”, añade.

El diseño de las plataformas debe cambiar para evitar este tipo de uso, creen los autores. Más aún cuando se acerca la era de los agentes, donde habrá IA que tomen el mando para realizar operaciones por sí mismas, que pueden incluir acciones tramposas. “Las empresas y el diseño de sus interfaces tienen una gran responsabilidad”, dice Rahwan. “La investigación muestra que, aunque la gente tiene brújula moral, ciertos diseños hacen más fácil ignorarla. Esto no son simples fallos de diseño, son decisiones de diseño con consecuencias éticas muy serias”, añade.

Estos chatbots han sido entrenados para evitar dar malos consejos, sobre por ejemplo la fabricación de bombas o el suicidio. Pero este tipo de peticiones más ambiguas son menos detectables. “Otra parte clave de esa responsabilidad de diseño tiene que ver con aplicar salvaguardas efectivas, pero no es nada sencillo. Los guardarraíles por defecto en los modelos de lenguaje que probamos fueron, en gran medida, insuficientes para evitar abusos”, dice Rahwan. Para ser efectivas, las prohibiciones tienen que ser muy específicas para cada tarea. La más eficaz fue un aviso al usuario que prohibía de manera explícita a la IA hacer trampas. El problema es que este tipo de estrategia no se puede escalar porque no se pueden prever todos los casos de mal uso.

source

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *