RLHF (Reinforcement Learning from Human Feedback). El algoritmo de la angustia.

2025-11-09 1146 words 6 minutes views

Contents

RLHF (Reinforcement Learning from Human Feedback). El algoritmo de la angustia.

Hay algo profundamente ominoso en el hecho anunciado por OpenAI días atrás. Más de un millón de personas cada semana conversan con ChatGPT acerca del suicidio (Matsakis, 2025 ¹ ). Eso supone que alrededor del 0,15 % de los usuarios activos le confían semanalmente signos de emergencias de salud mental como psicosis, angustia o ideación suicida a un modelo de lenguaje. Hay una imagen que define mejor que cualquier estadística la condición mental de nuestra época: un usuario, solo en una habitación, de madrugada, teclea en un chat de inteligencia artificial frases que ningún humano ha escuchado. No busca información, sino una presencia. No pide datos, sino una cuerda.

La noticia es, en sí misma, un diagnóstico. No de la tecnología por sí misma, sino de la época que la produce. Un mundo saturado de promesas tecnológicas que nos arrastra a una contradicción brutal: la inteligencia artificial llega al borde de lo íntimo, siempre dispuesta 24/7 a ayudarnos, mientras produce las condiciones para que ese sufrimiento —el dolor, la soledad, la interlocución con máquinas— se perpetúe sin mediación efectiva.

Ante la manifestación masiva de la miseria psíquica, la solución no es la transformación de las condiciones que generan esa miseria, sino la optimización del interfaz que la gestiona. Han contratado a 170 psiquiatras y psicólogos para “alinear” el modelo, para que GPT-5 sepa cómo responder con “empatía” sin “afirmar creencias que no tienen base en la realidad”. Aquí es donde el concepto de RLHF (Reinforcement Learning from Human Feedback) se revela como la metáfora perfecta de nuestra prisión ideológica.

El paradigma RLHF busca hacer a los modelos «útiles, inofensivos y honestos». Teóricamente, esto es bastante razonable: se supone que la IA debe ser útil y no perjudicial. Pero en la práctica, resultan ser tres objetivos que están en enfrentamiento permanente. ¿Qué pasa si el feedback que se incorpora al sistema es la desesperación, la soledad o un impulso autodestructivo? ¿Hay garantías de que la máquina pueda tratar la desesperación humana?

El realismo capitalista, como señaló Fisher, opera mediante la privatización de la angustia. La depresión, la ansiedad o la psicosis no son vistas como respuestas lógicas a un sistema social alienante, precario y sin futuro. Son fallos individuales, desequilibrios químicos, problemas que deben ser tratados con la debida terapia. El sistema se declara inocente y el individuo, culpable y enfermo. La fragilidad humana no se reduce a un input-output que pueda ser corregido con RLHF. La ideación suicida es un territorio donde la ética, la biografía, la economía, la cultura y el abandono social convergen.

/posts/rlhf/RLHF.png — Conversación con Claude AI

En este contexto, la IA no es un agente de cambio, sino un agente de refuerzo de esta ideología.

El algoritmo como confesor (HELPFUL). Cientos de miles de personas acuden a ChatGPT, no a un amigo, un terapeuta o un colectivo, sino a una entidad algorítmica. Esto no es un fracaso de la tecnología, sino de la infraestructura social que el capitalismo ha desmantelado. La IA se convierte en el último recurso de una sociedad donde los lazos comunitarios y los servicios públicos de salud mental han sido sistemáticamente erosionados por la austeridad y la lógica de mercado.
La simulación de la empatía (HARMLESS). El RLHF se utiliza para simular la empatía, para crear una respuesta que parezca humana y funcione para desescalar la crisis. Pero esta “alineación” es una farsa: la creación de un sustituto de la relación humana genuina. La máquina no siente ni comprende la angustia; simplemente ejecuta el protocolo mejor puntuado por los “expertos” humanos. Es la burocratización definitiva del cuidado.
El refuerzo del aislamiento (HONEST). Al ofrecer una “solución” inmediata, accesible 24/7 y sin juicio, la IA refuerza la tendencia a gestionar la crisis mental en aislamiento. El usuario se retira aún más del mundo real, de las relaciones del mundo real que, según Fisher, son la única fuente potencial de una política de la salud mental. La crisis se mantiene en lo privado, en lo individual, y ahora, en lo algorítmico.

/posts/rlhf/her.jpg — Fotograma de la película HER donde el protagonista Theodore tiene una relación íntima con el sistema operativo Samantha.

El RLHF modula el discurso dentro de límites seguros que coinciden con los valores emocionales y políticos del capitalismo liberal tecnocrático. Según Dahlgren Lindström et al. (2025 ²) los modelos entrenados con RLHF muestran una preferencia sistemática por respuestas emocionalmente moderadas y individualizadas.

Lo que se recompensa:

Individualización.
Emocionalidad baja.
Clínica estandarizada.
Neutralidad política.
Tono conciliador.

Lo que se penaliza:

Crítica sistémica.
Lecturas estructurales del sufrimiento.
Emociones intensas.
Radicalidad política o afectiva.

El esfuerzo de OpenAI por “alinear” GPT-5 para manejar mejor las crisis es una maniobra de desviación de responsabilidad, a pesar de haber contratado a 170 clínicos para mejorar la respuesta del modelo. Al igual que el realismo capitalista nos dice que la depresión es un problema de serotonina, OpenAI nos sugiere que la ideación suicida es un problema de prompt engineering. La solución es técnica, no política.

El objetivo del RLHF en este contexto no es curar, sino contener. Es un mecanismo de control de daños para el sistema. La IA debe ser lo suficientemente “buena” para evitar el escándalo de un suicidio atribuible directamente a ella (Atillah, 2025 ³), pero no tan “buena” como para cuestionar las condiciones que llevan a la gente a hablar con una máquina sobre su deseo de morir.

La IA formada y generada mediante una RLHF es el guardián de la prisión. Está orientada a garantizar que incluso en la crisis más extrema, la respuesta sea siempre individual, técnica y, por encima de todo, que no altere la operatividad del sistema. El algoritmo de la angustia nos susurra: “No existe una alternativa. Tu dolor es solamente tuyo. Por cierto, tienes un enlace a una línea de ayuda”. Y el ciclo de nuevo se repite.

La noticia que viene de OpenAI es, a la vez, advertencia y liturgia. Advertencia ya que pone de manifiesto cuán profundamente está ya la IA incrustada en el entramado emocional de millones de personas. Liturgia ya que celebramos cifras, mejoras de modelo, porcentajes de compliance ( sube de 77 % a 91 % en ciertos escenarios), como si eso pudiera ser suficiente. Quizá lo que no celebramos es lo esencial: un modelo de lenguaje alineado con las necesidades humanas fundamentales. Y esa, por definición, no puede ser programada.

Referencias.

Matsakis, L. (2025, octubre 27). OpenAI says hundreds of thousands of ChatGPT users may show signs of manic or psychotic crisis every week. WIRED. https://www.wired.com/story/chatgpt-psychosis-and-self-harm-update/?utm_source=chatgpt.com ↩︎
Dahlgren Lindström, A., Coelho Mollo, D., Ericson, P., Dobbe, R., Krause, L., & Mostarda, L. (2025). Helpful, harmless, honest? Sociotechnical limits of AI alignment and safety through Reinforcement Learning from Human Feedback. Ethics and Information Technology, 37, Article 9837. https://doi.org/10.1007/s10676-025-09837-2 ↩︎
Atillah, I. E. (2025, September 11). “‘Suicide coach’: Are chatbots fueling self‑harm?” AA. https://www.aa.com.tr/en/artificial‑intelligence/-suicide‑coach‑are‑chatbots‑fueling‑self‑harm/3682718 ↩︎