Saltar al contenido principal

Agencia y agentes

Hace 2,400 años, Aristóteles observó algo que rompió con todo lo que enseñaba su maestro. Sócrates creía que nadie hace el mal voluntariamente — que si sabes qué es lo bueno, haces lo bueno. Aristóteles miró a su alrededor y dijo: no. Las personas saben qué es lo bueno y aun así eligen otra cosa. Le puso nombre: akrasia (ἀκρασία) — debilidad de la voluntad. Y con eso inauguró una pregunta que la humanidad todavía no ha resuelto: si sé qué debo hacer, ¿por qué no lo hago?

Aristóteles también nos dio la palabra que vertebra este capítulo: agencia. En filosofía, un agente es un ser con la capacidad de actuar intencionalmente en el mundo — de percibir su entorno, deliberar y ejecutar acciones con propósito. Para Aristóteles, la agencia era inseparable de la libertad: actuar voluntariamente, con conocimiento de las circunstancias y por razones propias, es lo que nos distingue de los objetos que simplemente reaccionan a fuerzas externas.

La brecha intención-acción

La psicología moderna le puso números a lo que Aristóteles vio. Décadas de investigación sobre la brecha intención-acción (intention-action gap) demuestran que tus intenciones conscientes — esas decisiones que tomas con claridad y convicción — solo predicen entre el 18% y el 23% de lo que realmente terminas haciendo (Armitage & Conner, 2001; McEachan et al., 2011, 2016). El otro ~80% de tu comportamiento viene de hábitos automáticos, señales ambientales, estados emocionales, fatiga acumulada y contexto social. Fuerzas que operan debajo de tu conciencia.

Un meta-análisis de 2023 lo puso en perspectiva brutal: la traducción exitosa de una intención positiva en comportamiento real está casi al nivel del azar (Rhodes et al., 2023). Incluso cuando logras que una persona quiera mucho más hacer algo, ese aumento masivo en intención casi no mueve la aguja de que lo haga (d = 0.15; Rhodes & Dickau, 2012).

¿Por qué? Porque tu cerebro no es una unidad coherente. Es un comité donde varios sistemas compiten: el sistema automático (rápido, emocional, reactivo), el sistema deliberado (lento, racional, agotable), la bioquímica, el contexto social y — crucialmente — el diseño del entorno. Tu intención de ahorrar compite contra una app de delivery diseñada para que compres con un toque. Tu intención de comer bien compite contra un supermercado que pone los dulces en la caja. Tu intención de organizar tus finanzas compite contra extractos bancarios diseñados para que no entiendas cuánto estás pagando en comisiones.

Janet Polivy y C. Peter Herman de la Universidad de Toronto formalizaron esto como el Síndrome de Falsa Esperanza (2000, 2002): un ciclo donde decides cambiar, te sientes bien por decidir (la dopamina viene con la decisión, no con la acción), fallas en la ejecución, te culpas, y eventualmente decides cambiar otra vez. Las personas repiten el mismo propósito de año nuevo un promedio de 10 veces en su vida.

La industria de autoayuda — que mueve miles de millones de dólares al año — vende la solución equivocada: más información, más motivación, más fuerza de voluntad. Un estudio de la Universidad de Washington encontró que de personas voluntariamente inscritas en un programa, solo el 20% leyó el libro completo y apenas un 2-4% cumplió con todas las sugerencias. Leer sobre cambiar se siente como cambiar. El cerebro no distingue bien entre planear una acción y ejecutarla.

El problema nunca fue la falta de información. El problema es que la agencia humana — esa capacidad de actuar con propósito — se quiebra cuando el sistema donde opera es más complejo de lo que la mente puede gestionar.

Del pensamiento a la máquina

La filosofía nos dio el concepto de agencia. La informática lo extrapoló.

En 1956, un grupo de investigadores se reunió en el Dartmouth College y acuñó el término inteligencia artificial. No fue un logro técnico — fue una declaración de intenciones: construir máquinas que piensen. Lo que siguió fueron décadas de prototipos que, vistos hoy, parecen primitivos pero plantearon las preguntas correctas.

ELIZA (1964-1966), creada por Joseph Weizenbaum en el MIT, simulaba un psicoterapeuta usando reconocimiento de patrones. No entendía nada — solo devolvía las palabras del usuario reformuladas como preguntas. Pero algo inesperado ocurrió: las personas que interactuaban con ELIZA le atribuían comprensión genuina, le confiaban problemas reales, se emocionaban. Weizenbaum quedó perturbado. Lo llamaron el efecto ELIZA — la tendencia humana a proyectar inteligencia sobre sistemas que simplemente responden.

ELIZA - 1966, MIT

> Me siento cansado todo el tiempo.
¿Por qué dices que te sientes cansado todo el tiempo?

> Porque siento que nada de lo que hago es suficiente.
¿Te preocupa que nada de lo que haces sea suficiente?

> Sí, especialmente con mi familia.
Cuéntame más sobre tu familia.

> Mi madre siempre espera más de mí.
¿Tu madre espera más de ti?

Durante las décadas que siguieron, la IA avanzó en dominios cerrados — jugar ajedrez, clasificar imágenes, recomendar productos — pero chocaba siempre contra el mismo muro: el lenguaje natural. Entender lo que una persona dice, con su ambigüedad, su contexto implícito y sus mil formas de decir lo mismo, era un problema que ninguna arquitectura lograba resolver bien. Y sin entender lenguaje, una máquina no puede recibir instrucciones abiertas, razonar sobre situaciones nuevas ni decidir qué hacer ante un problema que nadie previó. Podía ejecutar reglas — pero no podía pensar qué regla aplicar.

Eso cambió con una sola idea.

La revolución Transformer

El 12 de junio de 2017, ocho investigadores de Google Brain y la Universidad de Toronto publicaron un artículo con un título que se leía casi como un manifiesto: "Attention Is All You Need" (Vaswani et al., 2017). Presentado en NeurIPS 2017, el paper introdujo la arquitectura Transformer — un modelo basado enteramente en mecanismos de atención que eliminaba la necesidad de redes recurrentes (RNN) y convolucionales (CNN) para procesar secuencias de texto.

La idea central era elegante: en lugar de procesar una oración palabra por palabra (como hacían las RNN), el Transformer mira todas las palabras simultáneamente y calcula la relevancia de cada una respecto a las demás. Esa operación — la auto-atención (self-attention) — permitió entrenar modelos masivamente paralelos y, por primera vez, escalar el procesamiento del lenguaje a dimensiones antes impensables. Los resultados fueron inmediatos. La arquitectura Transformer se convirtió en la base de prácticamente todos los modelos de lenguaje que vinieron después.

ModeloFechaHito
GPT-1Junio 2018OpenAI demuestra que un Transformer pre-entrenado puede resolver tareas diversas. 117 millones de parámetros
ChatGPTNoviembre 2022GPT-3.5 afinado con retroalimentación humana (RLHF). 100 millones de usuarios en dos meses. La IA deja de ser un tema de laboratorio
LLaMAFebrero 2023Meta publica pesos abiertos. Democratiza el acceso y desata una explosión de modelos derivados
Claude 3.5 SonnetJunio 2024Anthropic posiciona el modelo que cambió la escritura de código: 49% en SWE-bench, superando a modelos más grandes y caros
DeepSeek-R1Enero 2025Modelo de razonamiento open-source (licencia MIT) entrenado por ~$6M. Iguala a OpenAI o1. NVIDIA pierde $589,000M en un día
Gemini 3 ProNoviembre 2025Google lanza su modelo más potente en esos entonces: 100% en AIME 2025, 76% en SWE-bench.
Qwen 3.5Febrero 2026Alibaba libera un modelo multimodal nativo de 397,000M de parámetros (17,000M activos por inferencia), 1M de tokens de contexto, 201 idiomas. Open-weight y diseñado para agentes

Lo que hoy vivimos es una carrera geopolítica. Estados Unidos lidera con modelos propietarios de alto rendimiento — OpenAI, Anthropic, Google — mientras China responde con una estrategia distinta: modelos open-source, eficientes y baratos.

Las restricciones de exportación de chips estadounidenses, diseñadas para frenar a China, están teniendo el efecto opuesto, obligando a los ingenieros chinos a optimizar cada token, cada operación, cada dólar de entrenamiento.

De la respuesta a la acción: lo que hace a un agente ser un agente

Cuando ChatGPT llegó a finales de 2022, el mundo descubrió lo que un modelo de lenguaje podía hacer. Pero durante buena parte de 2023, la mayoría de modelos aún no tenían function calling — la capacidad que convierte a un modelo de lenguaje en un agente. Es decir, la capacidad de llamar funciones. Es decir, herramientas.

En escencia un agente es exactamente eso: un modelo de lenguaje que se ejecuta en un entorno con herramientas. Los agentes, dirigidos por LLMs, reciben el prompt del usuario, observan el listado de herramientas que tienen a su disposición y deciden cuáles usar y cómo.

Sin function calling, un LLM solo puede responder con texto. Puede contestar preguntas de historia, explicar conceptos de física, escribir un poema o resumir un documento — pero todo lo que produce sale de lo que aprendió durante su entrenamiento, no de datos en tiempo real. Le preguntas cuánto gastaste este mes y no puede saberlo — no tiene acceso a tu banco. Le preguntas el clima y responde con lo que parece correcto, no con lo que es correcto ahora. Y a veces, con total confianza, dice cosas parcialmente o completamente falsas — lo que se conoce como alucinaciones. Es un modelo estadístico del lenguaje: predice la siguiente palabra más probable, no verifica hechos. Puede decir cualquier cosa, pero no puede hacer nada.

El camino hacia function calling empezó con dos investigaciones. En octubre de 2022, Shunyu Yao et al. publicaron ReAct, un método donde el modelo alterna entre razonar y actuar — por ejemplo, consultar una API de Wikipedia para verificar un dato antes de responder, en lugar de inventarlo (publicado en ICLR 2023). En febrero de 2023, Timo Schick et al. (Meta AI) publicaron Toolformer, un modelo que aprendió por sí mismo cuándo necesitaba una herramienta externa y cómo invocarla con los argumentos correctos.

Hoy la palabra IA está en todos lados y el concepto de agentes flota alrededor de ella. Pero la mayoría de lo que se vende como "agente" no lo es. Un filtro de email que mueve mensajes a carpetas no es un agente — es automatización: reglas fijas que siguen un guión predefinido. Si pasa X, haz Y. Siempre. Sin variación.

Un agente es otra cosa. Recibe un objetivo y decide cómo alcanzarlo. Razona sobre la situación, elige qué herramientas usar, ejecuta acciones, observa los resultados y ajusta su estrategia si algo falla.