Por qué la IA olvida: la ventana de contexto explicada
Le pasaste a la IA tu catálogo completo, tus políticas y tres páginas de instrucciones. Las primeras respuestas son perfectas. Veinte mensajes después contesta como si nunca le hubieras dicho que no atendés los domingos. No se rompió: se le cayó del contexto.
La IA olvida porque tiene una ventana de contexto limitada: solo puede tener en cuenta una cantidad fija de texto a la vez, medida en tokens. Cuando la conversación o el documento superan ese límite, lo más viejo se descarta y el modelo deja de tenerlo presente. Entender este límite es la diferencia entre una IA que parece conocer tu negocio y una que se contradice sola.
Este es un satélite de la guía completa de context engineering: acá explicamos el límite que explica casi todos los olvidos.
Qué es la ventana de contexto, en simple
La ventana de contexto es la memoria de trabajo del modelo: la cantidad máxima de texto que puede considerar de una sola vez al responder. Se mide en tokens, donde un token es aproximadamente tres cuartos de una palabra.
Para 2025 y 2026, los modelos grandes llegan al millón de tokens de ventana —Gemini, Claude y GPT entre otros— mientras que modelos más chicos rondan los 200.000. Suena enorme, y lo es. Pero capacidad declarada no es lo mismo que capacidad confiable, y ahí está la trampa.
Pensalo como un escritorio: por más grande que sea, si lo llenás de papeles, encontrar el que importa se vuelve difícil. La diferencia entre el prompt y todo lo que rodea a la tarea la desarrollamos en ingeniería de contexto vs prompt engineering.
Token, palabra, página: la equivalencia que conviene tener clara
Cuando un proveedor te dice "200.000 tokens", el número no significa nada hasta que lo traducís a tu realidad. La regla práctica: un token equivale a unas tres cuartas partes de una palabra en inglés, y un poco menos en español por los acentos y palabras más largas. En la práctica:
| Capacidad declarada | Palabras aprox. | Páginas aprox. |
|---|---|---|
| 8.000 tokens | 6.000 | 12 |
| 128.000 tokens | 96.000 | 190 |
| 200.000 tokens | 150.000 | 300 |
| 1.000.000 tokens | 750.000 | 1.500 |
Esa tabla explica por qué un único manual entra cómodo en cualquier modelo moderno, pero tu base completa de catálogo, políticas, historial de clientes y conversaciones no: ahí es donde el límite empieza a morder.
Por qué el contexto se "gasta" en una charla
Hay un detalle que confunde a casi todos: la ventana no se llena solo con lo que vos cargás al inicio, se llena con toda la conversación. Cada pregunta tuya y cada respuesta de la IA se acumulan dentro de la misma ventana. Una charla larga de atención al cliente, con veinte idas y vueltas, consume contexto mensaje a mensaje. Llega un punto en que, para hacerle lugar a lo nuevo, el modelo descarta lo viejo —y lo viejo era justo la instrucción de que no atendés los domingos.
El límite real es menor al que dice la etiqueta
Acá está el dato que casi nadie te cuenta: un modelo que promete 200.000 tokens suele volverse poco confiable alrededor de los 130.000, es decir que casi el 35% de su capacidad declarada no rinde como dice la etiqueta. Y la caída no es gradual: llega de golpe.
Y hay un patrón peor: la IA recuerda mejor lo que está al principio y al final del texto, y tiende a perder lo del medio. En pruebas de recuperación, el rendimiento puede caer más del 20% cuando el dato clave queda enterrado en el centro de un contexto largo. A este fenómeno se lo conoce como "lost in the middle" y está documentado en los análisis de ventanas de contexto de AIMultiple. No es que la IA sea tonta: su atención no se reparte pareja a lo largo de las miles de palabras que le pasás.
Eso tiene una consecuencia práctica directa: dónde ubicás la información importa tanto como cuánta le das.
La curva en U que define qué se recuerda
Si dibujaras qué tan bien la IA recuerda cada parte de un texto largo, no te daría una línea plana: te daría una U. El comienzo se recuerda muy bien, el final también, y el medio se hunde. Para tu negocio, eso significa algo concreto: una política crítica metida en el párrafo 40 de un documento de 80 párrafos tiene muchas más chances de "perderse" que la misma política puesta en el primer o el último párrafo.
La consecuencia operativa es contraintuitiva: si tenés un dato que la IA no puede olvidar nunca —"no se hacen reembolsos después de 30 días", por ejemplo— no lo escondas en el medio de un manual prolijo. Repetilo al inicio y al final. La prolijidad de un documento humano no es la prolijidad que necesita un modelo.
Más tokens no es la solución
La tentación es obvia: si olvida, metele más capacidad. Pero más ventana de contexto no garantiza mejor uso de la información. Volcar todo tu negocio en un prompt gigante muchas veces empeora las respuestas, porque lo crítico queda enterrado en el medio donde el modelo menos mira.
Comparemos los dos caminos:
| Enfoque | Qué hacés | Riesgo | Cuándo conviene |
|---|---|---|---|
| Contexto largo | Volcás todo en la ventana | "Lost in the middle", costo alto | Documentos chicos y autocontenidos |
| Recuperación selectiva | Traés solo lo relevante a cada pregunta | Requiere diseño previo | Bases de conocimiento grandes |
| Contexto diseñado | Ordenás lo crítico al inicio y al final | Trabajo de armado | Casi siempre, en producción |
La comparación entre traer todo o recuperar solo lo justo la desarrollamos en RAG vs contexto largo para tu negocio.
El costo escondido de llenar la ventana
Hay una segunda razón para no volcar todo, y es de plata. Los modelos cobran por token procesado, así que cada consulta que arrastra un contexto gigante cuesta más que una que trae solo lo necesario. Si tu IA responde 1.000 consultas por día y cada una carga 50.000 tokens de relleno en vez de 5.000 de contexto justo, estás pagando diez veces de más por el mismo resultado —o peor, porque el relleno empeora la respuesta.
La regla es simple: cada token que no aporta a la respuesta es un token que cuesta plata y empuja lo importante hacia el medio donde se pierde. Menos contexto, bien elegido, casi siempre gana.
Cómo diseñar para que no olvide
La solución no es técnica de fuerza bruta, es de diseño. Ordenás el contexto para que la IA tenga lo importante donde mejor lo procesa. Los pasos que funcionan:
- Identificá la información crítica que la IA no puede olvidar nunca.
- Ubicala al principio o al final del contexto, nunca enterrada en el medio.
- Recortá todo lo irrelevante: cada token de relleno empuja lo importante.
- Usá recuperación selectiva para bases grandes en vez de volcar todo.
- Repetí las reglas no negociables al inicio y al cierre del contexto.
El 91% de las pymes que usan IA reporta resultados mejores cuando el sistema conoce su contexto, pero ese conocimiento depende del diseño, no de la cantidad de texto. Diseñar el contexto es exactamente lo que separa una IA que parece de tu negocio de una que improvisa.
De prompts sueltos a un sistema que recuerda
El salto de calidad no viene de un prompt más largo, viene de tratar el contexto como un sistema. Eso significa decidir qué información va siempre, qué se trae según la pregunta, y en qué orden. Cómo pasar del prompt suelto a ese sistema lo desarrollamos en prompts para tu negocio: del prompt al sistema de contexto. El cambio de mentalidad es ese: dejar de pelear contra el olvido con más texto y empezar a ganarle con mejor diseño.
Si querés un sistema de IA que mantenga tu contexto sin contradecirse —datos, reglas e historia ordenados como corresponde— en martinpavon.com lo diseñamos a medida de tu negocio.
Preguntas frecuentes
¿Por qué la IA se olvida de lo que le dije antes?
Porque tiene una ventana de contexto limitada: solo puede tener en cuenta una cantidad fija de texto a la vez. Cuando la conversación supera ese límite, lo más viejo se cae y la IA deja de tenerlo presente.
¿Qué es la ventana de contexto de una IA?
Es la cantidad máxima de texto, medida en tokens, que el modelo puede considerar de una vez al responder. Hoy los modelos grandes llegan al millón de tokens, pero su rendimiento confiable suele ser menor.
¿La IA recuerda igual de bien todo lo que está en su contexto?
No. Recuerda mejor lo que está al principio y al final del texto, y tiende a perder lo del medio. A este patrón se lo llama 'lost in the middle' y afecta a todos los modelos largos.
¿Sirve de algo agrandar la ventana de contexto?
Hasta cierto punto. Aunque un modelo declare 200.000 tokens, su rendimiento puede empezar a caer cerca de los 130.000. Más capacidad no garantiza que use bien todo lo que le metés, y además cada token de más cuesta plata.
¿Cómo evito que la IA pierda información clave en mi negocio?
Diseñando el contexto: ponés lo crítico al principio o al final, recortás lo irrelevante y usás recuperación selectiva en vez de volcar todo. Eso es ingeniería de contexto, no más tokens.
