Imagina que quieres enseñarle a una computadora a entender una oración como:
"El gato saltó sobre la cerca porque vio un pájaro."
Antes de 2017, los modelos más populares para entender lenguaje eran las Redes Neuronales Recurrentes (RNNs) y sus variantes mejoradas, como las LSTM (Long Short-Term Memory) y las GRU (Gated Recurrent Units).
Estas redes funcionaban como una cinta transportadora de palabras: procesaban una palabra a la vez, en orden, y mantenían una especie de "memoria" o "estado oculto" que intentaba recordar lo que había visto antes.
🔹 Analogía útil:
Piensa en una persona leyendo un libro con los ojos vendados, y que solo puede tocar una letra a la vez con un dedo. Mientras avanza, intenta recordar mentalmente lo que ha leído hasta ahora para entender el significado completo. ¡Es agotador, lento, y fácilmente se olvida del principio cuando llega al final!
A pesar de su popularidad, las RNNs tenían tres grandes limitaciones:
Cuando una oración es muy larga, la RNN "olvida" las primeras palabras. Por ejemplo:
"En la granja de mi abuelo, donde pasé todos mis veranos de niño, había un perro llamado Toby, que... [20 palabras después]... extraño mucho."
Cuando el modelo llega a "extraño mucho", ya perdió la conexión con "Toby". Este fenómeno se llama desvanecimiento del gradiente (vanishing gradient) — técnicamente complejo, pero conceptualmente: la información se "diluye" con el tiempo.
Como solo puede procesar una palabra a la vez, no se puede paralelizar. En una GPU con miles de núcleos, esto es un desperdicio enorme. ¡Como tener un auto de F1… pero obligado a ir en primera marcha!
La RNN solo "mira hacia atrás". No puede ver la palabra que viene después para entender mejor la actual. En muchos casos, el significado de una palabra depende de lo que viene luego.
Ejemplo: "Fui al banco a depositar dinero..." vs "Fui al banco del río a pescar..."
Solo con el contexto posterior ("depositar dinero" o "del río") se entiende qué "banco" es.
En diciembre de 2017, un equipo de investigadores de Google publicó un artículo que cambiaría para siempre la IA:
"Attention Is All You Need" — Vaswani et al., 2017
Este artículo introdujo una arquitectura radicalmente nueva: el Transformer.
Y su gran idea fue simple, pero revolucionaria:
"¿Y si en lugar de leer palabra por palabra, leemos toda la oración a la vez… y permitimos que cada palabra 'pregunte' a todas las demás cuál es su relevancia para entenderla?"
Esto es lo que se llama el mecanismo de atención.
Y con eso, nació una nueva era.
El Transformer resolvió los tres grandes problemas de las RNNs:
✅ Memoria de largo plazo perfecta:
Como procesa todas las palabras juntas, no hay desvanecimiento. Cada palabra puede "mirar" a cualquier otra, sin importar la distancia.
✅ Procesamiento paralelo:
Como no depende del orden secuencial, se puede procesar toda la oración a la vez. ¡Aprovecha al 100% las GPUs!
✅ Contexto bidireccional (en algunos casos):
Cada palabra puede ver tanto lo anterior como lo posterior. Esto permite entender ambigüedades con mucha más precisión.
Piensa en una oración larga donde el significado de una palabra al principio dependa de una palabra al final. Escríbela. Luego, imagina cómo una RNN y un Transformer la procesarían. ¿Cuál tendría más facilidad? ¿Por qué?
RNN:
[Palabra 1] → [Palabra 2] → [Palabra 3] → ... → [Palabra N]
↘ ↘ ↘ ... ↘
Estado → Estado → Estado → ... → Estado
Transformer:
[Palabra 1] [Palabra 2] [Palabra 3] ... [Palabra N]
↘_________↙_________↘_________↙_________↘
ATENCIÓN: Todas se comunican entre sí
Las RNNs fueron los héroes de su época, pero tenían limitaciones estructurales. El Transformer no solo fue una mejora incremental — fue un cambio de paradigma. Y todo gracias a una idea aparentemente simple: la atención.
En el próximo módulo, vamos a destripar esa idea: ¿qué es la atención? ¿cómo funciona? ¿por qué es tan poderosa?