El ajuste fino es el proceso mediante el cual un modelo de aprendizaje automático, previamente entrenado en una tarea general utilizando un corpus de datos grande (preentrenamiento), se adapta o especializa para una tarea específica mediante entrenamiento adicional en un conjunto de datos más pequeño y específico.
En el contexto de los LLMs, esto significa tomar un modelo como GPT-2, Llama 3, Mistral o Qwen — entrenado con miles de millones de páginas web de texto — y ajustarlo para responder preguntas de soporte técnico, generar descripciones de productos, traducir jerga legal a lenguaje sencillo, o incluso adoptar un tono específico humorístico o formal.
El ajuste fino no comienza desde cero. El modelo ya posee conocimiento general del lenguaje, gramática, razonamiento básico y cierta capacidad inferencial. El ajuste fino "enseña" al modelo a aplicar ese conocimiento de manera específica y contextualizada alineada con un objetivo concreto.
A pesar de su poder, el ajuste fino completo (full fine-tuning) de los LLMs modernos presenta desafíos técnicos y económicos que lo hacen inviable para la mayoría de desarrolladores, investigadores independientes y pequeñas empresas. Estos desafíos pueden resumirse en tres dimensiones críticas:
Los LLMs actuales varían en tamaño desde cientos de millones hasta cientos de billones de parámetros. Durante el entrenamiento, cada parámetro debe almacenarse en la memoria de la GPU (VRAM) como un número de punto flotante de 32 bits (FP32) o 16 bits (FP16/BF16). Esto implica:
Por lo tanto, entrenar un modelo de 7B puede requerir fácilmente 56 GB de VRAM o más, necesitando múltiples GPUs de alto rendimiento (por ejemplo, A100 o H100) ejecutándose en paralelo.
Entrenar un LLM completo implica realizar millones de operaciones matemáticas por paso de optimización. Incluso con hardware acelerado, el tiempo de entrenamiento puede extenderse durante días o semanas, dependiendo del conjunto de datos y el tamaño del modelo. Esto se traduce en costos en la nube que pueden exceder cientos o miles de dólares por experimento.
Cuando todos los parámetros del modelo se actualizan durante el ajuste fino, existe un riesgo significativo de que el modelo "olvide" el conocimiento general adquirido durante el preentrenamiento, especialmente si el conjunto de datos de ajuste fino es pequeño o no representativo del conocimiento general. Este fenómeno, conocido como olvido catastrófico, puede degradar drásticamente el rendimiento del modelo en tareas no relacionadas con la especialización.