O ajuste fino é o processo pelo qual um modelo de aprendizado de máquina, previamente treinado em uma tarefa geral usando um grande corpus de dados (pré-treinamento), é adaptado ou especializado para uma tarefa específica através de treinamento adicional em um conjunto de dados menor e direcionado.
No contexto dos LLMs, isso significa pegar um modelo como GPT-2, Llama 3, Mistral ou Qwen — treinado em bilhões de páginas da web de texto — e ajustá-lo para responder perguntas de suporte técnico, gerar descrições de produtos, traduzir jargão jurídico para linguagem simples, ou até adotar um tom específico, humorístico ou formal.
O ajuste fino não começa do zero. O modelo já possui conhecimento geral de linguagem, gramática, raciocínio básico e alguma capacidade inferencial. O ajuste fino "ensina" o modelo a aplicar esse conhecimento de maneira específica e contextualizada alinhada com um objetivo concreto.
Apesar do seu poder, o ajuste fino completo (full fine-tuning) dos LLMs modernos apresenta desafios técnicos e econômicos que o tornam inviável para a maioria dos desenvolvedores, pesquisadores independentes e pequenas empresas. Esses desafios podem ser resumidos em três dimensões críticas:
Os LLMs atuais variam em tamanho de centenas de milhões a centenas de bilhões de parâmetros. Durante o treinamento, cada parâmetro deve ser armazenado na memória da GPU (VRAM) como um número de ponto flutuante de 32 bits (FP32) ou 16 bits (FP16/BF16). Isso implica:
Assim, treinar um modelo de 7B pode facilmente requerer 56 GB de VRAM ou mais, necessitando de múltiplas GPUs de alto desempenho (por exemplo, A100 ou H100) executando em paralelo.
Treinar um LLM completo envolve realizar milhões de operações matemáticas por passo de otimização. Mesmo com hardware acelerado, o tempo de treinamento pode se estender por dias ou semanas, dependendo do conjunto de dados e do tamanho do modelo. Isso se traduz em custos na nuvem que podem exceder centenas ou milhares de dólares por experimento.
Quando todos os parâmetros do modelo são atualizados durante o ajuste fino, há um risco significativo de que o modelo "esqueça" o conhecimento geral adquirido durante o pré-treinamento, especialmente se o conjunto de dados de ajuste fino for pequeno ou não representativo do conhecimento geral. Esse fenômeno, conhecido como esquecimento catastrófico, pode degradar drasticamente o desempenho do modelo em tarefas não relacionadas à especialização.