PEFT (Parameter-Efficient Fine-Tuning) é um conjunto de técnicas que permitem adaptar modelos grandes atualizando apenas uma pequena fração de seus parâmetros enquanto mantém o resto congelado. Isso reduz drasticamente os requisitos de memória, acelera o treinamento e mitiga o risco de esquecimento catastrófico.
O princípio fundamental do PEFT é simples: nem todos os parâmetros do modelo precisam ser atualizados para que o modelo aprenda uma nova tarefa. Em muitos casos, introduzir pequenas modificações estruturadas — como matrizes de baixo rank, camadas adaptadoras ou mudanças de ativação — é suficiente para guiar o modelo para o comportamento desejado.
PEFT não é um método único, mas uma família de técnicas que inclui:
Entre estas, LoRA e QLoRA são atualmente as mais populares e amplamente adotadas na comunidade, graças à sua simplicidade, eficácia e excelente suporte em bibliotecas como Hugging Face PEFT.
| Característica | Ajuste Fino Completo | PEFT (LoRA/QLoRA) |
|---|---|---|
| Parâmetros Treináveis | 100% | ~0.1% - 1% |
| Requisito de VRAM | Muito Alto (dezenas de GB) | Baixo a Moderado (pode ser executado em 16GB) |
| Tempo de Treinamento | Longo | Curto a Moderado |
| Risco de Esquecimento Catastrófico | Alto | Baixo |
| Portabilidade do Modelo | Todo o modelo deve ser salvo | Apenas os parâmetros PEFT são salvos (arquivos pequenos) |
| Reusabilidade do Modelo Base | Não é possível diretamente | Sim: múltiplos adaptadores podem ser carregados no mesmo modelo base |
PEFT é ideal nos seguintes cenários:
PEFT não é recomendado quando: