Dominando Técnicas Basadas en Agentes: Personalización de Agentes de IA

Los agentes de IA autónomos están asumiendo todo tipo de trabajo para las empresas: enrutando flotas logísticas, clasificando tickets de soporte, generando código y orquestando flujos de trabajo de múltiples pasos. ¿Cómo tomas un modelo de propósito general y lo haces destacar en tu tarea específica? La personalización proporciona al agente las capacidades adecuadas.

Esta publicación explica nueve técnicas para personalizar agentes de IA, junto con criterios para seleccionar las técnicas correctas para tu caso de uso. Para aprender sobre la evaluación de agentes de IA, consulta Dominando Técnicas Agénticas: Evaluación de Agentes de IA.

¿Por qué es necesario personalizar un agente de IA?

Los modelos de fundación cuentan con amplias capacidades de lenguaje y razonamiento para diversos casos de uso y modalidades, basadas en los conjuntos de datos de entrenamiento utilizados. Los modelos entienden el lenguaje y pueden seguir instrucciones, pero los flujos de trabajo especializados a menudo requieren contexto restringido, especializado o propietario.

Personalizar un agente resuelve este desafío moldeando cómo el agente razona bajo restricciones, qué herramientas selecciona, cómo estructura sus outputs y con qué fiabilidad ejecuta los flujos de trabajo del dominio.

¿Qué técnicas se utilizan para la personalización de agentes?

Las técnicas de personalización de agentes van desde simples cambios de prompt hasta técnicas avanzadas como el aprendizaje por refuerzo (RL), cada una con compromisos en costo, complejidad y capacidad. El mejor enfoque depende de si necesitas mejor información, instrucciones o un comportamiento fundamentalmente más fiable. Las siguientes secciones cubren los principales enfoques.

Ingeniería de prompts y prompts de sistema

La ingeniería de prompts solo requiere cambiar el prompt al agente en el momento de la inferencia. Es la técnica más accesible y típicamente la primera que se aplica para personalizar el comportamiento del agente. Los agentes estándar pueden requerir ajuste humano de los prompts de sistema. Los agentes avanzados y auto-evolutivos como OpenClaw utilizan prompts que son actualizados por el propio agente a medida que revisa la memoria e instrucciones a lo largo del tiempo, lo que resulta en un agente que se personaliza a sí mismo.

Cómo funciona

Escribes un prompt de sistema que define el rol del agente, las herramientas disponibles, el formato de output y las restricciones de comportamiento. El modelo sigue estas instrucciones usando sus capacidades existentes.

El siguiente es un ejemplo de prompt de sistema:

You are an expert CLI assistant. Translate user requests into structured JSON tool
calls. Respond with ONLY a JSON object. Set unused flags to null.

Cuándo usar

Iterar rápidamente sobre el comportamiento del agente
Trabajar en una tarea personalizada que se describe claramente en lenguaje natural
Crear prototipos o experimentar antes de invertir más

Limitaciones

Los prompts pueden volverse frágiles para cadenas de razonamiento complejas
El rendimiento se degrada a medida que las instrucciones se vuelven más largas y detalladas
El modelo puede no seguir consistentemente requisitos de formato complejos
No amplía las capacidades fundamentales del modelo
Cambiar el modelo que impulsa el agente requiere volver a probar los prompts

Todo proyecto de agente requiere ingeniería y refinamiento iterativo de prompts. Sin embargo, lograr que el agente produzca outputs estructurados de forma fiable, siga lógica específica del dominio o maneje casos extremos puede requerir refinamiento adicional. Ten en cuenta que los agentes auto-evolutivos refinan sus propios prompts usando un harness.

Generación aumentada por recuperación (RAG)

La generación aumentada por recuperación (RAG) resuelve la limitación de conocimiento de los modelos de fundación recuperando dinámicamente información relevante y actualizada de fuentes de conocimiento externas (como bases de datos vectoriales). Este contenido recuperado fundamenta al agente en el momento de la inferencia, cuando se inyecta en el contexto del modelo. Esto reduce significativamente las alucinaciones y permite responder preguntas sobre dominios personalizados, propietarios o en rápida evolución sin reentrenamiento del modelo.

Cómo funciona

Cuando un usuario consulta el sistema de agente, el sistema busca en una base de datos vectorial o almacén de documentos datos relevantes para la consulta. El contenido recuperado se envía junto con la consulta del usuario al modelo, que razona sobre ambos y devuelve una respuesta fundamentada.

Cuándo usar

Dar al agente acceso a conocimiento actualizado o propietario
Reducir las alucinaciones fundamentando las respuestas en fuentes autorizadas
Trabajar con una base de conocimiento que cambia frecuentemente y donde el reentrenamiento sería impracticable

Limitaciones

Añade latencia debido a la recuperación
No añade nuevas capacidades de razonamiento, solo nueva información sobre la que razonar
Los límites de la ventana de contexto restringen cuánta información recuperada se puede usar

El RAG estándar está evolucionando cada vez más hacia RAG agéntico, donde el agente decide de forma autónoma qué documentos recuperar, qué consultas reformular y cuándo ha reunido suficiente información. Para una experiencia de codificación interactiva en tu navegador, consulta el módulo de aprendizaje Cómo Crear una Aplicación RAG Agéntica.

Inyección de herramientas y habilidades en el agente

La inyección de herramientas y habilidades amplía las capacidades de un agente proporcionándole herramientas o habilidades:

Herramientas: Funciones invocables que interactúan con software externo
Habilidades: Instrucciones específicas del dominio para completar tareas

Estos componentes modulares y reutilizables facilitan la personalización de un modelo de propósito general para dominios especializados sin modificar sus pesos subyacentes.

Cómo funciona

Herramientas como búsqueda web, E/S de archivos, ejecución de shell y llamadas a API se definen en el prompt de sistema o contexto del agente. Las habilidades, que pueden incluir instrucciones, scripts y recursos, se cargan en el contexto del agente.

El siguiente ejemplo de directorio de archivos muestra dónde podría ubicarse una habilidad para el triaje de incidentes:

skills/
  incident-triage/
    SKILL.md
    README.md
    scripts/
      collect_logs.sh
      parse_logs.py
      summarize_findings.py
    templates/
      triage_report.md
    examples/
      sample_incident.json

El archivo SKILL.md podría tener el siguiente aspecto:

# Skill: Incident Triage (Log Collection + Summary)

## Purpose
Collect diagnostic logs for a given service, extract key error signals, and produce a short
triage report with:
- suspected root cause(s)
- top error signatures
- timeline highlights
- immediate next steps

## When to Use
Use this skill when the user asks to:
- investigate an outage / regression
- summarize logs for a service between two timestamps
- produce a quick incident report

## Inputs (Required)
- service_name: string (e.g., "payments-api")
- start_time: ISO8601 string (e.g., "2026-03-05T10:00:00Z")
- end_time: ISO8601 string (e.g., "2026-03-05T11:00:00Z")

## Inputs (Optional)
- environment: string (default "prod")
- log_source: string (default "journald")  # could be "file", "cloud", etc.
- output_dir: string (default "./out")
- redact: boolean (default true)

## Outputs
- {output_dir}/raw_logs.txt
- {output_dir}/events.jsonl
- {output_dir}/summary.md

## Workflow
1) Collect logs:
   - Run `scripts/collect_logs.sh` to fetch raw logs for the time window
2) Parse logs into structured events:
   - Run `scripts/parse_logs.py` to emit JSONL events (timestamp, level, message, signature)
3) Summarize:
   - Run `scripts/summarize_findings.py` to produce a markdown report using `templates/triage_report.md`

## Commands (How to Call)
### Step 1: Collect
bash scripts/collect_logs.sh \
  --service payments-api \
  --start "2026-03-05T10:00:00Z" \
  --end "2026-03-05T11:00:00Z" \
  --env prod \
  --out ./out/raw_logs.txt

Cuándo usar

Ampliar lo que un agente puede hacer, no cómo razona
Conectar el sistema de agente a software externo, APIs u otros componentes de terceros
Proporcionar al agente capacidades modulares y combinables

Limitaciones

El modelo requiere la llamada a herramientas como capacidad base
La orquestación compleja de herramientas puede requerir fine-tuning para mayor fiabilidad
Las definiciones de habilidades consumen espacio en la ventana de contexto

Fine-tuning supervisado (SFT)

El fine-tuning supervisado (SFT) sirve para modificar el comportamiento de un modelo preentrenado ajustando los pesos del modelo con conjuntos de datos etiquetados. A diferencia de las técnicas anteriores que personalizan el comportamiento del agente en el momento de la inferencia, el SFT se realiza en el momento del entrenamiento, modificando el comportamiento subyacente del modelo.

Cómo funciona

Ensamblas un conjunto de datos de ejemplos — cada uno con una entrada (una solicitud en lenguaje natural) y el output ideal (como una llamada a herramienta JSON estructurada). El modelo se entrena con estos ejemplos, aprendiendo a replicar el comportamiento demostrado.

Las herramientas de generación de datos sintéticos (SDG) como NVIDIA NeMo Data Designer pueden acelerar este proceso, especialmente en dominios con pocos recursos donde los ejemplos etiquetados manualmente son escasos. En lugar de crear manualmente cada ejemplo de entrenamiento, los equipos pueden definir un esquema de datos y usar LLMs para generar pares de entrenamiento diversos y de alta calidad. Luego, realiza el SFT usando ese conjunto de datos generado con un framework avanzado de fine-tuning como el framework NVIDIA NeMo.

Cuándo usar

Trabajar con datos accesibles para tareas bien definidas con ejemplos de output
Personalizar un modelo para un dominio con pocos recursos donde los ejemplos etiquetados son limitados y se pueden generar datos sintéticos de alta calidad para inicializar el conjunto de datos de fine-tuning
Requerir que el modelo produzca de forma fiable formatos de output específicos (esquemas JSON, llamadas a herramientas, datos estructurados)

Limitaciones

La calidad depende completamente de la calidad de los datos de entrenamiento; el modelo aprende a imitar, para bien o para mal
Puede producir overfitting en la distribución de entrenamiento si los datos no son suficientemente diversos (olvido catastrófico)
Necesita recursos de cómputo para el entrenamiento

El SFT es a menudo el primer paso basado en entrenamiento en un pipeline de personalización de agentes. Establece un comportamiento de línea base que los métodos de alineación posteriores pueden refinar.

Fine-tuning eficiente en parámetros (PEFT)

El fine-tuning completo, como en un modelo de 9.000 millones de parámetros, requiere recursos significativos de GPU para ajustar todos los pesos. Los métodos de fine-tuning eficiente en parámetros (PEFT), como Low-Rank Adaptation (LoRA) y Quantized Low-Rank Adaptation (QLoRA), describen un tipo de mecanismo de actualización que puede usarse con SFT para congelar la mayoría de los pesos del modelo mientras solo se modifica una fracción mínima de los parámetros.

Este enfoque mantiene la mayoría de los beneficios del entrenamiento completo mientras reduce drásticamente la sobrecarga de almacenamiento para múltiples modelos de IA especializada. El PEFT es ahora el estándar para el fine-tuning práctico de agentes.

Cómo funciona

LoRA inyecta pequeñas matrices entrenables en las capas de atención y feed-forward del modelo. En lugar de actualizar todos los parámetros de un modelo grande, solo entrenas una pequeña fracción. Por ejemplo, NVIDIA Nemotron 3 Nano tiene 30.000 millones de parámetros totales con ~3.500 millones activos por pasada. Con LoRA, el gran modelo base permanece igual, y cambias diferentes adaptadores para diferentes tareas, dominios o clientes.

QLoRA extiende esto cuantizando el modelo base a precisión de 4 bits, permitiendo el fine-tuning de modelos que de otro modo excederían la memoria de GPU disponible. En la práctica, elegir SFT usando LoRA es un camino rápido hacia una personalización útil sin el costo total del fine-tuning.

Un modelo que requeriría múltiples GPUs de alta gama para el fine-tuning completo a menudo puede ajustarse con LoRA en una sola GPU. Esto democratiza la personalización para equipos sin grandes presupuestos de cómputo.

Cuándo usar

Trabajar con recursos de GPU limitados
Mantener múltiples versiones especializadas de un modelo base
Requerir iteraciones rápidas y ciclos de entrenamiento ágiles

Limitaciones

Reentrenar una subsección de los pesos del modelo limita el grado de cambio posible (techo de calidad)

Direct Preference Optimization (DPO)

Mientras que el SFT imita buenos ejemplos, el Direct Preference Optimization (DPO) entrena el modelo en comparaciones de preferencias por pares. La señal de preferencia puede provenir de anotadores humanos, un juez LLM, verificadores basados en reglas o datos de preferencia generados sintéticamente, ya que el DPO es agnóstico a la fuente de la señal de preferencia. Las señales de preferencia eliminan la necesidad de un modelo de recompensa separado, a diferencia del aprendizaje por refuerzo a partir de retroalimentación humana (RLHF), lo que hace al DPO efectivo como paso de refinamiento después de que existe una línea base SFT.

Cómo funciona

Recopilas o generas pares de respuestas para la misma entrada: una preferida y una rechazada. Estos pares pueden producirse manualmente, seleccionarse de interacciones reales de usuarios o generarse con flujos de trabajo de generación de datos sintéticos.

Por ejemplo, en un dominio con pocos recursos, un LLM puede generar respuestas candidatas y etiquetas de preferencia según una rúbrica, esquema o verificador; luego los humanos pueden revisar o auditar muestras de los resultados para garantizar la calidad. El algoritmo DPO asigna mayor probabilidad a las respuestas preferidas usando una pérdida contrastiva por pares, maximizando la log-probabilidad relativa de la respuesta preferida sobre la rechazada.

Cuándo usar

Usar calidad de respuesta subjetiva (tono, estilo, utilidad, seguridad)
Trabajar con múltiples outputs válidos donde algunos son mensurablemente mejores que otros
Requerir alineación con preferencias sin la complejidad del RLHF completo
Refinar aún más la calidad del output tras realizar el SFT

Limitaciones

Requiere pares de preferencia de alta calidad, ya sean creados por humanos o sintéticos
Los datos de preferencia sintéticos pueden codificar sesgos del juez, rúbricas débiles o ejemplos poco realistas si no se validan
Menos efectivo para tareas con respuestas correctas estrictamente verificables

Aprendizaje por refuerzo (RL)

Las técnicas de aprendizaje por refuerzo (RL) comprenden una subclase del aprendizaje automático. Las siguientes técnicas son variaciones del RL que pueden usarse específicamente para personalizar agentes y los LLMs que los impulsan.

Aprendizaje por refuerzo a partir de retroalimentación humana (RLHF)

El RLHF es una de las técnicas más poderosas, aunque más intensivas en recursos, para alinear los modelos de lenguaje con las preferencias humanas. Utiliza un proceso en dos etapas: primero, entrenar un modelo de recompensa (una red neuronal separada) para predecir las preferencias humanas y, luego, usar ese modelo como juez automatizado para puntuar los outputs durante el entrenamiento de RL. Esto ayuda a capturar criterios de calidad sutiles como el tono, la utilidad y la seguridad.

Cómo funciona

Los anotadores humanos clasifican los outputs del modelo por calidad. Estas clasificaciones entrenan un modelo de recompensa que predice las preferencias humanas. Luego, el agente se entrena usando un algoritmo de RL para maximizar las puntuaciones del modelo de recompensa mientras permanece cerca de su comportamiento original.

Cuándo usar

Coordinar objetivos complejos de alineación que no pueden capturarse con métricas simples
Trabajar con recursos sustanciales de anotación humana
Requerir modelado de comportamiento sutil (seguridad, utilidad, evitación de daños)

Limitaciones

Implementación compleja — requiere gestionar múltiples modelos simultáneamente (por ejemplo, política, referencia, recompensa, crítico)
Computacionalmente costoso y propenso a inestabilidades de entrenamiento
El modelo de recompensa puede manipularse o especificarse incorrectamente (reward hacking)

Aprendizaje por refuerzo con recompensas verificables (RLVR)

Los enfoques al estilo RLHF dependen de modelos de recompensa aprendidos, que son costosos de entrenar y pueden ser imprecisos o manipulables. El proceso y el sistema de diseño de modelos de recompensa son extensos. Para tareas con respuestas claramente correctas o incorrectas — como JSON válido, llamadas a API correctas o pruebas aprobadas — el aprendizaje por refuerzo con recompensas verificables (RLVR) puede proporcionar señales de recompensa auditables y repetibles a partir de verificadores fiables que reducen parte de la ambigüedad derivada de estos modelos de recompensa aprendidos.

Cómo funciona

En lugar de entrenar un modelo de recompensa a partir de preferencias humanas, el RLVR utiliza funciones de verificación deterministas que pueden evaluar objetiva y transparentemente la corrección de un output.

Considera un agente entrenado para traducir lenguaje natural a comandos CLI. Una función de verificación analiza el output JSON del modelo, comprueba si el comando es correcto, compara cada flag con los valores esperados y calcula una puntuación de recompensa precisa:

Coincidencia exacta: Recompensa = +1,0
Comando correcto, flags parciales: Recompensa proporcional a la precisión de las flags
Comando incorrecto o JSON inválido: Recompensa = -1,0

Este enfoque es utilizado por NVIDIA NeMo Gym, que proporciona endpoints de verificación que puntúan los outputs del modelo contra el ground truth durante el entrenamiento.

Cuándo usar

Trabajar con una tarea que tiene outputs correctos objetivamente verificables (datos estructurados, comandos CLI, código, razonamiento matemático, llamadas a herramientas)
Requerir señales de recompensa transparentes y auditables
Necesitar mejorar la calidad del razonamiento, más allá de las capacidades de respuesta superficiales

Limitaciones

Solo aplicable a tareas con criterios de corrección deterministas
No adecuado para generación creativa, subjetiva o abierta
Requiere construir infraestructura de verificación (aunque frameworks como NeMo Gym simplifican esto)

El RLVR es una técnica clave detrás de las capacidades de razonamiento revolucionarias de DeepSeek-R1, demostrando que las recompensas verificables pueden enseñar a los modelos estrategias sofisticadas de resolución de problemas — a veces incluso sin ningún fine-tuning supervisado como punto de partida. Bibliotecas abiertas como NVIDIA NeMo RL y NeMo Gym ayudan a los desarrolladores a entrenar a escala.

Group Relative Policy Optimization (GRPO)

El Group Relative Policy Optimization (GRPO) es un algoritmo eficiente de optimización de políticas que se combina de forma natural con el RLVR. Genera múltiples completions por prompt y reemplaza la red crítica del PPO con una línea base relativa al grupo para guiar la mejora. Esto reduce la sobrecarga computacional, manteniendo el entrenamiento estable y efectivo.

Cómo funciona

Para cada prompt de entrenamiento, el GRPO genera múltiples completions (típicamente de 4 a 64) a partir de la política actual. Cada completion es puntuada por la función de recompensa. En lugar de usar una red crítica para estimar líneas base (como hace el PPO), el GRPO calcula la ventaja de cada completion normalizando su recompensa con respecto a la media y desviación estándar del grupo. Las completions con ventaja superior a la media se refuerzan; las que están por debajo se suprimen.

Cuándo usar

Aplicar RLVR y necesitar un algoritmo de optimización eficiente
Trabajar con recursos computacionales que son una restricción
Necesitar un entrenamiento de RL estable sin la complejidad de un crítico PPO

Limitaciones

Requiere generar múltiples completions por prompt, aumentando el cómputo de entrenamiento por paso en comparación con los métodos supervisados
Las líneas base basadas en grupos pueden ser ruidosas con tamaños de grupo pequeños, requiriendo ajuste adicional del hiperparámetro de tamaño de grupo
La efectividad depende de una función de recompensa bien diseñada; las recompensas mal especificadas producen actualizaciones de política deficientes

El GRPO es el algoritmo de optimización que impulsó el entrenamiento de DeepSeek-R1. Se está convirtiendo cada vez más en la elección predeterminada para la personalización de agentes basada en RL, particularmente cuando se combina con recompensas verificables.

¿Qué es un pipeline multietapa para la personalización de agentes de IA?

En la práctica, la personalización más efectiva de agentes combina múltiples técnicas en secuencia. A continuación se describen las etapas de un pipeline representativo.

Etapa 1: Ingeniería de prompts + herramientas y habilidades + RAG

Comienza con prompts de sistema, definiciones de herramientas y habilidades, y recuperación para establecer el comportamiento de línea base.

Etapa 2: SDG

Para capacidades personalizadas que los prompts, herramientas y bases de datos vectoriales por sí solos no pueden lograr, genera datos para personalizar el agente mediante entrenamiento.

Etapa 3: SFT

El SFT enseña al modelo el vocabulario básico, el formato y la estructura de las tareas personalizadas.

Etapa 4: RLVR/GRPO o DPO

Refina el modelo SFT usando preferencias o RL para mejorar la calidad más allá de lo que el aprendizaje por imitación puede lograr. La elección y el orden dependen de la tarea:

DPO es típicamente más barato y estable, y funciona bien cuando existen pares de preferencia (de humanos, un juez LLM, o verificadores basados en reglas) pero sin una recompensa escalar fiable.
RLVR con GRPO es la herramienta adecuada cuando los outputs son objetivamente verificables y existe la necesidad de elevar la calidad del razonamiento más allá de lo que el aprendizaje de preferencias solo puede alcanzar.

Estas no son alternativas estrictas. Un patrón común es SFT → DPO → RLVR. El DPO se usa primero para alinear formato y estilo de forma económica sobre la política SFT; luego el RLVR impulsa ganancias de razonamiento más intensas donde existen recompensas verificables. El orden es una elección de diseño, no una receta fija.

Etapa 5: Evaluación e iteración

Mide la tasa de éxito de la tarea, la precisión de las llamadas a herramientas y cualquier otra métrica deseada. Usa los resultados para iterar en las etapas de personalización hasta alcanzar el rendimiento deseado.

Este pipeline refleja un principio en el que el campo está convergiendo: comienza de forma ligera, mide rigurosamente y añade complejidad solo donde los datos muestran que es necesario.

Cómo elegir el enfoque correcto de personalización de agentes

Tres factores impactan en los métodos de personalización: las características de la tarea, los recursos disponibles y la madurez del proyecto.

Características de la tarea

Si los outputs de tu agente pueden verificarse objetivamente (JSON correcto, pruebas aprobadas, llamadas a API válidas), el RLVR con GRPO es probablemente tu técnica de mayor apalancamiento. Si la calidad es subjetiva, el DPO es más apropiado. Si la tarea está bien definida pero el modelo solo necesita ejemplos para imitar, el SFT puede ser suficiente.

Recursos disponibles

El RLHF completo requiere cómputo sustancial y presupuestos de anotación humana. El SFT basado en LoRA puede ejecutarse en una sola GPU. La ingeniería de prompts no requiere cómputo. Adapta tu técnica a tu infraestructura.

Madurez del proyecto

Los proyectos en etapa inicial deben invertir en ingeniería de prompts, infraestructura de evaluación y definiciones de herramientas. La personalización basada en entrenamiento entrega más valor una vez que tienes métricas claras, modos de fallo identificados y datos suficientes para abordarlos.

Diagrama que resume tres factores para elegir un enfoque de personalización de agentes de IA: características de la tarea, recursos disponibles y madurez del proyecto — **Figura 1. Factores para seleccionar el enfoque correcto de personalización de agentes de IA**

Comienza con la personalización de agentes de IA

La personalización de agentes abarca un espectro de enfoques que se multiplican en efectividad cuando se aplican de forma reflexiva. Los equipos más exitosos comienzan con métodos ligeros, invierten temprano en evaluación y añaden técnicas basadas en entrenamiento donde la medición muestra que son necesarias.

La personalización y la evaluación trabajan juntas para impulsar mejores resultados. No puedes mejorar lo que no puedes medir. Cada decisión de personalización — desde un ajuste de prompt hasta una ejecución de entrenamiento GRPO — debe estar impulsada por métricas claras y validada frente al rendimiento en el mundo real.

¿Listo para personalizar tus agentes? Acelera el desarrollo con NVIDIA NeMo, que proporciona un toolkit integrado que abarca:

Generación de datos sintéticos con NeMo Data Designer
Personalización de modelos con NeMo Automodel, NeMo Megatron-Bridge y NeMo RL
Infraestructura de recompensas verificables con NeMo Gym
Orquestación y evaluación de agentes con NeMo Agent Toolkit

Estas herramientas están diseñadas para integrarse con los frameworks de agentes existentes — añadiendo capacidades de personalización, evaluación y optimización sin requerir que reconstruyas desde cero.