NVIDIA anunció la publicación de la receta de evaluación completa para su modelo Nemotron 3 Nano 30B A3B. Esta iniciativa busca establecer un estándar de transparencia en la industria de inteligencia artificial. La empresa comparte los archivos y configuraciones necesarios para reproducir los resultados de las pruebas.
El núcleo de este esfuerzo es la biblioteca NeMo Evaluator de NVIDIA. Esta herramienta permite definir benchmarks, prompts y configuraciones de ejecución de manera unificada. NeMo Skills se integra para evaluaciones de instrucciones, uso de herramientas y capacidades agenticas junto con el LM Evaluation Harness.
Según el comunicado, la mayoría de las evaluaciones de modelos omiten detalles críticos sobre los entornos de prueba y los flujos de trabajo. Las versiones de los harness, los tiempos de ejecución y los registros a menudo están mal especificados o faltan por completo. Sin una receta completa, es difícil determinar si un modelo es realmente más inteligente o solo está optimizado para una métrica específica.
NeMo Evaluator separa el pipeline de evaluación del backend de inferencia para mayor flexibilidad. Esto permite ejecutar la misma configuración contra servicios alojados o implementaciones locales de forma segura. La arquitectura evita que las herramientas queden atadas a una solución de inferencia específica o proveedor único.
El proceso de reproducción sigue un flujo de trabajo claro mediante archivos YAML publicados en la plataforma de código abierto. Los usuarios pueden apuntar la evaluación a endpoints como HuggingFace o build.nvidia.com según sus necesidades. Se requiere acceso a los pesos del modelo o a un endpoint disponible para ejecutar las pruebas correctamente.
Se observan pequeñas diferencias en las puntuaciones finales debido a la naturaleza probabilística de los LLM. Configuraciones de decodificación y ejecuciones paralelas pueden causar fluctuaciones leves entre corridas. El objetivo es la consistencia metodológica y no la producción de números idénticos en cada ejecución.
Esta transparencia cambia lo que significa compartir resultados en el campo de la investigación. Una puntuación solo es tan confiable como la metodología que la respalda. Hacer pública la metodología permite a la comunidad verificar afirmaciones y comparar modelos de manera justa.
Para las organizaciones que necesitan pipelines automatizados, NVIDIA ofrece un microservicio NeMo Evaluator listo para la empresa. Este soporte empresarial se basa en los mismos principios de evaluación abierta y auditable para garantizar la integridad de los datos. El equipo de investigación interna utiliza este marco para mantener prácticas consistentes a lo largo del tiempo.