~85KB
¿Qué modelo es mejor? Córrelos lado a lado. 85KB.
Comparación multi-modelo con inferencia real y diff semántico.
El problema
Tienes tres modelos GGUF — un base, un fine-tune y una cuantización diferente. ¿Cuál es mejor para tu caso? Hoy: cargas modelo A en Python (30 seg + 8GB RAM), corres prompts, anotas. Cargas modelo B. Repites. Comparas a mano. Para 5 modelos, es una hora de trabajo manual.
La solucion
OmniVersus carga múltiples modelos GGUF via mmap, corre los mismos prompts en cada uno, y muestra comparación lado a lado: texto de salida, probabilidades por token, velocidad y métricas de calidad. Un comando, un binario, 85KB.
Por Qué Bare-Metal Importa
Cargar múltiples LLMs simultáneamente es un desafío de memoria que Python maneja mal. OmniVersus usa mmap para cargar modelos on-demand sin copiar a RAM, y corre un transformer completo para cada modelo. 85KB vs 4GB+ de PyTorch lo hace práctico en cualquier máquina.
Especificaciones Técnicas
| Característica | Valor |
|---|---|
| Binary Size | ~85KB |
| Function | Multi-model semantic comparison with real inference |
| Models | 2+ GGUF models side-by-side |
| Dependencies | None — no Python, no PyTorch |
| Comparison | Token output, probabilities, speed, quality |
| Memory | mmap — models loaded on demand |
Comparación
| OmniVersus | Manual (Python) | LM Eval Harness | |
|---|---|---|---|
| Size | ~85KB | 4GB+ (PyTorch) | 4GB+ (PyTorch) |
| Setup | One command | Load/unload models manually | Complex config |
| Side-by-side output | Built-in | Manual comparison | Benchmark scores only |
| Dependencies | None | Python, torch, transformers | Python, torch, datasets |
| Token probabilities | Per-token comparison | Custom code needed | Aggregate only |
Casos de Uso
Comparación de Cuantización
Compara Q4_K vs Q6_K vs Q8_0 del mismo modelo en tus prompts específicos. Ve exactamente dónde difiere la calidad.
Evaluación de Fine-tune
Corre tu modelo fine-tuned contra el base en un set de prompts. Ve mejoras y regresiones por prompt.
Selección de Modelo
Compara modelos de diferentes proveedores (Qwen, Llama, Mistral) en tu tarea específica. Elige el mejor con datos, no benchmarks.
Probar Ahora — Gratis
Proximamente
Este producto esta en desarrollo activo. Contactanos para acceso anticipado o para recibir notificacion cuando los binarios esten disponibles.
Habla con el Equipo