~80KB
¿Dónde es lento tu modelo? Capa por capa. Precisión de ciclo de CPU. 80KB.
Profiler de inferencia por capa con análisis de cuello de botella de hardware.
El problema
Tu modelo genera a 2 tokens por segundo. ¿Por qué? ¿Es la atención? ¿FFN? ¿Ancho de banda de memoria? Hoy, responder esto requiere NVIDIA Nsight (2GB+ CUDA) o PyTorch profiler (4GB+). Ninguno es portable.
La solucion
OmniProbe corre tu modelo y mide cada capa, cada operación, con precisión de ciclo de CPU (rdtsc). Identifica si el cuello de botella es compute o bandwidth, qué capas son más lentas, y qué cambios de hardware mejorarían el rendimiento. 80KB, portable a cualquier máquina.
Por Qué Bare-Metal Importa
Hacer profiling de inferencia a nivel de hardware requiere medir ciclos de CPU, cache y ancho de banda de memoria. Herramientas sobre Python o CUDA agregan su propio overhead. OmniProbe corre el transformer con zero overhead — las mediciones son la verdad de base.
Especificaciones Técnicas
| Característica | Valor |
|---|---|
| Binary Size | ~80KB |
| Function | Per-layer inference profiler with hardware analysis |
| Precision | CPU cycle-level (rdtsc) |
| Dependencies | None — no NVIDIA toolkit, no Python |
| Output | Layer timing, bandwidth, bottleneck ID |
| Portable | scp to any machine, run immediately |
Comparación
| OmniProbe | NVIDIA Nsight | PyTorch Profiler | |
|---|---|---|---|
| Size | ~80KB | 2GB+ (CUDA toolkit) | 4GB+ (PyTorch) |
| Installation | wget (80KB) | CUDA toolkit + account | pip install torch |
| CPU profiling | Yes (rdtsc cycle-level) | GPU focused | Yes |
| Per-layer timing | Built-in | Manual instrumentation | Manual instrumentation |
| Portable | scp + run | No (requires toolkit) | No (requires Python) |
| Bottleneck analysis | Bandwidth + compute breakdown | GPU kernel analysis | Op-level timing |
Casos de Uso
Investigación de Optimización
Identifica qué capas y operaciones consumen más tiempo. Sabe exactamente dónde enfocar el esfuerzo.
Selección de Hardware
Perfila el mismo modelo en diferentes máquinas (scp + run). Compara DDR4 vs DDR5, Intel vs AMD, x86 vs ARM.
Decisiones de Cuantización
Ve exactamente cuánto más lentas son las capas Q6_K vs Q4_K. Toma decisiones informadas sobre precisión por tensor.
Probar Ahora — Gratis
Proximamente
Este producto esta en desarrollo activo. Contactanos para acceso anticipado o para recibir notificacion cuando los binarios esten disponibles.
Habla con el Equipo