¿Dónde es lento tu modelo? Capa por capa. Precisión de ciclo de CPU. 80KB.

Profiler de inferencia por capa con análisis de cuello de botella de hardware.

Linux

El problema

Tu modelo genera a 2 tokens por segundo. ¿Por qué? ¿Es la atención? ¿FFN? ¿Ancho de banda de memoria? Hoy, responder esto requiere NVIDIA Nsight (2GB+ CUDA) o PyTorch profiler (4GB+). Ninguno es portable.

La solucion

OmniProbe corre tu modelo y mide cada capa, cada operación, con precisión de ciclo de CPU (rdtsc). Identifica si el cuello de botella es compute o bandwidth, qué capas son más lentas, y qué cambios de hardware mejorarían el rendimiento. 80KB, portable a cualquier máquina.

Por Qué Bare-Metal Importa

Hacer profiling de inferencia a nivel de hardware requiere medir ciclos de CPU, cache y ancho de banda de memoria. Herramientas sobre Python o CUDA agregan su propio overhead. OmniProbe corre el transformer con zero overhead — las mediciones son la verdad de base.

Especificaciones Técnicas

Característica	Valor
Binary Size	~80KB
Function	Per-layer inference profiler with hardware analysis
Precision	CPU cycle-level (rdtsc)
Dependencies	None — no NVIDIA toolkit, no Python
Output	Layer timing, bandwidth, bottleneck ID
Portable	scp to any machine, run immediately

Comparación

	OmniProbe	NVIDIA Nsight	PyTorch Profiler
Size	~80KB	2GB+ (CUDA toolkit)	4GB+ (PyTorch)
Installation	wget (80KB)	CUDA toolkit + account	pip install torch
CPU profiling	Yes (rdtsc cycle-level)	GPU focused	Yes
Per-layer timing	Built-in	Manual instrumentation	Manual instrumentation
Portable	scp + run	No (requires toolkit)	No (requires Python)
Bottleneck analysis	Bandwidth + compute breakdown	GPU kernel analysis	Op-level timing

Casos de Uso

Investigación de Optimización

Identifica qué capas y operaciones consumen más tiempo. Sabe exactamente dónde enfocar el esfuerzo.

Selección de Hardware

Perfila el mismo modelo en diferentes máquinas (scp + run). Compara DDR4 vs DDR5, Intel vs AMD, x86 vs ARM.

Decisiones de Cuantización

Ve exactamente cuánto más lentas son las capas Q6_K vs Q4_K. Toma decisiones informadas sobre precisión por tensor.

Probar Ahora — Gratis

Proximamente

Este producto esta en desarrollo activo. Contactanos para acceso anticipado o para recibir notificacion cuando los binarios esten disponibles.

Habla con el Equipo