Probado en repos reales.
Resultados que puedes verificar.
4 benchmarks sobre repos públicos open source: Angular, Django y Flutter. Cada prompt, criterio de evaluación y resultado está disponible para revisión.
Tessra no solo encuentra archivos. Entrega contexto estructurado para que el agente entienda relaciones, impacto y arquitectura en repos reales.
pp = puntos porcentuales; algunos benchmarks usan puntos o criterios por caso.
Cuatro benchmarks. Tres stacks. Totalmente revisables.
Cada benchmark se ejecutó sobre un repositorio real y público. Los prompts, criterios de evaluación, resultados y limitaciones conocidas están disponibles para revisión.
| Repo | Stack | Tamaño | Modelo | Sin Tessra | Con Tessra | Mejora | Qué se evaluó |
|---|---|---|---|---|---|---|---|
| ThingsBoard | Angular 17+ | ~8 000 | Sonnet 4.6 | 7% | 84% | +77 pp | DI inject(), lazy routes, callers no obvios |
| NetBox | Django / Python | ~1 165 | Haiku 4.5 | 49.5% | 96% | +46.5 pp | Signals, QuerySet internals, pesos SearchIndex |
| ngrx-platform | Angular + NgRx Nx | ~1 379 | Comparación local conservadora | 8 / 10 | 9 / 10 | +1 pt | Internals NgRx, valor operativo, trazado arquitectónico |
| Ente Photos | Flutter / Dart | ~4 061 | Caso validado | 2 / 3 | 3 / 3 | +1 criterio | Valor cognitivo, trazado arquitectónico, flujos cross-module |
La mayoría de las filas muestran scores normalizados del benchmark. Ente Photos se muestra como un caso validado puntual: 2/3 a 3/3 en SelectionState, más evidencia direccional de mejor trazado arquitectónico en flujos cross-module.
Las mejoras se muestran en la unidad que corresponde a cada benchmark: puntos porcentuales (pp), puntos o criterios.
En estos benchmarks, Tessra ayudó a los modelos a producir respuestas arquitectónicas más completas, reducir exploración a ciegas y, en varios casos, acercarse o superar baselines de modelos premium.
Algunos repos públicos pueden estar bien representados en los datos de entrenamiento de modelos avanzados. Cuando un caso ya se resuelve total o parcialmente sin Tessra, se marca como saturado o direccional y se excluye de claims fuertes de mejora.
Angular sobre 8.000 archivos TypeScript
Lazy routing real, DI moderna con inject() y rutas profundamente anidadas: preguntas donde buscar texto no basta para entender la relación completa.
Casos evaluados
Internals de Django en 9 apps
Signal receivers entre apps, permisos aplicados en QuerySet y pesos de SearchIndex: detalles internos que no se resuelven solo leyendo la documentación pública.
Casos evaluados
Internals de NgRx: +1 conservador, navegación más fuerte
En este monorepo público de NgRx, Tessra llegó a 9/10 en una corrida verificada sobre código local. Contra un baseline conservador sin Tessra de 8/10, Tessra muestra +1 punto de mejora y navegación más clara por internals de effects, specs, entity adapters y comportamiento de estado en router-store.
Casos evaluados
Más valor cognitivo para trazado arquitectónico
Flujos cross-module que cruzan ≥4 límites de módulos en una app Flutter activa. Este benchmark mide completitud de contexto y valor cognitivo, no recuperación desde fallo.
El baseline encontró el mecanismo central. Tessra mejoró la calidad, el foco y la completitud de la respuesta. No es un caso de cero a perfecto.
Casos evaluados
Casos donde buscar archivos no basta.
Un modelo puede responder preguntas básicas si conoce la API pública. Estos casos evalúan algo más difícil: seguir relaciones internas entre módulos, servicios, rutas, señales, efectos, tests y dependencias.
Por qué esto importa en un repo real.
Los proyectos grandes no son difíciles porque los archivos estén escondidos. Son difíciles porque la respuesta está distribuida entre rutas, servicios, estado, efectos, signals, serializers, querysets, widgets y APIs. Tessra entrega esa estructura al agente para que sepa qué conecta con qué antes de tocar código. El punto no es memorizar estos repos; es entregar relaciones reales del código cuando el agente las necesita.
Inspecciona la evidencia.
Cada benchmark tiene un reporte público con preguntas evaluadas, resultados por caso, hallazgos clave y limitaciones conocidas. Sin registro requerido.
Qué incluye cada reporte
Estos benchmarks miden navegación arquitectónica y calidad del contexto, no generación de código. Los resultados pueden variar en repos con patrones estructurales distintos. Las respuestas del modelo no son deterministas — las puntuaciones individuales pueden diferir entre ejecuciones.
Mira qué expone Tessra en tu repo.
Indexa un repo Angular, Django o Flutter y prueba el contexto local durante 7 días.