Benchmarks Open Source · 2026

Probado en repos reales.
Resultados que puedes verificar.

4 benchmarks sobre repos públicos open source: Angular, Django y Flutter. Cada prompt, criterio de evaluación y resultado está disponible para revisión.

Tessra no solo encuentra archivos. Entrega contexto estructurado para que el agente entienda relaciones, impacto y arquitectura en repos reales.

4repos evaluados
hasta +77 ppde mejora
3stacks
evidencia incluida

pp = puntos porcentuales; algunos benchmarks usan puntos o criterios por caso.

Todos los resultados

Cuatro benchmarks. Tres stacks. Totalmente revisables.

Cada benchmark se ejecutó sobre un repositorio real y público. Los prompts, criterios de evaluación, resultados y limitaciones conocidas están disponibles para revisión.

Repo Stack Tamaño Modelo Sin Tessra Con Tessra Mejora Qué se evaluó
ThingsBoard Angular 17+ ~8 000 Sonnet 4.6 7% 84% +77 pp DI inject(), lazy routes, callers no obvios
NetBox Django / Python ~1 165 Haiku 4.5 49.5% 96% +46.5 pp Signals, QuerySet internals, pesos SearchIndex
ngrx-platform Angular + NgRx Nx ~1 379 Comparación local conservadora 8 / 10 9 / 10 +1 pt Internals NgRx, valor operativo, trazado arquitectónico
Ente Photos Flutter / Dart ~4 061 Caso validado 2 / 3 3 / 3 +1 criterio Valor cognitivo, trazado arquitectónico, flujos cross-module

La mayoría de las filas muestran scores normalizados del benchmark. Ente Photos se muestra como un caso validado puntual: 2/3 a 3/3 en SelectionState, más evidencia direccional de mejor trazado arquitectónico en flujos cross-module.

Las mejoras se muestran en la unidad que corresponde a cada benchmark: puntos porcentuales (pp), puntos o criterios.

En estos benchmarks, Tessra ayudó a los modelos a producir respuestas arquitectónicas más completas, reducir exploración a ciegas y, en varios casos, acercarse o superar baselines de modelos premium.

Algunos repos públicos pueden estar bien representados en los datos de entrenamiento de modelos avanzados. Cuando un caso ya se resuelve total o parcialmente sin Tessra, se marca como saturado o direccional y se excluye de claims fuertes de mejora.

Angular · ThingsBoard

Angular sobre 8.000 archivos TypeScript

Lazy routing real, DI moderna con inject() y rutas profundamente anidadas: preguntas donde buscar texto no basta para entender la relación completa.

Sonnet 4.6
7% 84%
+77 pp
Haiku 4.5
0% 68%
+68 pp

Casos evaluados

01 ¿Qué clases dependen de CalculatedFieldFormService vía inject()?
02 ¿Cómo inyecta sus dependencias AlarmRulesComponent?
03 ¿Qué componente renderiza la ruta /dashboards?
04 ¿Dónde agregar una ruta hermana a /profiles/deviceProfiles?
05 ¿Qué callers usa AlarmRulesService — constructor o inject()?
thingsboard/thingsboard
~8 000 archivos TypeScript · Angular 17+
Angular inject() lazy routing
Hallazgo clave
Un llamado funcional dentro de un ResolveFn fue identificado correctamente por el grafo inject_di de Tessra. Sin Tessra, el modelo explicó cómo lo buscaría. Con Tessra, entregó el caller exacto, el método invocado y la clasificación correcta de la dependencia.
Django · NetBox

Internals de Django en 9 apps

Signal receivers entre apps, permisos aplicados en QuerySet y pesos de SearchIndex: detalles internos que no se resuelven solo leyendo la documentación pública.

Haiku 4.5
49.5% 96%
+46.5 pp
Sonnet 4.6
53% 92.5%
+39.5 pp

Casos evaluados

01 ¿Qué signal receivers dispara Site.save()? ¿Qué modelos de otras apps se actualizan?
02 ¿Cuáles son los padres directos de Device? ¿Cuántos mixins componen NetBoxFeatureSet?
03 ¿Dónde se actualiza Interface._site cuando un Rack cambia de Site?
04 ¿Cómo aplica Device.objects.restrict(user) los permisos por objeto?
05 ¿Qué campos indexa DeviceIndex para búsqueda global y con qué pesos?
netbox-community/netbox
~1 165 archivos Python · 9 apps Django
Django signals QuerySet
Hallazgo clave
restrict() usa pk__in=subquery, no .distinct(). Sin Tessra, ambos modelos respondieron .distinct() con confianza. Con Tessra, el contexto llevó al mecanismo real.
Con Tessra, Haiku 4.5 alcanzó 96% frente a 53% de Sonnet 4.6 sin Tessra en este benchmark.
Angular + NgRx · ngrx-platform

Internals de NgRx: +1 conservador, navegación más fuerte

En este monorepo público de NgRx, Tessra llegó a 9/10 en una corrida verificada sobre código local. Contra un baseline conservador sin Tessra de 8/10, Tessra muestra +1 punto de mejora y navegación más clara por internals de effects, specs, entity adapters y comportamiento de estado en router-store.

Comparación conservadora
8 / 10 9 / 10
+1 pt
Comparación conservadora: el baseline crudo sin Tessra llegó a 9/10, ajustado a 8/10 para compensar posible retención de contexto por editor/chat. [conservador]

Casos evaluados

01 ¿Qué clases internas inicializan un Effect durante el bootstrap?
02 ¿Qué archivos de test cubren createAction()?
03 ¿Qué libraries Nx declaran dependencia de @ngrx/store?
04 ¿Qué métodos privados expone EntityStateAdapter internamente?
05 ¿Cómo conecta @ngrx/router-store las router actions con los reducers?
ngrx/platform
~1 379 archivos TypeScript · Nx monorepo
Angular NgRx Nx
Hallazgo clave
La ganancia no es solo el punto extra. La ganancia mayor es un camino más limpio hacia la respuesta de ingeniería: navegación de símbolos más rápida, caller/callee context, specs relacionados, límites de interfaces, comportamiento del reducer y tipos de estado con menos exploración manual.
Flutter · Ente Photos

Más valor cognitivo para trazado arquitectónico

Flujos cross-module que cruzan ≥4 límites de módulos en una app Flutter activa. Este benchmark mide completitud de contexto y valor cognitivo, no recuperación desde fallo.

Caso validado · SelectionState
2 / 3 3 / 3
+1 pt
Haiku 4.5
búsqueda normal respuesta más fuerte
direccional

El baseline encontró el mecanismo central. Tessra mejoró la calidad, el foco y la completitud de la respuesta. No es un caso de cero a perfecto.

Casos evaluados

01 ¿Cómo decide hasMigratedSizes() si hacer el llamado HTTP?
02 ¿Cuál es el path completo de evento UI a DB para delete suggestions?
03 ¿Cómo valida trashFilesOnServer la propiedad del archivo antes del request?
04 ¿Qué endpoint y batch size usa el backfill de hasMigratedSizes?
05 ¿Por qué el InheritedWidget de SelectionState tiene updateShouldNotify=false?
ente-io/ente
~4 061 archivos Dart · Flutter
Flutter cross-module EventBus
Hallazgo clave
El baseline encontró el mecanismo central. Tessra aportó valor cognitivo: le dio al agente un mapa de trabajo más claro del repo, conectó símbolos relevantes más rápido, redujo exploración a ciegas y produjo una explicación arquitectónica más limpia. La ventaja no es que Tessra encuentre un archivo. La ventaja es que ayuda al agente a convertir rutas dispersas de código en una explicación de ingeniería.
Metodología

Casos donde buscar archivos no basta.

Un modelo puede responder preguntas básicas si conoce la API pública. Estos casos evalúan algo más difícil: seguir relaciones internas entre módulos, servicios, rutas, señales, efectos, tests y dependencias.

01
Casos cross-module
Cada caso requiere seguir al menos 4 saltos entre módulos para llegar a la respuesta correcta. Están diseñados para que una búsqueda de texto no baste. También incluyen respuestas incorrectas plausibles que aparecen en documentación pública o en conocimiento superficial del modelo.
02
Cuatro criterios de evaluación
Evaluamos precisión, arquitectura, utilidad práctica y evidencia. Cada caso puede sumar hasta 5 puntos según si la respuesta identifica hechos correctos, explica relaciones internas, propone un camino útil y cita evidencia verificable.
03
Casos conocidos por el modelo
Si un modelo avanzado ya responde correctamente sin Tessra, ese caso no mide bien la contribución de Tessra. Lo marcamos como saturado y no lo usamos para el resultado principal.
Los modelos base tenían acceso estándar a lectura y búsqueda. Tessra agrega contexto estructurado encima: símbolos, callers, radio de impacto y relaciones entre módulos.
Por qué importa

Por qué esto importa en un repo real.

Los proyectos grandes no son difíciles porque los archivos estén escondidos. Son difíciles porque la respuesta está distribuida entre rutas, servicios, estado, efectos, signals, serializers, querysets, widgets y APIs. Tessra entrega esa estructura al agente para que sepa qué conecta con qué antes de tocar código. El punto no es memorizar estos repos; es entregar relaciones reales del código cuando el agente las necesita.

Reproducibilidad

Inspecciona la evidencia.

Cada benchmark tiene un reporte público con preguntas evaluadas, resultados por caso, hallazgos clave y limitaciones conocidas. Sin registro requerido.

Angular ThingsBoard Rutas lazy, inject(), guards ResolveFn y callers cross-module no obvios. Ver reporte → Django NetBox QuerySets de permisos, señales cross-app y pesos de campos SearchIndex. Ver reporte → Angular + NgRx ngrx-platform Adapters, selectores, router-store y aprovechamiento de Effects en NgRx. Ver reporte → Flutter Ente Photos Flujos cross-module, DB local, despacho de eventos y cadenas de propagación de estado. Ver reporte →

Qué incluye cada reporte

Preguntas evaluadas
Los prompts exactos utilizados para evaluar la navegación arquitectónica, sin edición ni cherry-picking.
Resultados por caso
Puntuaciones para cada caso con y sin Tessra, incluyendo resultados saturados y direccionales.
Hallazgos clave
Diferencias concretas en calidad de respuesta: qué cambió, qué omitió el modelo y por qué importó el contexto.
Limitaciones conocidas
Qué no prueba el benchmark, dónde pueden variar los resultados y qué se excluyó del argumento principal.

Estos benchmarks miden navegación arquitectónica y calidad del contexto, no generación de código. Los resultados pueden variar en repos con patrones estructurales distintos. Las respuestas del modelo no son deterministas — las puntuaciones individuales pueden diferir entre ejecuciones.

Pruébalo tú

Mira qué expone Tessra en tu repo.

Indexa un repo Angular, Django o Flutter y prueba el contexto local durante 7 días.