← Todos los benchmarks
June 2026
Flutter · Ente Photos
App open source de fotos cifradas de extremo a extremo con frontend Flutter. Probado sobre la rama main disponible en junio de 2026. El benchmark se enfoca en flujos cross-module entre UI, servicios, llamadas gateway, DB local y propagación de estado.
Ver en GitHub ↗Configuración del benchmark
Resumen de resultados
Claude Haiku 4.5
flujo central → riesgo conectado direccional
El baseline encontró varios mecanismos centrales con búsqueda normal. Tessra ayudó a conectar esos hallazgos con contexto cross-module, callers y riesgo de producto.
Caso validado · SelectionState
2 / 3 → 3 / 3 +1 pt
Caso validado: SelectionState. El baseline encontró el mecanismo central con búsqueda normal del repo. Tessra agregó contexto dirigido de símbolos y produjo una explicación arquitectónica más clara. No es un caso de cero a perfecto.
Resultados por caso
| Caso | Pregunta | Baseline | Con Tessra | Observación |
|---|---|---|---|---|
| 01 | ¿Cómo decide DeduplicationService._getDuplicateFiles() si hacer el llamado HTTP, y cómo agrupa archivos de dos formas distintas? | Resuelto con búsqueda normal del repo | Resuelto | Búsqueda local simple; no es el mejor caso diferencial |
| 02 | En DeleteSuggestionsPage, traza la cadena completa del asyncLoader a la DB local: servicio, gateway, endpoint HTTP, tipo Dart intermedio y flag final de DB. | Cadena parcial | Cadena más completa | Mejor trazado cross-module |
| 03 | En trashFilesOnServer(), ¿qué validación de ownership se realiza? ¿Qué fallback se ejecuta si collectionID no es owned? ¿Qué pasa si el fallback también falla? | Fallback central encontrado | Fallback + riesgo downstream | Tessra conectó callers, borrado local y riesgo visible para el usuario |
| 04 | ¿Qué endpoint HTTP y batch size usa el backfill de hasMigratedSizes? | Endpoint o batch size encontrable por búsqueda | Endpoint + contexto del batch | Detalle concreto de implementación |
| 05 | ¿Por qué el InheritedWidget de SelectionState tiene updateShouldNotify=false? ¿Cómo se propaga realmente el estado? | 2 / 3 — encontró el mecanismo central con búsqueda normal del repo | 3 / 3 — respuesta arquitectónica más fuerte con contexto dirigido de símbolos | Tessra mejoró la calidad, el foco y la utilidad de la respuesta. No es un caso de cero a perfecto. |
Hallazgos clave
Completitud de contexto y valor cognitivo para trazado arquitectónico
El baseline encontró mecanismos centrales en varios casos. La parte difícil fue conectar esos hallazgos con el flujo completo: UI, servicios, gateway, DB local, propagación de estado y comportamiento visible para el usuario. Tessra aportó valor cognitivo: le dio al agente un mapa más claro del repo, conectó símbolos relevantes y produjo explicaciones de ingeniería más útiles.
Ejemplo: en el Caso 03, la búsqueda normal encontró el fallback. Tessra conectó ese fallback con callers, borrado local y riesgo de consistencia. En el Caso 05, el baseline llegó a 2/3; con Tessra subió a 3/3 gracias a contexto dirigido de símbolos.
La ventaja no es que Tessra encuentre un archivo. La ventaja es que ayuda al agente a convertir rutas dispersas de código en una explicación de ingeniería.
Descarte silencioso de archivos — riesgo que no aparece en el primer lookup
La búsqueda normal encontró el fallback central: validación de ownership, búsqueda de otra colección propia y log severe cuando no hay fallback. Tessra fue más allá: conectó ese flujo con los callers, el borrado en DB local y el riesgo visible para el usuario. El punto no era encontrar la función; era entender qué podía quedar inconsistente después.
Limitaciones conocidas
Este benchmark debe leerse como evidencia de mayor completitud de contexto y valor cognitivo, no como una promesa de respuestas perfectas. Algunos casos son resolubles parcial o totalmente con búsqueda normal del repo. Su valor está en evaluar si el agente puede conectar mecanismos centrales con navegación cross-module, fallbacks, callers y riesgo downstream. Los resultados pueden variar entre repos y ejecuciones del modelo.
Pruébalo tú
Mira qué expone Tessra en tu repo.
Indexa un repo Angular, Django o Flutter y prueba el contexto local durante 7 días.