RAPORT BENCHMARK
BRAIN MCP vs BASELINE (GREP+READ+GLOB) :: PRAWDZIWA SESJA CLAUDE CODE :: 2026-04-21T10:40:43
Podsumowanie wykonawcze
Bezpośredni benchmark Claude Code w dwóch konfiguracjach, rozwiązujący te same 50 prawdziwych pytań o analizę kodu na produkcyjnym repo (~/dev/example/Acme).
Prawdziwa wygrana: redukcja Fresh Input
Claude ma trzy typy tokenów. Tylko jeden liczy się w pełni do limitów planu Max:
| Typ tokenów | Baseline | Brain | Δ | Wpływ na limit |
|---|---|---|---|---|
| Fresh input (output narzędzi, nowy kontekst) | 4 145 | 2 003 | -51,7% | 100% wagi |
| Output (myślenie, odpowiedzi) | 52 229 | 55 398 | +6,1% | 100% wagi |
| Cache read (powtarzany system prompt) | 7 521 819 | 7 685 722 | +2,2% | ~10% wagi (zdyskontowane) |
Główne wnioski
- Fresh input tokeny tnięte o 51,7% (2,1× mniej) - prawdziwa metryka dla limitów
- Czas wall-clock skrócony o 29,1% (zaoszczędzone 641s na 50 pytaniach)
- Na pytaniach architektonicznych: do 15× szybciej (Q45: 633s → 41s)
- Total billed koszt wyrównany (-0,7%) - cache dominuje w obu trybach
- Analityka cross-repo (god-nodes, Louvain, naruszenia DRY): grep dosłownie nie potrafi tego zrobić
add_dirs. Tokeny mierzone przez Anthropic Agent SDK - żadnych estymat.Metodologia
Setup testu
- Repo docelowe:
~/dev/example/Acme(produkcyjny codebase Nuxt 4 + Vue 3) - Model: Claude Opus
- Maks. tur na pytanie: 15
- Runner: Python +
claude-agent-sdk
Dwie konfiguracje
BASELINE
Narzędzia: Bash, Grep, Read, Glob
BRAIN
Narzędzia: brain_query, brain_graph, brain_path, brain_explain, brain_ffcss
50 pytań - 5 kategorii
- Odkrywanie kodu Q01-Q10 - "Gdzie jest X?"
- Śledzenie użycia Q11-Q20 - "Kto używa X?"
- Cross-repo Q21-Q30 - "Czy Checkout nadpisuje X?"
- Ścieżki zależności Q31-Q40 - "Skoki A → B?"
- Architektura Q41-Q50 - "God-nodes, DRY"
Surowe wyniki - 50 pytań
| Q | Kategoria | Baseline tok | Brain tok | Ratio | Baseline $ | Brain $ | Baseline s | Brain s | Tools base | Tools brain |
|---|
Analiza per kategoria
Breakdown kategorii
| Kategoria | N | Baseline tok | Brain tok | Czas baseline | Czas brain | Oszczędność tokenów |
|---|
Ekonomia tokenów
Skalowanie kosztu miesięcznie
Projekcja kosztu zespołu
| Wielkość zespołu | Baseline $/mies. | Brain $/mies. | Oszczędność roczna |
|---|---|---|---|
| 1 dev | $107,47 | $108,24 | $-9,24 |
| 5 devów | $537,35 | $541,20 | $-46,20 |
| 10 devów | $1074,70 | $1082,40 | $-92,40 |
| 20 devów | $2149,40 | $2164,80 | $-184,80 |
Wpływ na okno kontekstu (użytkownicy Max)
Z oknem 1M kontekstu, zanim wskoczy kompresja:
- Baseline: ~887 pytań/sesja
- Brain: ~871 pytań/sesja
Jakość odpowiedzi - porównanie
Demo workflow CC
Baseline (Grep+Read)
> Gdzie jest hook koszyka w acme-core? → Bash: find layers/acme-core -name "*Cart*" [200ms, ~5kB] → Grep: "useCart" layers/acme-core [300ms, ~8kB] → Read: layers/acme-core/composables/index.ts [~3kB] → Read: layers/acme-logic/composables/useCart.ts [~1kB] → Odpowiedź: "layers/acme-logic/composables/useCart.ts" Total: ~12s, 4 tool calls, ~17kB do kontekstu
Brain
> Gdzie jest hook koszyka w acme-core? → brain_query(q="Cart", scope="acme/Acme") [150ms, ~2kB] → Odpowiedź: "layers/acme-logic/composables/useCart.ts" Total: ~3s, 1 tool call, ~2kB do kontekstu
Przewodnik wdrożenia
Dla deweloperów (15 minut)
- Krok 1: Zdobądź dev token od admina
- Krok 2:
claude mcp add brain --transport http --scope user https://brain.sdet.it/mcp --header "Authorization: Bearer $TOKEN" - Krok 3: Restart CC →
/mcp→ brain connected - Krok 4: Zobacz Quick Start
Dla architektów
- Dodaj repo do
groups.yml - Uruchom
/brain-extractw CC albo czekaj na webhook extract - Brain auto-federuje w 3 min od pusha
- Dashboard pod
/admin/dashboard
Dla ops
- Pojedynczy stos Docker-compose (API + worker + Postgres + Redis + nginx)
- Chodzi na 2-core 4GB VPS
- Alerty out of the box (Discord, Slack)
- Codzienny archive + rotacja + obserwowalność
FAQ
P: Czy brain zastępuje Grep/Read/Glob?
Nie. Brain dodaje semantyczne zapytania do grafu. CC nadal używa Grep do regex search i Read do pełnej zawartości plików. Narzędzia brain są od "co / gdzie / kto / połączone".
P: Co jeśli brain padnie?
CC wraca do Grep/Read/Glob. Worst case: wolniej (tryb baseline).
P: Jak świeży jest graf?
Polling 5min + re-extraction po webhooku. Typowa świeżość < 5min.
P: Czy mój kod idzie do osób trzecich?
Tylko metadane grafu (ID node'ów, ścieżki). Hostuj na własnym VPS dla zero zewnętrznego flow.
READY