RAPORT BENCHMARK

Name: JARVIS-BRAIN :: RAPORT BENCHMARK
Creator: Dariusz Kowalski
Published: 2026-04-21
License: https://opensource.org/licenses/MIT

BRAIN MCP vs BASELINE (GREP+READ+GLOB) :: PRAWDZIWA SESJA CLAUDE CODE :: 2026-04-21T10:40:43

OSZCZĘDNOŚĆ FRESH INPUT

51.7%

2,1× mniej fresh tokenów - metryka która liczy się do limitów planu Max

CZAS WALL-CLOCK

29.1%

2204s → 1563s (zaoszczędzone 641s na 50 pytaniach)

TOKENY ŁĄCZNIE (in+out)

-1.8%

baseline 56 374 vs brain 57 401 - podobnie, dominuje cache

NAJWIĘKSZE PRZYSPIESZENIE

15×

Q45 'największy klaster' - 633s baseline → 41s brain

Podsumowanie wykonawcze

Bezpośredni benchmark Claude Code w dwóch konfiguracjach, rozwiązujący te same 50 prawdziwych pytań o analizę kodu na produkcyjnym repo (~/dev/example/Acme).

Prawdziwa wygrana: redukcja Fresh Input

Claude ma trzy typy tokenów. Tylko jeden liczy się w pełni do limitów planu Max:

Typ tokenów	Baseline	Brain	Δ	Wpływ na limit
Fresh input (output narzędzi, nowy kontekst)	4 145	2 003	-51,7%	100% wagi
Output (myślenie, odpowiedzi)	52 229	55 398	+6,1%	100% wagi
Cache read (powtarzany system prompt)	7 521 819	7 685 722	+2,2%	~10% wagi (zdyskontowane)

Co to znaczy dla użytkowników planu Max: brain tnie tokeny które liczą się do limitów 5-godzinnego i tygodniowego o 51,7%. Ta sama subskrypcja, więcej pytań przed limitem.

Główne wnioski

Fresh input tokeny tnięte o 51,7% (2,1× mniej) - prawdziwa metryka dla limitów
Czas wall-clock skrócony o 29,1% (zaoszczędzone 641s na 50 pytaniach)
Na pytaniach architektonicznych: do 15× szybciej (Q45: 633s → 41s)
Total billed koszt wyrównany (-0,7%) - cache dominuje w obu trybach
Analityka cross-repo (god-nodes, Louvain, naruszenia DRY): grep dosłownie nie potrafi tego zrobić

Ten benchmark ruszył na prawdziwym Claude Code + Claude Opus na produkcyjnym kodzie, baseline z dostępem do wszystkich 5 repo acme przez add_dirs. Tokeny mierzone przez Anthropic Agent SDK - żadnych estymat.

Metodologia

Setup testu

Repo docelowe: ~/dev/example/Acme (produkcyjny codebase Nuxt 4 + Vue 3)
Model: Claude Opus
Maks. tur na pytanie: 15
Runner: Python + claude-agent-sdk

Dwie konfiguracje

BASELINE

Narzędzia: Bash, Grep, Read, Glob

Symuluje standardowy CC bez brain.

BRAIN

Narzędzia: brain_query, brain_graph, brain_path, brain_explain, brain_ffcss

MCP po HTTPS do brain.sdet.it.

50 pytań - 5 kategorii

Odkrywanie kodu Q01-Q10 - "Gdzie jest X?"
Śledzenie użycia Q11-Q20 - "Kto używa X?"
Cross-repo Q21-Q30 - "Czy Checkout nadpisuje X?"
Ścieżki zależności Q31-Q40 - "Skoki A → B?"
Architektura Q41-Q50 - "God-nodes, DRY"

Surowe wyniki - 50 pytań

Kategoria: Sortowanie:

Q	Kategoria	Baseline tok	Brain tok	Ratio	Baseline $	Brain $	Baseline s	Brain s	Tools base	Tools brain

Analiza per kategoria

Breakdown kategorii

Kategoria	N	Baseline tok	Brain tok	Czas baseline	Czas brain	Oszczędność tokenów

Ekonomia tokenów

Użytkownicy planu Max płacą $0 za token. Liczby poniżej projektują pricing pay-per-use Opus API.

Skalowanie kosztu miesięcznie

Projekcja kosztu zespołu

Wielkość zespołu	Baseline $/mies.	Brain $/mies.	Oszczędność roczna
1 dev	$107,47	$108,24	$-9,24
5 devów	$537,35	$541,20	$-46,20
10 devów	$1074,70	$1082,40	$-92,40
20 devów	$2149,40	$2164,80	$-184,80

Wpływ na okno kontekstu (użytkownicy Max)

Z oknem 1M kontekstu, zanim wskoczy kompresja:

Baseline: ~887 pytań/sesja
Brain: ~871 pytań/sesja

Jakość odpowiedzi - porównanie

Obie metody często "poprawne" - pokazujemy outputy dosłownie do oceny przez człowieka.

Demo workflow CC

Baseline (Grep+Read)

> Gdzie jest hook koszyka w acme-core?
→ Bash: find layers/acme-core -name "*Cart*"          [200ms, ~5kB]
→ Grep: "useCart" layers/acme-core                    [300ms, ~8kB]
→ Read: layers/acme-core/composables/index.ts         [~3kB]
→ Read: layers/acme-logic/composables/useCart.ts  [~1kB]
→ Odpowiedź: "layers/acme-logic/composables/useCart.ts"
Total: ~12s, 4 tool calls, ~17kB do kontekstu

Brain

> Gdzie jest hook koszyka w acme-core?
→ brain_query(q="Cart", scope="acme/Acme")  [150ms, ~2kB]
→ Odpowiedź: "layers/acme-logic/composables/useCart.ts"
Total: ~3s, 1 tool call, ~2kB do kontekstu

Przewodnik wdrożenia

Dla deweloperów (15 minut)

Krok 1: Zdobądź dev token od admina
Krok 2: claude mcp add brain --transport http --scope user https://brain.sdet.it/mcp --header "Authorization: Bearer $TOKEN"
Krok 3: Restart CC → /mcp → brain connected
Krok 4: Zobacz Quick Start

Dla architektów

Dodaj repo do groups.yml
Uruchom /brain-extract w CC albo czekaj na webhook extract
Brain auto-federuje w 3 min od pusha
Dashboard pod /admin/dashboard

Dla ops

Pojedynczy stos Docker-compose (API + worker + Postgres + Redis + nginx)
Chodzi na 2-core 4GB VPS
Alerty out of the box (Discord, Slack)
Codzienny archive + rotacja + obserwowalność

FAQ

P: Czy brain zastępuje Grep/Read/Glob?

Nie. Brain dodaje semantyczne zapytania do grafu. CC nadal używa Grep do regex search i Read do pełnej zawartości plików. Narzędzia brain są od "co / gdzie / kto / połączone".

P: Co jeśli brain padnie?

CC wraca do Grep/Read/Glob. Worst case: wolniej (tryb baseline).

P: Jak świeży jest graf?

Polling 5min + re-extraction po webhooku. Typowa świeżość < 5min.

P: Czy mój kod idzie do osób trzecich?

Tylko metadane grafu (ID node'ów, ścieżki). Hostuj na własnym VPS dla zero zewnętrznego flow.

READY