PRZEGLĄD

RAPORT BENCHMARK

BRAIN MCP vs BASELINE (GREP+READ+GLOB) :: PRAWDZIWA SESJA CLAUDE CODE :: 2026-04-21T10:40:43

OSZCZĘDNOŚĆ FRESH INPUT
51.7%
2,1× mniej fresh tokenów - metryka która liczy się do limitów planu Max
CZAS WALL-CLOCK
29.1%
2204s → 1563s (zaoszczędzone 641s na 50 pytaniach)
TOKENY ŁĄCZNIE (in+out)
-1.8%
baseline 56 374 vs brain 57 401 - podobnie, dominuje cache
NAJWIĘKSZE PRZYSPIESZENIE
15×
Q45 'największy klaster' - 633s baseline → 41s brain

Podsumowanie wykonawcze

Bezpośredni benchmark Claude Code w dwóch konfiguracjach, rozwiązujący te same 50 prawdziwych pytań o analizę kodu na produkcyjnym repo (~/dev/example/Acme).

Prawdziwa wygrana: redukcja Fresh Input

Claude ma trzy typy tokenów. Tylko jeden liczy się w pełni do limitów planu Max:

Typ tokenówBaselineBrainΔWpływ na limit
Fresh input (output narzędzi, nowy kontekst)4 1452 003-51,7%100% wagi
Output (myślenie, odpowiedzi)52 22955 398+6,1%100% wagi
Cache read (powtarzany system prompt)7 521 8197 685 722+2,2%~10% wagi (zdyskontowane)
Co to znaczy dla użytkowników planu Max: brain tnie tokeny które liczą się do limitów 5-godzinnego i tygodniowego o 51,7%. Ta sama subskrypcja, więcej pytań przed limitem.

Główne wnioski

Ten benchmark ruszył na prawdziwym Claude Code + Claude Opus na produkcyjnym kodzie, baseline z dostępem do wszystkich 5 repo acme przez add_dirs. Tokeny mierzone przez Anthropic Agent SDK - żadnych estymat.

Metodologia

Setup testu

Dwie konfiguracje

BASELINE

Narzędzia: Bash, Grep, Read, Glob

Symuluje standardowy CC bez brain.

BRAIN

Narzędzia: brain_query, brain_graph, brain_path, brain_explain, brain_ffcss

MCP po HTTPS do brain.sdet.it.

50 pytań - 5 kategorii

Surowe wyniki - 50 pytań

QKategoria Baseline tokBrain tokRatio Baseline $Brain $ Baseline sBrain s Tools baseTools brain

Analiza per kategoria

Breakdown kategorii

KategoriaN Baseline tokBrain tok Czas baselineCzas brain Oszczędność tokenów

Ekonomia tokenów

Użytkownicy planu Max płacą $0 za token. Liczby poniżej projektują pricing pay-per-use Opus API.

Skalowanie kosztu miesięcznie

Projekcja kosztu zespołu

Wielkość zespołuBaseline $/mies.Brain $/mies.Oszczędność roczna
1 dev$107,47$108,24$-9,24
5 devów$537,35$541,20$-46,20
10 devów$1074,70$1082,40$-92,40
20 devów$2149,40$2164,80$-184,80

Wpływ na okno kontekstu (użytkownicy Max)

Z oknem 1M kontekstu, zanim wskoczy kompresja:

Jakość odpowiedzi - porównanie

Obie metody często "poprawne" - pokazujemy outputy dosłownie do oceny przez człowieka.

Demo workflow CC

Baseline (Grep+Read)

> Gdzie jest hook koszyka w acme-core?
→ Bash: find layers/acme-core -name "*Cart*"          [200ms, ~5kB]
→ Grep: "useCart" layers/acme-core                    [300ms, ~8kB]
→ Read: layers/acme-core/composables/index.ts         [~3kB]
→ Read: layers/acme-logic/composables/useCart.ts  [~1kB]
→ Odpowiedź: "layers/acme-logic/composables/useCart.ts"
Total: ~12s, 4 tool calls, ~17kB do kontekstu

Brain

> Gdzie jest hook koszyka w acme-core?
→ brain_query(q="Cart", scope="acme/Acme")  [150ms, ~2kB]
→ Odpowiedź: "layers/acme-logic/composables/useCart.ts"
Total: ~3s, 1 tool call, ~2kB do kontekstu

Przewodnik wdrożenia

Dla deweloperów (15 minut)

Dla architektów

Dla ops

FAQ

P: Czy brain zastępuje Grep/Read/Glob?

Nie. Brain dodaje semantyczne zapytania do grafu. CC nadal używa Grep do regex search i Read do pełnej zawartości plików. Narzędzia brain są od "co / gdzie / kto / połączone".

P: Co jeśli brain padnie?

CC wraca do Grep/Read/Glob. Worst case: wolniej (tryb baseline).

P: Jak świeży jest graf?

Polling 5min + re-extraction po webhooku. Typowa świeżość < 5min.

P: Czy mój kod idzie do osób trzecich?

Tylko metadane grafu (ID node'ów, ścieżki). Hostuj na własnym VPS dla zero zewnętrznego flow.

READY