Agenci AI
Praktyczne wprowadzenie w fundamenty, architektury, ekosystem i trendy. Czym agent LLM różni się od chatbota, jak działa pętla ReAct, które frameworki wybierać, co zmienia Model Context Protocol i czego się jeszcze nauczyć, żeby budować coś więcej niż demo.
Czym jest agent AI
Agent AI w sensie 2024-2026 to system zbudowany wokół modelu językowego (LLM), który w pętli autonomicznie podejmuje decyzje, wywołuje zewnętrzne narzędzia (function calling) i modyfikuje swoje działanie na podstawie obserwacji wyników. W odróżnieniu od klasycznego chatbota agent nie generuje pojedynczej odpowiedzi — iteracyjnie planuje, działa i koryguje trajektorię, aż osiągnie cel.
Współczesny agent łączy trzy elementy: model językowy jako jednostkę rozumującą, interfejs do narzędzi pozwalający działać poza kontekstem tekstowym (zapytanie do API, wykonanie kodu, modyfikacja pliku), oraz pętlę kontrolną, która podaje wyniki narzędzi z powrotem do modelu jako nowe obserwacje. Termin „agent" w tym znaczeniu spopularyzował się w 2023 roku po publikacji ReAct (Yao et al., 2022) oraz pierwszych viralowych projektach typu AutoGPT.
Chatbot
Tryb request-response: jedno pytanie, jedna odpowiedź. Brak akcji w świecie zewnętrznym, brak persystentnego stanu zadania.
Agent RL
AlphaGo, AlphaStar — uczeni przez interakcję ze środowiskiem i sygnał nagrody. Optymalizują wąską politykę. Brak generalizacji poza domenę.
System ekspertowy
MYCIN, DENDRAL — ręcznie kodowane reguły IF-THEN i baza wiedzy. Nie uczy się, kruchy poza zdefiniowaną domeną.
Kluczowa różnica: agent LLM używa pre-trenowanego ogólnego modelu jako uniwersalnego silnika rozumującego — nie wąsko trenowanej polityki ani ręcznie pisanych reguł.
Z czego składa się agent
Pięć fundamentów, na których stoi każdy współczesny agent LLM:
Model bazowy (LLM)
Generuje plan, wybiera narzędzie, interpretuje wynik i decyduje o kolejnym kroku. Termin reasoning oznacza generowanie pośrednich kroków rozumowania w przestrzeni tokenów (Chain of Thought). Od 2024 r. mamy też dedykowane reasoning models (OpenAI o1/o3, DeepSeek R1, Claude extended thinking) z wbudowaną fazą wewnętrznego rozumowania.
Narzędzia (tool calling)
Mechanizm, w którym model emituje strukturalne wywołanie funkcji w JSON
zamiast tekstu (wprowadzony przez OpenAI w czerwcu 2023).
Schemat narzędzia podaje się w prompcie (nazwa, opis, JSON schema parametrów);
runtime wykonuje funkcję i wstrzykuje wynik z powrotem do kontekstu jako
tool_result. Typowe: web_search, execute_python,
read_file, http_request.
Pamięć
Krótkoterminowa — bieżący kontekst rozmowy w oknie modelu (8k-2M tokenów). Długoterminowa — informacje persystentne między sesjami, zwykle w vector DB (Pinecone, Weaviate, Qdrant, pgvector). Mechanizm RAG: zapytanie → embedding → top-k z bazy → wstrzyknięcie do promptu → odpowiedź LLM.
Planowanie
Dekompozycja celu na podzadania. Najprostsze: numerowana lista kroków. Bardziej zaawansowane: hierarchiczny plan z warunkami i replanningiem gdy krok zawiedzie. Wzorce: Plan-and-Execute (oddzielny LLM-planner i executor) oraz HTN-style decomposition.
Pętla agenta (ReAct)
Dominujący wzorzec wykonawczy. Cykl Thought → Action → Observation
powtarzany aż do Final Answer. Model najpierw werbalizuje rozumowanie,
potem emituje akcję, otrzymuje obserwację z runtime, i tak w kółko.
Thought
Model rozumuje: „muszę sprawdzić aktualną cenę X przed zarekomendowaniem".
Action
Emituje JSON: {"name":"web_search","arguments":{"q":"cena X"}}
Observation
Runtime wykonuje wyszukiwanie i zwraca wynik do kontekstu.
Repeat / Final
Model decyduje: kolejny krok lub zakończ z odpowiedzią użytkownikowi.
Architektury i wzorce
Pięć najważniejszych szkieletów, na których buduje się dziś agentów:
ReAct
Reasoning i action przeplatane w jednej trajektorii. Prosty, transparentny ślad rozumowania. Świetny do QA z wyszukiwaniem i nawigacji po API. Słaby przy długich trajektoriach — może utknąć w pętli.
Plan-and-Execute
Jeden LLM (planner) generuje cały plan z góry, drugi LLM/executor wykonuje kroki sekwencyjnie. Dobre gdy struktura zadania jest przewidywalna i chcemy tańszego executora. Słabość: trudno replanować przy nieoczekiwanych wynikach.
Multi-agent
Wiele wyspecjalizowanych agentów wymieniających wiadomości (researcher, coder, reviewer, manager). Skala dla zadań złożonych i wieloaspektowych. Wady: wzrost kosztu tokenów, problemy z koordynacją, brak gwarancji terminacji.
Reflection / Self-critique
Agent ocenia własną odpowiedź w drugim wywołaniu i iteracyjnie poprawia. Skuteczny dla weryfikowalnych wyników (kod, matematyka). Ograniczenie: krytyk dziedziczy te same biasy co generator.
Tree-of-Thoughts & Memory-augmented
ToT to eksploracja wielu ścieżek rozumowania w drzewie z heurystyką wyboru gałęzi (BFS/DFS + LLM-evaluator) — dobre dla łamigłówek i zadań kombinatorycznych, kosztowne tokenowo. Memory-augmented — agent z dedykowaną pamięcią długoterminową (vector DB), zapisuje fakty i pobiera je przy nowej sesji. Fundament dla agentów personalnych i długich projektów.
Krótka historia (2022 → 2026)
Kamienie milowe, które uformowały dzisiejsze pole agentów AI:
Frameworki — co wybrać
Dziewięć najczęściej używanych frameworków do budowy agentów (stan początek 2026):
LangGraph
Agenci jako grafy stanu (nodes + edges) z explicit kontrolą flow, persistencją i checkpointami. Najlepszy do production-grade workflow z rozgałęzieniami, retry, eskalacjami. Krzywa nauki + boilerplate. langchain-ai.github.io/langgraph
CrewAI
Metafora „załogi": role × cele × zadania. Niska bariera wejścia, dobre dla prototypów multi-agent i pipeline'ów contentowych. Mniej dojrzała observability. crewai.com
AutoGen
Konwersacyjny multi-agent. v0.4 (styczeń 2025) — duży rewrite na architekturę event-driven, asynchroniczną i rozproszoną. Świetnie integruje się z Azure i AutoGen Studio (low-code GUI). microsoft.github.io/autogen
OpenAI Agents SDK
Agents, Handoffs, Guardrails, Tracing. Następca eksperymentalnego Swarm. Wbudowany tracing w dashboard, integracja z computer use. Vendor lock-in na modele OpenAI. openai-agents-python docs
Claude Agent SDK
Wywodzący się z Claude Code („harness" przetestowany w produkcji). Native MCP, prompt caching, subagenty, hooks, permissions. Bardzo dobry do long-horizon tasks. docs.claude.com
LlamaIndex Agents
Workflows (event-driven) i AgentWorkflow w paradygmacie data + retrieval. Najlepszy gdy zadanie kręci się wokół dokumentów / structured data. Bogate connectory (LlamaHub). docs.llamaindex.ai
Pydantic AI
„FastAPI dla agentów" — type-safe walidacja wejść/wyjść przez Pydantic, świetne IDE-experience, structured outputs, model-agnostic. Ogłoszony grudzień 2024. ai.pydantic.dev
Mastra
TypeScript-first framework — workflows, RAG, memory, evals. Najnaturalniejszy wybór dla front-end / Node ekosystemu, integracja z AI SDK Vercel. mastra.ai
Smolagents
Minimalistyczna biblioteka HF — agent jako „code agent" piszący kod w Pythonie zamiast strukturalnego JSON tool-callingu. Dobra do edukacji i lokalnych modeli. huggingface.co/docs/smolagents
Szybkie porównanie
| Framework | Język | Multi-agent | Observability | Momentum 2026 |
|---|---|---|---|---|
| LangGraph | Py + TS | Tak | LangSmith | Bardzo wysokie |
| CrewAI | Py | Tak (rola/cel) | Wbudowane | Wysokie |
| AutoGen | Py + .NET | Tak | AutoGen Studio + OTel | Średnie/wysokie |
| OpenAI Agents SDK | Py + TS | Handoffs | OpenAI tracing | Wysokie |
| Claude Agent SDK | Py + TS | Subagents | Hooks + custom | Bardzo wysokie |
| LlamaIndex | Py + TS | Workflows | LlamaTrace | Stabilne |
| Pydantic AI | Py | Tak (graph) | Logfire | Rosnące |
| Mastra | TS | Tak | Wbudowane evals | Rosnące |
| Smolagents | Py | Ograniczone | Proste | Niskie/niszowe |
Model Context Protocol (MCP)
Otwarty standard ogłoszony przez Anthropic w listopadzie 2024. Definiuje protokół (JSON-RPC over stdio lub HTTP/SSE) między hostem (klient agenta — Claude Desktop, IDE), klientem (instancja w hoście) i serwerem (proces eksponujący narzędzia, zasoby, prompty).
Cel: zamiast pisać N×M integracji (każdy klient × każde narzędzie),
pisze się raz serwer MCP, który działa wszędzie. Często porównywane do
USB-C dla AI.
Adopcja w 2025-2026
- Anthropic — Claude Desktop, Claude Code, Claude.ai (od 2025)
- OpenAI — wsparcie ogłoszone marzec 2025 (Sam Altman); ChatGPT i Agents SDK obsługują MCP
- Google DeepMind — wsparcie w Gemini SDK (2025)
- IDE: Cursor, Continue, Cline, Zed, JetBrains AI Assistant
- Platformy: Replit, Sourcegraph, Block (Square), Apollo, Microsoft Copilot Studio
Przykładowe serwery
filesystem · GitHub · GitLab · Slack · Google Drive · Postgres · SQLite · Puppeteer · Brave Search · Notion · Linear · Sentry — rejestr społecznościowy obejmuje setki publicznych serwerów. Strona: modelcontextprotocol.io
Zastosowania w produkcji
Gdzie agenci AI najlepiej się sprawdzają w 2025-2026 — z konkretnymi przykładami:
Coding agents
Claude Code, Cursor, GitHub Copilot Workspace, Cline, Devin (Cognition), Aider. Działa, bo kod ma jasne pętle feedback (kompilator, testy), pliki łatwe do iteracji, wartość per-task wysoka.
Research agents
OpenAI Deep Research (luty 2025), Anthropic Research, Perplexity Spaces, GPT Researcher (open source). Pętla „search → read → synthesize" świetnie mapuje się na agenta.
Customer service
Intercom Fin, Decagon, Sierra (Bret Taylor). Powtarzalne zapytania, dostępne knowledge bases, mierzalne deflection rate.
Browser / computer-use
Anthropic Computer Use, OpenAI Operator, Browserbase / Stagehand. Ogromna powierzchnia legacy aplikacji bez API; ROI przy automatyzacji powtarzalnego klikania.
Data analysis
Julius AI, Hex Magic. Natural language → SQL/Python → wykresy. Dane mają strukturę, pętla „query → wynik → poprawka" pasuje.
Sales / CRM
11x.ai (Alice — SDR, Mike — AE), Clay. Zadania powtarzalne, struktura CRM, mierzalny outcome (booked meetings).
Content creation
Manus (Butterfly Effect, marzec 2025), Lovable, Bolt.new (StackBlitz). Deliverable to artefakt (kod, strona, dokument), preview-loop bardzo szybki.
IT / DevOps
PagerDuty AIOps, Resolve.ai (ex-Datadog/Splunk). Triage incydentów. Ogromna telemetria + runbooki, wysoki koszt downtime.
Trendy 2026
Agentic workflows nad single-call
Anthropic („Building effective agents", grudzień 2024) i Cognition propagują zasadę: prosta orkiestracja + dobry model > skomplikowane frameworki. Mniej abstrakcji, więcej kontroli nad tym, co się rzeczywiście dzieje.
Long-horizon agents
METR (Model Evaluation & Threat Research) publikuje benchmark „task time horizon" — czas zadania, które agent wykonuje autonomicznie, podwaja się co ~7 miesięcy w 2024-2025. Sonnet 4.5/4.6, Opus 4.6/4.7 z 1M kontekstu stabilnie utrzymują kilkugodzinne zadania kodingowe.
Computer use / OS-level control
OpenAI Operator i Anthropic Computer Use konkurują na OSWorld. Capability rośnie, ale reliability na nietypowych UI dalej kuleje.
Subagenty i nested architectures
Claude Code subagents, OpenAI handoffs, AutoGen GroupChat. Wzorzec orchestrator + specialized workers dominuje — każdy subagent z własnym, węższym kontekstem i toolami.
Platformy no-code
n8n (z AI nodes), Zapier Agents, Make.com, Gumloop, Lindy. Dojrzewają jako mainstream automatyzacja w 2025-2026 — agent dla marketera, nie programisty.
Pamięć
Perpetual memory (Letta/MemGPT), episodic memory, sleep-time learning (Anthropic eksperymenty 2025), Mem0 jako memory-as-a-service. Powolne odchodzenie od stateless ku agentom, którzy „pamiętają" przez tygodnie.
Cost & efficiency
- Prompt caching (Anthropic od sierpnia 2024) — do 90% redukcji kosztów input dla powtarzanego kontekstu. Krytyczne dla agentów z dużymi system promptami i toolami.
- Batch APIs (OpenAI, Anthropic) — 50% rabat, latencja godzinowa.
- Model cascading — Haiku 4.5 / Gemini Flash / DeepSeek dla rutyny, Sonnet/GPT-5 dla decyzji, Opus / o3 dla trudnych kroków.
Regulacje (EU AI Act)
Wszedł w życie sierpień 2024. Obowiązki dot. GPAI od 2 sierpnia 2025; pełne stosowanie od 2 sierpnia 2026. Tematy: oversight, transparentność, agent autonomy, ślad audytowy. Każdy produkcyjny agent w UE potrzebuje dokumentacji, jak podejmuje decyzje.
Limity i wyzwania
Czego trzeba świadomie unikać przy budowaniu agentów:
Halucynacje narzędzi
Modele wywołują nieistniejące funkcje, podają złe nazwy parametrów, wymyślają argumenty niepasujące do schematu. Mitygacja: walidacja JSON-schema (Pydantic, Zod), ograniczenie listy tools w prompcie, retry z feedbackiem o błędzie.
Eksplozja kosztów
Każda iteracja pętli ReAct dorzuca poprzednie obserwacje do kontekstu — koszt rośnie nieliniowo. W typowym workflow 70-90% tokenów to ponownie przesyłany kontekst. Mitygacja: prompt caching, kompresja trajektorii, sub-agenci z krótszym kontekstem, periodyczna sumaryzacja.
Kumulacja błędów
95% accuracy per krok × 20 kroków ≈ 36% szansy ukończenia bez błędu. Im dłuższe zadanie, tym wyższe ryzyko. SWE-bench Verified: najlepsze agenty 2025-2026 osiągają 70-80%, ale spadek przy zadaniach >50 kroków drastyczny.
Prompt injection
OWASP LLM01:2025 — najpoważniejsze ryzyko. Złośliwe instrukcje w danych wejściowych narzędzi (treść strony WWW, plik, email) przejmują kontrolę. Szczególnie groźne dla browser/computer-use agents. Pokrewne: data exfiltration, indirect prompt injection, RAG poisoning.
Doom loops
Agent powtarza ten sam (błędny) wzorzec — wywołuje to samo narzędzie z tym samym argumentem licząc na inny wynik, lub krąży między dwoma stanami. Mitygacja: detekcja powtórzeń, twarde limity kroków, zewnętrzny watchdog, human-in-the-loop checkpoints.
Ewaluacja
Brak dobrych benchmarków produkcyjnych. „Działa raz, drugi raz nie". Public: SWE-bench Verified, GAIA, AgentBench, WebArena, OSWorld, τ-bench, BrowseComp, MLE-bench. Wymagane: golden traces, regresja na realnych logach (LangSmith, Braintrust, Langfuse, Arize Phoenix).
Słownik
- Tool calling / function calling
- Mechanizm, w którym LLM emituje ustrukturyzowane wywołanie funkcji (JSON z nazwą i argumentami) zamiast zwykłego tekstu. Wprowadzony przez OpenAI w czerwcu 2023, dziś standard we wszystkich produkcyjnych API. Techniczny fundament agentów.
- Context window
- Maksymalna liczba tokenów, którą model może jednorazowo przetworzyć. Ewolucja: GPT-3 (2020) — 2k → GPT-4 (2023) — 32k → Gemini 1.5 (2024) — 1M → Claude Opus 4.7 (2026) — 1M. Większe okno = więcej historii w jednej pętli, ale rosnący koszt obliczeniowy.
- Embeddings
- Gęsty wektor liczbowy (384-3072 wymiarów) reprezentujący semantykę tekstu. Teksty bliskie znaczeniowo mają wektory bliskie w przestrzeni (cosine similarity). Modele: OpenAI text-embedding-3, Cohere Embed, BGE, Voyage AI.
- Vector DB
- Baza zoptymalizowana pod approximate nearest neighbor search. Pinecone, Weaviate, Qdrant, Chroma, Milvus, pgvector. Algorytmy: HNSW, IVF.
- RAG
- Retrieval-Augmented Generation. Wzorzec wprowadzony przez Lewis et al., Facebook AI (2020). Schemat: zapytanie → embedding → retrieval top-k → wstrzyknięcie do promptu → generacja odpowiedzi. Pozwala odpowiadać na podstawie aktualnych/prywatnych danych bez fine-tuningu i ogranicza halucynacje.
- Chain of Thought (CoT)
- Technika promptowania, w której model generuje pośrednie kroki rozumowania przed odpowiedzią. Praca założycielska: Wei et al., Google Brain (styczeń 2022). Zero-shot wariant: „Let's think step by step" (Kojima et al., maj 2022).
- Reasoning model
- Model trenowany do generowania długich wewnętrznych rozumowań przed odpowiedzią. OpenAI o1 (wrzesień 2024), o3 (grudzień 2024), DeepSeek R1 (styczeń 2025), Claude extended thinking (luty 2025). Internalizacja CoT na poziomie treningu.
- MCP
- Model Context Protocol. Otwarty standard od Anthropic (listopad 2024). JSON-RPC między hostem (klient agenta), klientem i serwerem (proces wystawiający narzędzia, zasoby, prompty). De facto USB-C dla AI.
- Subagent
- Wyspecjalizowany agent z własnym, węższym kontekstem i zestawem narzędzi, wywoływany przez agenta-orchestratora. Wzorzec dominujący w produkcji 2025-2026 (Claude Code, OpenAI handoffs, AutoGen GroupChat).
- Computer use
- Zdolność modelu do sterowania komputerem przez screenshoty + wirtualną mysz/klawiaturę (Anthropic Computer Use, październik 2024) lub przeglądarką (OpenAI Operator, styczeń 2025). Otwiera dostęp do legacy aplikacji bez API.
- Prompt injection
- Atak, w którym złośliwe instrukcje w danych wejściowych narzędzi (strony WWW, pliki, emaile) przejmują kontrolę nad agentem. OWASP LLM01:2025 — najpoważniejsze ryzyko bezpieczeństwa LLM.
- Prompt caching
- Buforowanie powtarzanego prefixu (system prompt + tool schemas) na poziomie API. Anthropic od sierpnia 2024, OpenAI od końca 2024. Do 90% redukcji kosztów input — krytyczne dla agentów z dużymi system promptami.
Materiały do pogłębienia
Kluczowe prace akademickie i otwarte źródła do dalszej nauki:
Prace akademickie
- ReAct: Synergizing Reasoning and Acting in Language Models — Yao et al., 2022
- Reflexion: Language Agents with Verbal Reinforcement Learning — Shinn et al., 2023
- Tree of Thoughts: Deliberate Problem Solving with LLMs — Yao et al., 2023
- Voyager: An Open-Ended Embodied Agent with LLMs — Wang et al., NVIDIA 2023
- Generative Agents: Interactive Simulacra of Human Behavior — Park et al., Stanford 2023
- MemGPT: Towards LLMs as Operating Systems — Packer et al., 2023
- AutoGen: Enabling Next-Gen LLM Applications — Wu et al., Microsoft 2023
- SWE-bench: Can Language Models Resolve Real-World GitHub Issues? — Jimenez et al., 2023
- Chain-of-Thought Prompting Elicits Reasoning in LLMs — Wei et al., 2022
- Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks — Lewis et al., 2020
- Not what you've signed up for: Indirect Prompt Injection — Greshake et al., 2023
Materiały praktyczne
- Anthropic — Building effective agents (grudzień 2024)
- Model Context Protocol — dokumentacja
- Hugging Face — Agents Course
- awesome-ai-agents (lista frameworków i produktów)
Benchmarki agentów
- SWE-bench Verified — kanon dla coding agents (issues z GitHuba)
- OSWorld — sterowanie systemem operacyjnym
- GAIA — general assistant questions z toolami
- τ-bench — interakcje agent-user (Sierra)
- BrowseComp — web research (OpenAI 2025)
- MLE-bench — Kaggle competitions (OpenAI)