Agenci AI

Praktyczne wprowadzenie w fundamenty, architektury, ekosystem i trendy. Czym agent LLM różni się od chatbota, jak działa pętla ReAct, które frameworki wybierać, co zmienia Model Context Protocol i czego się jeszcze nauczyć, żeby budować coś więcej niż demo.

Stan wiedzy: kwiecień 2026 · Źródła i materiały do pogłębienia

Czym jest agent AI

Agent AI w sensie 2024-2026 to system zbudowany wokół modelu językowego (LLM), który w pętli autonomicznie podejmuje decyzje, wywołuje zewnętrzne narzędzia (function calling) i modyfikuje swoje działanie na podstawie obserwacji wyników. W odróżnieniu od klasycznego chatbota agent nie generuje pojedynczej odpowiedzi — iteracyjnie planuje, działa i koryguje trajektorię, aż osiągnie cel.

Współczesny agent łączy trzy elementy: model językowy jako jednostkę rozumującą, interfejs do narzędzi pozwalający działać poza kontekstem tekstowym (zapytanie do API, wykonanie kodu, modyfikacja pliku), oraz pętlę kontrolną, która podaje wyniki narzędzi z powrotem do modelu jako nowe obserwacje. Termin „agent" w tym znaczeniu spopularyzował się w 2023 roku po publikacji ReAct (Yao et al., 2022) oraz pierwszych viralowych projektach typu AutoGPT.

vs chatbot

Chatbot

Tryb request-response: jedno pytanie, jedna odpowiedź. Brak akcji w świecie zewnętrznym, brak persystentnego stanu zadania.

vs RL agent

Agent RL

AlphaGo, AlphaStar — uczeni przez interakcję ze środowiskiem i sygnał nagrody. Optymalizują wąską politykę. Brak generalizacji poza domenę.

vs rule-based

System ekspertowy

MYCIN, DENDRAL — ręcznie kodowane reguły IF-THEN i baza wiedzy. Nie uczy się, kruchy poza zdefiniowaną domeną.

Kluczowa różnica: agent LLM używa pre-trenowanego ogólnego modelu jako uniwersalnego silnika rozumującego — nie wąsko trenowanej polityki ani ręcznie pisanych reguł.

Z czego składa się agent

Pięć fundamentów, na których stoi każdy współczesny agent LLM:

brain

Model bazowy (LLM)

Generuje plan, wybiera narzędzie, interpretuje wynik i decyduje o kolejnym kroku. Termin reasoning oznacza generowanie pośrednich kroków rozumowania w przestrzeni tokenów (Chain of Thought). Od 2024 r. mamy też dedykowane reasoning models (OpenAI o1/o3, DeepSeek R1, Claude extended thinking) z wbudowaną fazą wewnętrznego rozumowania.

hands

Narzędzia (tool calling)

Mechanizm, w którym model emituje strukturalne wywołanie funkcji w JSON zamiast tekstu (wprowadzony przez OpenAI w czerwcu 2023). Schemat narzędzia podaje się w prompcie (nazwa, opis, JSON schema parametrów); runtime wykonuje funkcję i wstrzykuje wynik z powrotem do kontekstu jako tool_result. Typowe: web_search, execute_python, read_file, http_request.

memory

Pamięć

Krótkoterminowa — bieżący kontekst rozmowy w oknie modelu (8k-2M tokenów). Długoterminowa — informacje persystentne między sesjami, zwykle w vector DB (Pinecone, Weaviate, Qdrant, pgvector). Mechanizm RAG: zapytanie → embedding → top-k z bazy → wstrzyknięcie do promptu → odpowiedź LLM.

strategy

Planowanie

Dekompozycja celu na podzadania. Najprostsze: numerowana lista kroków. Bardziej zaawansowane: hierarchiczny plan z warunkami i replanningiem gdy krok zawiedzie. Wzorce: Plan-and-Execute (oddzielny LLM-planner i executor) oraz HTN-style decomposition.

heart

Pętla agenta (ReAct)

Dominujący wzorzec wykonawczy. Cykl Thought → Action → Observation powtarzany aż do Final Answer. Model najpierw werbalizuje rozumowanie, potem emituje akcję, otrzymuje obserwację z runtime, i tak w kółko.

Thought

Model rozumuje: „muszę sprawdzić aktualną cenę X przed zarekomendowaniem".

Action

Emituje JSON: {"name":"web_search","arguments":{"q":"cena X"}}

Observation

Runtime wykonuje wyszukiwanie i zwraca wynik do kontekstu.

Repeat / Final

Model decyduje: kolejny krok lub zakończ z odpowiedzią użytkownikowi.

Architektury i wzorce

Pięć najważniejszych szkieletów, na których buduje się dziś agentów:

ReAct

Yao et al. 2022arXiv:2210.03629

Reasoning i action przeplatane w jednej trajektorii. Prosty, transparentny ślad rozumowania. Świetny do QA z wyszukiwaniem i nawigacji po API. Słaby przy długich trajektoriach — może utknąć w pętli.

Plan-and-Execute

LangChain 2023

Jeden LLM (planner) generuje cały plan z góry, drugi LLM/executor wykonuje kroki sekwencyjnie. Dobre gdy struktura zadania jest przewidywalna i chcemy tańszego executora. Słabość: trudno replanować przy nieoczekiwanych wynikach.

Multi-agent

AutoGen 2023CrewAILangGraph

Wiele wyspecjalizowanych agentów wymieniających wiadomości (researcher, coder, reviewer, manager). Skala dla zadań złożonych i wieloaspektowych. Wady: wzrost kosztu tokenów, problemy z koordynacją, brak gwarancji terminacji.

Reflection / Self-critique

Reflexion 2023Self-Refine 2023

Agent ocenia własną odpowiedź w drugim wywołaniu i iteracyjnie poprawia. Skuteczny dla weryfikowalnych wyników (kod, matematyka). Ograniczenie: krytyk dziedziczy te same biasy co generator.

Tree-of-Thoughts & Memory-augmented

ToT 2023MemGPT/Letta 2023

ToT to eksploracja wielu ścieżek rozumowania w drzewie z heurystyką wyboru gałęzi (BFS/DFS + LLM-evaluator) — dobre dla łamigłówek i zadań kombinatorycznych, kosztowne tokenowo. Memory-augmented — agent z dedykowaną pamięcią długoterminową (vector DB), zapisuje fakty i pobiera je przy nowej sesji. Fundament dla agentów personalnych i długich projektów.

Krótka historia (2022 → 2026)

Kamienie milowe, które uformowały dzisiejsze pole agentów AI:

październik 2022

ReAct paper

Yao et al. (Princeton + Google) publikują pracę łączącą reasoning z action w pętli LLM. Akademicki fundament wszystkiego, co przyszło później.

marzec — kwiecień 2023

AutoGPT & BabyAGI

AutoGPT (Significant Gravitas) — pierwszy viralowy autonomous agent oparty na GPT-4 w pętli z dostępem do internetu i shellem. W kilka tygodni 100k+ gwiazdek na GitHubie. Razem z BabyAGI (Yohei Nakajima, ~140 linii Pythona) pokazują, że pętla agenta może być prosta — i że problemami są: zapętlanie, koszty, halucynacje.

kwiecień — maj 2023

Voyager & Generative Agents

Voyager (NVIDIA + Caltech) — GPT-4 w Minecrafcie z lifelong learning, pierwszy agent osiągający long-horizon discovery w otwartym świecie. Generative Agents (Stanford + Google) — 25 LLM-agentów w symulacji miasteczka Smallville z pamięcią epizodyczną i refleksją.

październik 2023

SWE-bench

Princeton publikuje benchmark realnych issues z GitHuba (django, sympy, …). Staje się głównym standardem oceny coding agents. SWE-bench Verified (2024) to ulepszona, ręcznie zwalidowana wersja.

marzec 2024

Devin

Cognition Labs reklamuje „pierwszego AI software engineera". Demo budzi kontrowersje co do autentyczności części przebiegów, ale zmienia rozmowę o coding agents w całej branży.

październik 2024

Anthropic Computer Use

Pierwsze publiczne API pozwalające modelowi (Claude 3.5 Sonnet new) sterować desktopem przez screenshoty + wirtualną mysz/klawiaturę. Otwiera erę agentów OS-level.

listopad 2024

Model Context Protocol (MCP)

Anthropic ogłasza otwarty standard łączenia agentów z narzędziami i źródłami danych. W ciągu kilku miesięcy adoptują go OpenAI, Google DeepMind, IDE (Cursor, Continue, Zed), platformy (Replit, Sourcegraph). Staje się de facto standardem.

styczeń — marzec 2025

Operator, Deep Research, OpenAI Agents SDK

OpenAI Operator — agent przeglądarkowy CUA. Deep Research — wielogodzinne agenty researchu z reasoning models. Agents SDK — oficjalne prymitywy (Agents, Handoffs, Guardrails, Tracing) zastępujące eksperymentalny Swarm.

2025 — 2026

Long-horizon agents

Anthropic publikuje wzrosty „task time horizon" (METR — czas zadania, które agent wykonuje autonomicznie, podwaja się co ~7 miesięcy). Sonnet 4.5/4.6, Opus 4.6/4.7 z 1M kontekstu. Agenty zaczynają stabilnie utrzymywać kilkugodzinne zadania kodingowe.

Frameworki — co wybrać

Dziewięć najczęściej używanych frameworków do budowy agentów (stan początek 2026):

LangGraph

LangChain Inc.Py + TS

Agenci jako grafy stanu (nodes + edges) z explicit kontrolą flow, persistencją i checkpointami. Najlepszy do production-grade workflow z rozgałęzieniami, retry, eskalacjami. Krzywa nauki + boilerplate. langchain-ai.github.io/langgraph

CrewAI

Pythonmulti-agent

Metafora „załogi": role × cele × zadania. Niska bariera wejścia, dobre dla prototypów multi-agent i pipeline'ów contentowych. Mniej dojrzała observability. crewai.com

AutoGen

Microsoft ResearchPy + .NET

Konwersacyjny multi-agent. v0.4 (styczeń 2025) — duży rewrite na architekturę event-driven, asynchroniczną i rozproszoną. Świetnie integruje się z Azure i AutoGen Studio (low-code GUI). microsoft.github.io/autogen

OpenAI Agents SDK

OpenAIPy + TS

Agents, Handoffs, Guardrails, Tracing. Następca eksperymentalnego Swarm. Wbudowany tracing w dashboard, integracja z computer use. Vendor lock-in na modele OpenAI. openai-agents-python docs

Claude Agent SDK

AnthropicPy + TS

Wywodzący się z Claude Code („harness" przetestowany w produkcji). Native MCP, prompt caching, subagenty, hooks, permissions. Bardzo dobry do long-horizon tasks. docs.claude.com

LlamaIndex Agents

data-firstRAG

Workflows (event-driven) i AgentWorkflow w paradygmacie data + retrieval. Najlepszy gdy zadanie kręci się wokół dokumentów / structured data. Bogate connectory (LlamaHub). docs.llamaindex.ai

Pydantic AI

type-safePython

„FastAPI dla agentów" — type-safe walidacja wejść/wyjść przez Pydantic, świetne IDE-experience, structured outputs, model-agnostic. Ogłoszony grudzień 2024. ai.pydantic.dev

Mastra

TypeScriptVercel-style DX

TypeScript-first framework — workflows, RAG, memory, evals. Najnaturalniejszy wybór dla front-end / Node ekosystemu, integracja z AI SDK Vercel. mastra.ai

Smolagents

Hugging Face~1k linii

Minimalistyczna biblioteka HF — agent jako „code agent" piszący kod w Pythonie zamiast strukturalnego JSON tool-callingu. Dobra do edukacji i lokalnych modeli. huggingface.co/docs/smolagents

Szybkie porównanie

Framework	Język	Multi-agent	Observability	Momentum 2026
LangGraph	Py + TS	Tak	LangSmith	Bardzo wysokie
CrewAI	Py	Tak (rola/cel)	Wbudowane	Wysokie
AutoGen	Py + .NET	Tak	AutoGen Studio + OTel	Średnie/wysokie
OpenAI Agents SDK	Py + TS	Handoffs	OpenAI tracing	Wysokie
Claude Agent SDK	Py + TS	Subagents	Hooks + custom	Bardzo wysokie
LlamaIndex	Py + TS	Workflows	LlamaTrace	Stabilne
Pydantic AI	Py	Tak (graph)	Logfire	Rosnące
Mastra	TS	Tak	Wbudowane evals	Rosnące
Smolagents	Py	Ograniczone	Proste	Niskie/niszowe

Model Context Protocol (MCP)

Otwarty standard ogłoszony przez Anthropic w listopadzie 2024. Definiuje protokół (JSON-RPC over stdio lub HTTP/SSE) między hostem (klient agenta — Claude Desktop, IDE), klientem (instancja w hoście) i serwerem (proces eksponujący narzędzia, zasoby, prompty).

Cel: zamiast pisać N×M integracji (każdy klient × każde narzędzie), pisze się raz serwer MCP, który działa wszędzie. Często porównywane do USB-C dla AI.

Adopcja w 2025-2026

Anthropic — Claude Desktop, Claude Code, Claude.ai (od 2025)
OpenAI — wsparcie ogłoszone marzec 2025 (Sam Altman); ChatGPT i Agents SDK obsługują MCP
Google DeepMind — wsparcie w Gemini SDK (2025)
IDE: Cursor, Continue, Cline, Zed, JetBrains AI Assistant
Platformy: Replit, Sourcegraph, Block (Square), Apollo, Microsoft Copilot Studio

Przykładowe serwery

filesystem · GitHub · GitLab · Slack · Google Drive · Postgres · SQLite · Puppeteer · Brave Search · Notion · Linear · Sentry — rejestr społecznościowy obejmuje setki publicznych serwerów. Strona: modelcontextprotocol.io

Zastosowania w produkcji

Gdzie agenci AI najlepiej się sprawdzają w 2025-2026 — z konkretnymi przykładami:

Coding agents

Claude Code, Cursor, GitHub Copilot Workspace, Cline, Devin (Cognition), Aider. Działa, bo kod ma jasne pętle feedback (kompilator, testy), pliki łatwe do iteracji, wartość per-task wysoka.

Research agents

OpenAI Deep Research (luty 2025), Anthropic Research, Perplexity Spaces, GPT Researcher (open source). Pętla „search → read → synthesize" świetnie mapuje się na agenta.

Customer service

Intercom Fin, Decagon, Sierra (Bret Taylor). Powtarzalne zapytania, dostępne knowledge bases, mierzalne deflection rate.

Browser / computer-use

Anthropic Computer Use, OpenAI Operator, Browserbase / Stagehand. Ogromna powierzchnia legacy aplikacji bez API; ROI przy automatyzacji powtarzalnego klikania.

Data analysis

Julius AI, Hex Magic. Natural language → SQL/Python → wykresy. Dane mają strukturę, pętla „query → wynik → poprawka" pasuje.

Sales / CRM

11x.ai (Alice — SDR, Mike — AE), Clay. Zadania powtarzalne, struktura CRM, mierzalny outcome (booked meetings).

Content creation

Manus (Butterfly Effect, marzec 2025), Lovable, Bolt.new (StackBlitz). Deliverable to artefakt (kod, strona, dokument), preview-loop bardzo szybki.

IT / DevOps

PagerDuty AIOps, Resolve.ai (ex-Datadog/Splunk). Triage incydentów. Ogromna telemetria + runbooki, wysoki koszt downtime.

Trendy 2026

Agentic workflows nad single-call

Anthropic („Building effective agents", grudzień 2024) i Cognition propagują zasadę: prosta orkiestracja + dobry model > skomplikowane frameworki. Mniej abstrakcji, więcej kontroli nad tym, co się rzeczywiście dzieje.

Long-horizon agents

METR (Model Evaluation & Threat Research) publikuje benchmark „task time horizon" — czas zadania, które agent wykonuje autonomicznie, podwaja się co ~7 miesięcy w 2024-2025. Sonnet 4.5/4.6, Opus 4.6/4.7 z 1M kontekstu stabilnie utrzymują kilkugodzinne zadania kodingowe.

Computer use / OS-level control

OpenAI Operator i Anthropic Computer Use konkurują na OSWorld. Capability rośnie, ale reliability na nietypowych UI dalej kuleje.

Subagenty i nested architectures

Claude Code subagents, OpenAI handoffs, AutoGen GroupChat. Wzorzec orchestrator + specialized workers dominuje — każdy subagent z własnym, węższym kontekstem i toolami.

Platformy no-code

n8n (z AI nodes), Zapier Agents, Make.com, Gumloop, Lindy. Dojrzewają jako mainstream automatyzacja w 2025-2026 — agent dla marketera, nie programisty.

Pamięć

Perpetual memory (Letta/MemGPT), episodic memory, sleep-time learning (Anthropic eksperymenty 2025), Mem0 jako memory-as-a-service. Powolne odchodzenie od stateless ku agentom, którzy „pamiętają" przez tygodnie.

Cost & efficiency

Prompt caching (Anthropic od sierpnia 2024) — do 90% redukcji kosztów input dla powtarzanego kontekstu. Krytyczne dla agentów z dużymi system promptami i toolami.
Batch APIs (OpenAI, Anthropic) — 50% rabat, latencja godzinowa.
Model cascading — Haiku 4.5 / Gemini Flash / DeepSeek dla rutyny, Sonnet/GPT-5 dla decyzji, Opus / o3 dla trudnych kroków.

Regulacje (EU AI Act)

Wszedł w życie sierpień 2024. Obowiązki dot. GPAI od 2 sierpnia 2025; pełne stosowanie od 2 sierpnia 2026. Tematy: oversight, transparentność, agent autonomy, ślad audytowy. Każdy produkcyjny agent w UE potrzebuje dokumentacji, jak podejmuje decyzje.

Limity i wyzwania

Czego trzeba świadomie unikać przy budowaniu agentów:

Halucynacje narzędzi

Modele wywołują nieistniejące funkcje, podają złe nazwy parametrów, wymyślają argumenty niepasujące do schematu. Mitygacja: walidacja JSON-schema (Pydantic, Zod), ograniczenie listy tools w prompcie, retry z feedbackiem o błędzie.

Eksplozja kosztów

Każda iteracja pętli ReAct dorzuca poprzednie obserwacje do kontekstu — koszt rośnie nieliniowo. W typowym workflow 70-90% tokenów to ponownie przesyłany kontekst. Mitygacja: prompt caching, kompresja trajektorii, sub-agenci z krótszym kontekstem, periodyczna sumaryzacja.

Kumulacja błędów

95% accuracy per krok × 20 kroków ≈ 36% szansy ukończenia bez błędu. Im dłuższe zadanie, tym wyższe ryzyko. SWE-bench Verified: najlepsze agenty 2025-2026 osiągają 70-80%, ale spadek przy zadaniach >50 kroków drastyczny.

Prompt injection

OWASP LLM01:2025 — najpoważniejsze ryzyko. Złośliwe instrukcje w danych wejściowych narzędzi (treść strony WWW, plik, email) przejmują kontrolę. Szczególnie groźne dla browser/computer-use agents. Pokrewne: data exfiltration, indirect prompt injection, RAG poisoning.

Doom loops

Agent powtarza ten sam (błędny) wzorzec — wywołuje to samo narzędzie z tym samym argumentem licząc na inny wynik, lub krąży między dwoma stanami. Mitygacja: detekcja powtórzeń, twarde limity kroków, zewnętrzny watchdog, human-in-the-loop checkpoints.

Ewaluacja

Brak dobrych benchmarków produkcyjnych. „Działa raz, drugi raz nie". Public: SWE-bench Verified, GAIA, AgentBench, WebArena, OSWorld, τ-bench, BrowseComp, MLE-bench. Wymagane: golden traces, regresja na realnych logach (LangSmith, Braintrust, Langfuse, Arize Phoenix).

Słownik

Tool calling / function calling: Mechanizm, w którym LLM emituje ustrukturyzowane wywołanie funkcji (JSON z nazwą i argumentami) zamiast zwykłego tekstu. Wprowadzony przez OpenAI w czerwcu 2023, dziś standard we wszystkich produkcyjnych API. Techniczny fundament agentów.
Context window: Maksymalna liczba tokenów, którą model może jednorazowo przetworzyć. Ewolucja: GPT-3 (2020) — 2k → GPT-4 (2023) — 32k → Gemini 1.5 (2024) — 1M → Claude Opus 4.7 (2026) — 1M. Większe okno = więcej historii w jednej pętli, ale rosnący koszt obliczeniowy.
Embeddings: Gęsty wektor liczbowy (384-3072 wymiarów) reprezentujący semantykę tekstu. Teksty bliskie znaczeniowo mają wektory bliskie w przestrzeni (cosine similarity). Modele: OpenAI text-embedding-3, Cohere Embed, BGE, Voyage AI.
Vector DB: Baza zoptymalizowana pod approximate nearest neighbor search. Pinecone, Weaviate, Qdrant, Chroma, Milvus, pgvector. Algorytmy: HNSW, IVF.
RAG: Retrieval-Augmented Generation. Wzorzec wprowadzony przez Lewis et al., Facebook AI (2020). Schemat: zapytanie → embedding → retrieval top-k → wstrzyknięcie do promptu → generacja odpowiedzi. Pozwala odpowiadać na podstawie aktualnych/prywatnych danych bez fine-tuningu i ogranicza halucynacje.
Chain of Thought (CoT): Technika promptowania, w której model generuje pośrednie kroki rozumowania przed odpowiedzią. Praca założycielska: Wei et al., Google Brain (styczeń 2022). Zero-shot wariant: „Let's think step by step" (Kojima et al., maj 2022).
Reasoning model: Model trenowany do generowania długich wewnętrznych rozumowań przed odpowiedzią. OpenAI o1 (wrzesień 2024), o3 (grudzień 2024), DeepSeek R1 (styczeń 2025), Claude extended thinking (luty 2025). Internalizacja CoT na poziomie treningu.
MCP: Model Context Protocol. Otwarty standard od Anthropic (listopad 2024). JSON-RPC między hostem (klient agenta), klientem i serwerem (proces wystawiający narzędzia, zasoby, prompty). De facto USB-C dla AI.
Subagent: Wyspecjalizowany agent z własnym, węższym kontekstem i zestawem narzędzi, wywoływany przez agenta-orchestratora. Wzorzec dominujący w produkcji 2025-2026 (Claude Code, OpenAI handoffs, AutoGen GroupChat).
Computer use: Zdolność modelu do sterowania komputerem przez screenshoty + wirtualną mysz/klawiaturę (Anthropic Computer Use, październik 2024) lub przeglądarką (OpenAI Operator, styczeń 2025). Otwiera dostęp do legacy aplikacji bez API.
Prompt injection: Atak, w którym złośliwe instrukcje w danych wejściowych narzędzi (strony WWW, pliki, emaile) przejmują kontrolę nad agentem. OWASP LLM01:2025 — najpoważniejsze ryzyko bezpieczeństwa LLM.
Prompt caching: Buforowanie powtarzanego prefixu (system prompt + tool schemas) na poziomie API. Anthropic od sierpnia 2024, OpenAI od końca 2024. Do 90% redukcji kosztów input — krytyczne dla agentów z dużymi system promptami.

Materiały do pogłębienia

Kluczowe prace akademickie i otwarte źródła do dalszej nauki:

Prace akademickie

ReAct: Synergizing Reasoning and Acting in Language Models — Yao et al., 2022
Reflexion: Language Agents with Verbal Reinforcement Learning — Shinn et al., 2023
Tree of Thoughts: Deliberate Problem Solving with LLMs — Yao et al., 2023
Voyager: An Open-Ended Embodied Agent with LLMs — Wang et al., NVIDIA 2023
Generative Agents: Interactive Simulacra of Human Behavior — Park et al., Stanford 2023
MemGPT: Towards LLMs as Operating Systems — Packer et al., 2023
AutoGen: Enabling Next-Gen LLM Applications — Wu et al., Microsoft 2023
SWE-bench: Can Language Models Resolve Real-World GitHub Issues? — Jimenez et al., 2023
Chain-of-Thought Prompting Elicits Reasoning in LLMs — Wei et al., 2022
Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks — Lewis et al., 2020
Not what you've signed up for: Indirect Prompt Injection — Greshake et al., 2023

Materiały praktyczne

Anthropic — Building effective agents (grudzień 2024)
Model Context Protocol — dokumentacja
Hugging Face — Agents Course
awesome-ai-agents (lista frameworków i produktów)

Benchmarki agentów

SWE-bench Verified — kanon dla coding agents (issues z GitHuba)
OSWorld — sterowanie systemem operacyjnym
GAIA — general assistant questions z toolami
τ-bench — interakcje agent-user (Sierra)
BrowseComp — web research (OpenAI 2025)
MLE-bench — Kaggle competitions (OpenAI)