Kategoria: Sztuczna Inteligencja

  • Gemini CLI v0.39.0-nightly.20260409: lepsza kontrola i wydajność dla nocnej wersji

    Gemini CLI v0.39.0-nightly.20260409: lepsza kontrola i wydajność dla nocnej wersji

    Google wydało nową nocną wersję swojego narzędzia AI działającego w terminalu — Gemini CLI v0.39.0-nightly.20260409. Aktualizacja koncentruje się na zwiększeniu kontroli użytkownika nad agentem, poprawie wydajności systemu oraz usunięciu kilku kluczowych błędów, które utrudniały pracę. Dla deweloperów i entuzjastów web devu oraz AI oznacza to bardziej stabilne i przewidywalne środowisko pracy bezpośrednio z linii poleceń.

    Wśród najważniejszych zmian widać wyraźny nacisk na bezpieczeństwo operacji. Tryb Plan, w którym AI może autonomicznie planować zadania, teraz wymaga od użytkownika ręcznego potwierdzenia przed aktywacją każdej umiejętności. To istotna zmiana, która pozwala na lepszą kontrolę nad bardziej złożonymi, automatycznymi workflow. Dopracowano także formatowanie wyjścia narzędzi oraz obsługę klawiszy w Windows Terminal, rozwiązując problem z usuwaniem całych słów za pomocą Ctrl+Backspace.

    Kluczowe zmiany w nocnej wersji 0.39.0

    • Wzmocniona kontrola w trybie Plan: Wprowadzono obowiązkowe potwierdzenie użytkownika dla aktywacji umiejętności, co daje większą władzę nad działaniami agenta.
    • Poprawki dla Windows Terminal i stabilności sesji: Naprawiono błąd uniemożliwiający usuwanie całych słów (Ctrl+Backspace) w Windows Terminal oraz problemy z wznawianiem zawieszonych sesji.
    • Wydajność i optymalizacja: Dodano nowe mechanizmy testowania zużycia pamięci i CPU, aby zapobiegać regresjom wydajności.
    • Bezpieczeństwo sandboxa: Wdrożono refaktoryzację sandboxa Seatbelt dla macOS oraz naprawiono problemy z symlinkami na Windows, co zwiększa izolację i bezpieczeństwo wykonywanych operacji.

    Ta nocna wersja to nie tylko poprawki, ale także rozwój infrastruktury testowej. Zespół dodał zaawansowane testy integracyjne mierzące zużycie pamięci i wydajność procesora, co pokazuje dbałość o długoterminową stabilność projektu.

    Dla użytkowników oznacza to bardziej responsywne działanie CLI. Szczególnie ważna dla programistów pracujących na Windowsie jest poprawka w Windows Terminal, która przywraca intuicyjne edytowanie linii poleceń.

    Rozwój ekosystemu i przyszłość

    Wydanie wpisuje się w szerszy trend rozwoju Gemini CLI jako platformy. Widać inwestycję w rozszerzalność i dalsze prace nad integracją z MCP serverami. Projekt, będący open source, aktywnie rozwija społeczność, co potwierdza długa lista pull requestów od wielu kontrybutorów.

    Choć wersja nightly jest przeznaczona dla użytkowników chcących testować najnowsze, czasem niestabilne funkcje, to wprowadzone w wersji 0.39.0 poprawki są niezwykle praktyczne. Niektóre z nich, jak naprawa Ctrl+Backspace na Windowsie, były wyczekiwane przez długi czas. To pokazuje, że zespół nie tylko dodaje nowe, eksperymentalne możliwości, ale także słucha społeczności i troszczy się o codzienny komfort pracy.

    Dla deweloperów zainteresowanych AI, web devem czy automatyzacją zadań devopsowych, Gemini CLI staje się coraz bardziej dojrzałym narzędziem. Ta nocna aktualizacja, skoncentrowana na kontroli i wydajności, to krok w kierunku zapewnienia stabilności potrzebnej do profesjonalnego wykorzystania AI w terminalu. Warto obserwować dalsze zmiany, zwłaszcza w stabilnych wydaniach, które powinny wkrótce wchłonąć te ulepszenia.


    Źródła

  • Kimi K2.6 Moonshot AI: Nowa Potęga wśród Modeli Kodujących Niszczy Rywali

    Kimi K2.6 Moonshot AI: Nowa Potęga wśród Modeli Kodujących Niszczy Rywali

    Moonshot AI oficjalnie wprowadził Kimi K2.6 – nową, zaawansowaną wersję swojego flagowego modelu sztucznej inteligencji, który jest przystosowany do zadań związanych z kodowaniem i działaniem jako agent. Model uzyskuje wysokie wyniki w benchmarkach, konkurując z takimi modelami jak Claude 3.5/3.7 Opus, GPT-4o/4.1 oraz Gemini 2.0/2.5 Pro. Oferuje przy tym efektywność w tworzeniu aplikacji z jednego promptu, a jego koszty są znacznie niższe niż u konkurencji. Kimi K2.6 ma potencjał, aby stać się jednym z najskuteczniejszych narzędzi dla programistów.

    Jednym z kluczowych elementów Kimi K2.6 jest jego architektura Mixture-of-Experts (MoE), która zawiera bilion parametrów, z których 32 miliardy są aktywne podczas każdego przebiegu. Taka konstrukcja zapewnia modelowi dużą wydajność i szybkość. Innowacją jest także natywna multimodalność, dzięki integracji z Kimi-VL, co umożliwia generowanie kodu na podstawie projektów UI lub zrzutów ekranu. Model obsługuje kontekst do 262 144 tokenów, co jest istotne dla złożonych, wieloetapowych zadań programistycznych.

    Kluczowe informacje

    • Wysoka wydajność: Kimi K2.6 uzyskuje konkurencyjne wyniki w benchmarkach kodowania, takich jak SWE-Bench Verified (około 60.4% dla pokrewnego modelu) oraz LiveCodeBench.
    • Architektura dla profesjonalistów: Model oparty na MoE z bilionem parametrów i 262K tokenami kontekstu, z natywną wizją lub integracją Kimi-VL do generowania kodu z projektów graficznych.
    • Moc agentów i niski koszt: Obsługuje do 100 równoległych sub-agentów oraz do 1500 wywołań narzędzi, przy koszcie inferencji zaczynającym się od około $0.0006 za 1K tokenów wejściowych na zewnętrznych platformach.

    Rewolucja vibe coding i full-stack development

    Kimi K2.6 został zaprojektowany z myślą o vibe codingu – procesie, w którym programista opisuje swoją wizję, a AI przekształca ją w kompletną, działającą aplikację. Model został zoptymalizowany do tworzenia pełnych rozwiązań full-stack z jednego, dobrze skonstruowanego promptu. Już teraz demonstruje swoje możliwości w generowaniu zaawansowanych animacji frontendowych, w tym wideo jako tła czy elementów 3D, oraz w budowaniu całych symulacji, takich jak przeglądarkowy system operacyjny czy symulator deskorolki w C++.

    Kimi K2.6 potrafi koordynować pracę grupy agentów. Do 100 równoległych sub-agentów może współpracować nad rozwiązywaniem złożonych problemów w całym repozytorium, automatycznie poprawiając błędy lub implementując nowe funkcjonalności. Model jest w stanie zarządzać długoterminowymi projektami, utrzymując spójność i kontekst przez cały proces.

    Szczegóły techniczne i wydajność

    Szczegóły techniczne i wydajność

    W porównaniu do konkurencji, Kimi K2.6 prezentuje się bardzo dobrze. W benchmarku SWE-Bench Verified, który ocenia zdolność do rozwiązywania rzeczywistych problemów z GitHub, uzyskuje wysokie wyniki. Na LiveCodeBench, oceniającym umiejętność kodowania w oparciu o najnowsze, niestandardowe problemy, model również osiąga dobre noty. Niski wskaźnik błędów przy edycjach diff w rzeczywistym kodzie pokazuje, że model dobrze rozumie kontekst i nie wprowadza przypadkowych zmian.

    Koszt inferencji jest znacznie niższy niż w przypadku komercyjnych API od OpenAI czy Anthropic. Dla deweloperów i firm, które chcą wdrożyć model, dostępność przez API (np. OpenRouter, Moonshot platform) zapewnia dużą elastyczność.

    Perspektywy dla branży deweloperskiej

    Wprowadzenie Kimi K2.6 przez Moonshot AI wskazuje na rozwój wyspecjalizowanych, potężnych i tanich modeli AI dla deweloperów. Model dorównuje czołowym, zamkniętym rozwiązaniom w kluczowych zadaniach koderskich, a jego użytkowanie jest znacznie tańsze. To narzędzie, które może przyspieszyć prototypowanie, automatyzować rutynowe zadania i umożliwić małym zespołom realizację projektów, które wcześniej wymagałyby znacznie większych zasobów.

    Integracja z istniejącymi workflow'ami jest prosta dzięki oficjalnemu SDK (npm install @moonshotai/kimi-sdk) oraz dedykowanemu CLI. Dla osób zajmujących się web developmentem, DevOps czy tworzeniem gier, Kimi K2.6 oferuje konkretną, praktyczną wartość już teraz.

  • Claude Managed Agents i nowe CLI: Nowa era agentów AI w platformie Anthropic

    Claude Managed Agents i nowe CLI: Nowa era agentów AI w platformie Anthropic

    Anthropic, firma odpowiedzialna za Claude, wprowadziła 8 kwietnia 2026 roku Claude Managed Agents w publicznej becie. To zestaw funkcji, który umożliwia uruchamianie autonomicznych agentów AI. To wydanie znacząco rozszerza możliwości platformy, koncentrując się na workflowach agentowych oraz efektywności pracy deweloperów.

    Claude Managed Agents: Nowe możliwości dla długoterminowych zadań

    Głównym elementem tego wydania są Claude Managed Agents. To nowa abstrakcja, która zmienia sposób wykorzystania Claude do złożonych, długoterminowych operacji.

    Kluczowe fakty

    • Publiczna beta: Claude Managed Agents są dostępne od 8 kwietnia 2026 w postaci publicznej bety; wymagają klucza API Claude oraz nagłówka managed-agents-2026-04-01.
    • Stabilne środowisko: Oferują w pełni zarządzany "harness", który automatyzuje agent loop, wykonywanie narzędzi, sandboxing oraz utrzymywanie stanu.
    • Mocne modele: Obsługiwane są Claude Sonnet 4.6, Claude Opus 4.6 (z domyślnym kontekstem 1M tokenów) oraz Claude Haiku 4.5.
    • Struktura workflow: Proces tworzenia agenta obejmuje definicję modelu, prompta systemowego, narzędzi oraz serwerów MCP; następnie tworzenie środowiska z kontenerem (z pre-instalowanym Pythonem, Node.js, Go).
    • Cel aplikacji: Idealne dla asynchronicznych, długoterminowych zadań, batch jobs oraz workflowów agentowych, gdzie stan musi być utrzymywany między sesjami.

    Claude Managed Agents rozwiązują problem, który wielu deweloperów próbowało rozwiązać samodzielnie: budowanie własnego runtime'u dla agenta, który może bezpiecznie wykonywać kod, przeglądać internet, czytać pliki i zarządzać stanem. Teraz dostępny jest zestaw REST API, który to wszystko zapewnia. To znaczące ułatwienie dla tworzenia asynchronicznych agentów backendowych, które mogą pracować przez długi czas, automatycznie generować raporty, scaffoldować kod czy wykonywać zadania z użyciem wielu narzędzi.

    Porównanie z istniejącym Messages API jest istotne. Messages API daje deweloperom pełną kontrolę nad loopem i narzędziami, ale wymaga utrzymania stanu po stronie klienta. Managed Agents przejmują tę odpowiedzialność na serwer, oferując persistencję stanu oraz historii w filesystemie. To sprawia, że są bardziej odpowiednie dla zadań wymagających ciągłości i długotrwałych operacji.

    Potencjalne zastosowania w web dev i vibe coding

    Potencjalne zastosowania w web dev i vibe coding

    Dla deweloperów webowych oraz osób zajmujących się vibe coding, Managed Agents otwierają nowe możliwości. Możemy teraz tworzyć agenta, który będzie asynchronicznym backendowym pomocnikiem – na przykład automatycznie generować dokumentację projektu na podstawie commitów, monitorować i analizować logi, scaffoldować nowe komponenty w różnych frameworkach, czy przeprowadzać automatyczne testy i raportowanie.

    Sandboxowane kontenery z pre-instalowanymi językami umożliwiają agentowi bezpieczne wykonywanie kodu. A persistencja stanu oznacza, że możemy wysłać agenta do pracy nad dużym zadaniem, a po kilku godzinach sprawdzić jego postępy bez potrzeby restartowania wszystkiego. To idealne rozwiązanie dla DevOpsowych workflowów, gdzie automatyzacja długoterminowych procesów jest kluczowa.

    Warto zauważyć, że niektóre funkcje są jeszcze w fazie research preview, takie jak outcomes, multiagent czy memory. Dostęp do nich wymaga dodatkowych requestów. Platforma ewoluuje, więc dostępność tych funkcji może się zmieniać w kolejnych wydaniach.

    Wprowadzenie do nowej ery agentów AI

    Claude Managed Agents pokazują, że Anthropic koncentruje się na rozwoju platformy nie tylko jako narzędzia do chatu, ale jako kompleksowego środowiska dla zaawansowanych agentów AI. Managed Agents dostarczają infrastruktury, która była często problematyczna dla deweloperów próbujących tworzyć autonomiczne systemy.

    To wydanie wpisuje się w trendy vibe coding oraz rozwój AI w DevOps. Sandboxing, persistencja stanu i zarządzana infrastruktura pozwalają deweloperowi skupić się na logice i zadaniu agenta, a nie na skomplikowanej orchestracji. W efekcie, budowanie zaawansowanych, długoterminowych pomocników AI staje się bardziej dostępne i efektywne.


    Źródła

  • Google Antigravity 1.22.2: Wprowadza Nowy System Uprawnień Agentów

    Google Antigravity 1.22.2: Wprowadza Nowy System Uprawnień Agentów

    Google opublikowało aktualizację 1.22.2 dla środowiska programistycznego Antigravity. Główną zmianą jest wprowadzenie systemu uprawnień dla agentów AI, który zastępuje dotychczasowe rozwiązania w zakresie bezpieczeństwa i kontroli nad automatyzacją kodu. Aktualizacja trafia do użytkowników etapami.

    Nowy mechanizm pozwala precyzyjnie określić, jakie działania agent może podejmować w imieniu programisty. Każda operacja – od wpisywania komend w terminalu po interakcje z przeglądarką i generowanie plików – jest teraz traktowana jako osobny zasób uprawnień. Dzięki temu użytkownicy mają większy wpływ na to, co dzieje się w ich lokalnym środowisku.

    Kontrola nad zadaniami agenta

    Agent w wersji 1.22.2 to system wnioskowania korzystający z modeli językowych klasy frontier. Narzędzie tworzy listy zadań, plany wdrożeń oraz nagrania z sesji w przeglądarce. Wcześniej zarządzanie tymi procesami było mało dokładne, co zmienia obecna aktualizacja.

    W panelu Agent Manager oraz w ustawieniach systemowych pojawiły się trzy główne zasady kontroli. Pierwsza z nich, polityka przeglądu artefaktów (Artifact Review Policy), określa sytuacje, w których agent musi zatrzymać pracę i poczekać na akceptację człowieka. Użytkownik może wybrać tryb „Always Proceed”, aby przyspieszyć proces, co jednak wiąże się z mniejszym nadzorem nad wynikami.

    Druga zasada dotyczy wykonywania poleceń w terminalu. Wykorzystuje ona listy dozwolonych i zabronionych komend (allowlists/blocklists). Pozwala to na automatyczne uruchamianie bezpiecznych operacji, takich jak npm install, przy jednoczesnym blokowaniu ryzykownych skryptów. Trzecia funkcja to polityka JavaScriptu w przeglądarce, która uniemożliwia uruchamianie niezaufanego kodu JS. Ma to chronić przed atakami typu prompt injection podczas testowania aplikacji.

    Naprawione błędy i problemy techniczne

    Wersja 1.22.2 eliminuje błąd, który powodował wyświetlanie zbędnych próśb o dostęp do terminala, nawet jeśli użytkownik zaznaczył opcję „Always run”. Dokumentacja potwierdza naprawę tej usterki, choć monity dotyczące adresów URL w przeglądarce mogą nadal występować.

    Wdrożenie nowych zabezpieczeń wiąże się też z pewnymi trudnościami. Wprowadzony wcześniej sandboxing (w wersji 1.21.6) wywołał u części osób problemy z uprawnieniami Dockera, głównie na systemie macOS. Ponieważ system wymusza aktualizacje do najnowszej wersji, niektórzy specjaliści DevOps nie mogą wrócić do starszego, stabilnego wydania. Odnotowano również przypadki błędów weryfikacji konta u użytkowników z aktywną subskrypcją, co prawdopodobnie wynika z przebudowy systemu autoryzacji.

    Bezpieczeństwo w pracy z AI i DevOps

    Nowy system uprawnień to kolejny etap rozwoju narzędzia w stronę bezpiecznego programowania wspomaganego przez AI. Dla osób pracujących w modelu „vibe coding” lub automatyzujących procesy DevOps, szczegółowe definiowanie uprawnień agenta ogranicza ryzyko przypadkowego usunięcia danych, uruchomienia złośliwego skryptu czy wejścia na niebezpieczną stronę podczas testów.

    Zmiany w wersji 1.22.2 przygotowują grunt pod dalszy rozwój autonomii agentów. Google dąży do modelu, w którym samodzielność sztucznej inteligencji jest ograniczona konkretnymi ramami ustawionymi przez człowieka. Dla zespołów zajmujących się tworzeniem stron internetowych i rozwojem AI oznacza to bardziej przewidywalne warunki pracy przy testowaniu nowych metod budowania aplikacji.


    Źródła

  • Claude Code Wraca na Tropy: Wersja 2.1.96 Naprawia Krytyczny błąd Uwierzytelniania w AWS Bedrock

    Claude Code Wraca na Tropy: Wersja 2.1.96 Naprawia Krytyczny błąd Uwierzytelniania w AWS Bedrock

    Zespół Claude Code wydał aktualizację oprogramowania. Wersja 2.1.96 usuwa błąd uwierzytelniania w AWS Bedrock, który pojawił się w wydaniu 2.1.94. Ta usterka uniemożliwiała wielu osobom połączenie z usługą, co zmusiło programistów do przygotowania poprawki w krótkim czasie.

    Problem objawiał się komunikatami HTTP 403 o treści "Authorization header is missing". Błąd występował u użytkowników konfigurujących dostęp przez zmienne środowiskowe, takie jak AWS_BEARER_TOKEN_BEDROCK lub CLAUDE_CODE_SKIP_BEDROCK_AUTH. W efekcie potoki CI/CD, skrypty automatyzacji oraz osoby korzystające z tych metod autoryzacji straciły dostęp do modeli AI w Bedrock, mimo że wcześniej usługa działała bez zakłóceń.

    Przyczyny problemów w wersji 2.1.94

    Błąd dotyczył konkretnego sposobu logowania. Wersja 2.1.94 wprowadziła zmiany, które powodowały błędne przetwarzanie nagłówków autoryzacji przy aktywnych wspomnianych zmiennych środowiskowych.

    Usterka nie dotyczyła wszystkich metod łączenia się z AWS Bedrock. Osoby korzystające ze standardowych profili AWS CLI lub ról IAM zazwyczaj nie miały problemów. Błąd uderzył w rzadsze scenariusze, takie jak użycie statycznego tokena w zmiennej AWS_BEARER_TOKEN_BEDROCK lub pomijanie autoryzacji przez CLAUDE_CODE_SKIP_BEDROCK_AUTH. Takie ustawienia są często stosowane w zautomatyzowanych środowiskach, na przykład w GitHub Actions, gdzie zarządzanie dynamicznymi poświadczeniami jest trudniejsze.

    Wersja 2.1.96 przywraca właściwą logikę obsługi tych zmiennych. Aby zainstalować poprawkę, należy użyć polecenia npm update @anthropic-ai/claude-code. Warto jednak dodać, że w zgłoszeniach na GitHubie pojawiają się informacje, że niektórzy użytkownicy GitHub Actions nadal widzą błędy 403 po aktualizacji, co może oznaczać, że problem nie został całkowicie rozwiązany w każdym środowisku.

    Znaczenie dla inżynierów AI

    AWS Bedrock jest podstawą dla zespołów budujących przepływy pracy oparte na sztucznej inteligencji w chmurze. Platforma ta pozwala korzystać z modeli Claude bez konieczności zarządzania własnymi serwerami, co ułatwia integrację z usługami AWS.

    W środowiskach DevOps i potokach CI/CD zmienne typu AWS_BEARER_TOKEN_BEDROCK są używane do bezpiecznego przekazywania uprawnień bez zapisywania ich w plikach konfiguracyjnych. Błąd w wersji 2.1.94 mógł więc zatrzymać automatyczne wdrażanie, testy czy procesy generowania kodu.

    Ostatnie wydania przyniosły też inne poprawki dla Bedrock. Rozwiązano problemy z autoryzacją SigV4, które występowały przy ustawianiu nagłówka Authorization przez ANTHROPIC_AUTH_TOKEN lub ANTHROPIC_CUSTOM_HEADERS. Zespół Claude Code regularnie poprawia współpracę z dostawcami chmurowymi, co jest niezbędne w zastosowaniach profesjonalnych.

    Konfiguracja połączenia z Bedrock

    Po przejściu na wersję 2.1.96 ustawienia powinny działać poprawnie. Przykładowa konfiguracja dla środowiska korzystającego z Claude Code i AWS Bedrock wygląda tak:

    export CLAUDE_CODE_USE_BEDROCK=1
    export AWS_REGION=us-east-1
    export AWS_PROFILE=your-profile
    # Jedna z poniższych metod autoryzacji:
    export AWS_BEARER_TOKEN_BEDROCK=your-token
    # Lub:
    export CLAUDE_CODE_SKIP_BEDROCK_AUTH=1

    W przypadku korzystania z własnych bramek lub serwerów proxy można dodatkowo użyć zmiennej ANTHROPIC_BEDROCK_BASE_URL. Taka elastyczność pozwala dopasować narzędzie do zasad bezpieczeństwa wewnątrz firmy.

    Reakcja na błędy

    Wydanie wersji 2.1.96 zaraz po wykryciu błędu pokazuje, że proces rozwoju Claude Code jest sprawny. W branży narzędzi AI, gdzie aktualizacje pojawiają się bardzo często, szybkie usuwanie usterek technicznych jest kluczowe dla zachowania ciągłości pracy użytkowników.

    Dla osób korzystających z Claude Code ta poprawka oznacza możliwość powrotu do pracy z modelami hostowanymi w chmurze. Sytuacja ta przypomina również o tym, jak ważne jest dokładne testowanie systemów uwierzytelniania przy wprowadzaniu zmian w kodzie.


    Źródła

  • Gemini CLI v0.37.0-preview.2: Rozszerzone Statystyki i Ulepszenia Interfejsu

    Gemini CLI v0.37.0-preview.2: Rozszerzone Statystyki i Ulepszenia Interfejsu

    Google udostępniło nową wersję preview swojego terminalowego agenta AI opartego na otwartym kodzie źródłowym. Gemini CLI v0.37.0-preview.2 skupia się na stabilności, nowych metrykach i poprawkach w obsłudze programu. Wydanie to wprowadza funkcje przydatne w pracy programistów, specjalistów DevOps oraz osób zajmujących się sztuczną inteligencją.

    Wersja ta powstała poprzez przeniesienie wybranych zmian (cherry-pick) i zastosowanie łatek do kodu źródłowego. Taka metoda pozwoliła na szybkie wdrożenie konkretnych poprawek bez konieczności przebudowy głównej gałęzi projektu.

    Nowe dane w sekcji /stats

    Główną zmianą jest rozbudowa polecenia /stats. Wyświetla ono teraz dodatkowe dane, które pozwalają monitorować wpływ poszczególnych umiejętności agenta (agent skills) i ustawień na pracę systemu. Jest to pomocne przy wieloetapowych zadaniach, gdzie agent wykonuje skomplikowane operacje.

    Dzięki tym zmianom można precyzyjniej analizować wydajność narzędzia. Dane te ułatwiają optymalizację czasu i zasobów potrzebnych do realizacji zautomatyzowanych procesów.

    Zmiany w interfejsie użytkownika

    W interfejsie wprowadzono funkcję rozwijania wklejanego tekstu (expandable text pastes). Rozwiązuje to problem nadmiaru informacji w oknie konsoli – zamiast wyświetlać długie bloki danych, CLI pokazuje teraz zwinięty, bardziej czytelny widok.

    Ułatwia to pracę z logami, skryptami oraz planami wykonania w trybie plan mode. Użytkownik może skupić się na konkretnych fragmentach bez przewijania setek linii tekstu, co poprawia ergonomię pracy w terminalu.

    Stabilność na systemach Windows i Linux

    Wydanie naprawia błędy występujące na systemach Windows i Linux. Z dokumentacji wynika, że twórcy skupili się także na rozwoju izolacji procesów (sandboxing) oraz zarządzaniu sesjami agenta przeglądarkowego.

    Dla osób pracujących na różnych systemach operacyjnych poprawa stabilności ma duże znaczenie. Błędy w tym obszarze mogą utrudniać automatyzację testów czy procesów wdrożeniowych CI/CD.

    Dopracowanie działania programu

    Program działa teraz stabilniej, a błędy w renderowaniu tekstu zostały ograniczone. Choć są to zmiany techniczne, wpływają one na płynność pracy, szczególnie gdy agent na bieżąco generuje kolejne kroki planu w oknie terminala. Przewidywalne zachowanie interfejsu ułatwia codzienne korzystanie z narzędzia.

    Bezpieczeństwo i telemetria

    Tryb planu otrzymał ulepszenia w zakresie izolowania narzędzi. Projekt kładzie nacisk na bezpieczeństwo, starając się oddzielać uruchamiane skrypty od systemu operacyjnego gospodarza, aby zminimalizować ryzyko niepożądanych zmian.

    W zakresie telemetrii dodano nowe metryki dla agenta przeglądarkowego. Pozwalają one zbierać informacje o wydajności tego modułu, co ułatwia jego dalszy rozwój.

    Zarządzanie konfiguracją

    Twórcy pracują nad bezpieczniejszą obsługą zmiennych środowiskowych i ustawień. Mechanizmy kontroli dostępu mają chronić klucze i hasła przekazywane do agentów działających w piaskownicy. Prawidłowe działanie tych funkcji ogranicza ryzyko wycieku danych.

    Gemini CLI jest dostępne w trzech kanałach: nightly, preview oraz stable. Wersje preview służą do testowania nowych funkcji, takich jak eksperymentalne umiejętności agenta. Narzędzie można zainstalować za pomocą npm lub npx z repozytorium google-gemini/gemini-cli.

    Rozwój agenta CLI

    Wersja v0.37.0-preview.2 pokazuje kierunek rozwoju projektu, stawiając na analitykę, stabilność i bezpieczeństwo. Zmiany te sprawiają, że narzędzie staje się bardziej przewidywalne w zastosowaniach deweloperskich. Kolejne aktualizacje dostarczają więcej danych do analizy i poprawiają komfort pracy z agentem AI w linii komend.


    Źródła

  • Windsurf wprowadza inteligentny router modeli i naprawia uciążliwy błąd

    Windsurf wprowadza inteligentny router modeli i naprawia uciążliwy błąd

    Najnowsza aktualizacja Windsurf, agentycznego środowiska programistycznego (IDE), wprowadza funkcję optymalizacji kosztów oraz poprawkę błędu, który utrudniał pracę części użytkowników. Główną nowością jest inteligentny router modeli. System ten automatycznie wybiera model AI najlepiej dopasowany do konkretnego zadania, co ma zapobiegać zbyt szybkiemu zużywaniu miesięcznego limitu tokenów. Producent naprawił również usterkę blokującą zmianę modelu po wysłaniu pierwszego zapytania i zwrócił wykorzystane limity osobom, które miały z tym problem.

    Zmiany te są reakcją na uwagi społeczności dotyczące tempa wyczerpywania się pakietów po modyfikacji systemu rozliczeń. Windsurf rywalizuje bezpośrednio z Cursorem i skupia się na poprawie wydajności oraz kontroli wydatków podczas pracy w trybie „vibe codingu”.

    Jak działa inteligentny router modeli?

    Inteligentny router modeli to nowa pozycja na liście wyboru modeli. System dynamicznie dobiera odpowiedni model bazowy (taki jak GPT, Claude czy Gemini) do każdego zapytania programistycznego. Najważniejszą cechą tego rozwiązania jest rozliczanie zużycia według stałej stawki za token, bez względu na to, który model premium zostanie faktycznie uruchomiony w tle.

    Mechanizm ten kieruje proste zadania do lżejszych i tańszych modeli, rezerwując zaawansowane jednostki dla trudniejszych problemów. Dzięki temu przydzielona pula tokenów ma wystarczać na dłuższy czas. Z funkcji mogą korzystać użytkownicy indywidualni posiadający plany Pro, Max oraz Teams.

    Przez najbliższe dwa tygodnie obowiązują promocyjne ceny za dodatkowe użycie: 0,50 USD za 1 milion tokenów wejściowych, 2,00 USD za 1 milion tokenów wyjściowych oraz 0,10 USD za 1 milion tokenów odczytu z pamięci podręcznej (cache).

    Przejrzyste koszty i poprawki techniczne

    Aktualizacja zmienia wygląd selektora modeli, aby ułatwić sprawdzanie kosztów. Teraz stawki za tokeny wejściowe, wyjściowe i odczyt z cache są widoczne bezpośrednio przy każdym modelu. Ma to zapewnić użytkownikom lepszy wgląd w to, jak wydawane są ich środki.

    Dodatkowo w oknie odpowiedzi pojawia się teraz informacja o dokładnej liczbie zużytych tokenów dla danego zapytania. W oknie kontekstu dodano też licznik czasu wygaśnięcia pamięci podręcznej promptów.

    Kluczową poprawką jest usunięcie błędu w routerze, który blokował możliwość przełączenia modelu po rozpoczęciu sesji. Firma ogłosiła, że użytkownicy dotknięci tym problemem otrzymali pełny reset limitów oraz zwrot poniesionych opłat dodatkowych.

    Rozwój narzędzia i ekosystemu

    Wprowadzenie routera modeli to część strategii Windsurf opartej na zarządzaniu kosztami i rozwijaniu funkcji agentowych. Wcześniej platforma umożliwiła integrację z Devin Cloud, co pozwala na delegowanie zadań do agenta AI działającego w chmurze.

    Windsurf, rozwijany przez Cognition AI, rozbudowuje także wsparcie dla Model Context Protocol (MCP). Poprawiono między innymi zarządzanie zasobami, widoczność stanu ładowania oraz stabilność połączeń przy inicjalizacji. Ulepszenia te mają znaczenie dla osób korzystających z rozbudowanych procesów deweloperskich i zewnętrznych narzędzi.

    Skuteczność nowego routera zależy od tego, jak trafnie system będzie dobierał modele, by oszczędności nie odbywały się kosztem jakości kodu. Jeśli mechanizm będzie działał sprawnie, może stać się standardowym sposobem korzystania z aplikacji dla osób, które chcą lepiej wykorzystać swój abonament.


    Źródła

  • Claude Mythos Przedstawia Przyszłość Cyberbezpieczeństwa. Czas na Skok Pokoleniowy w Obronie

    Claude Mythos Przedstawia Przyszłość Cyberbezpieczeństwa. Czas na Skok Pokoleniowy w Obronie

    Anthropic udostępniło model Claude Mythos w ramach zamkniętych testów badawczych. Jest to system ogólnego przeznaczenia, który wykazuje nowe możliwości w zakresie cyberbezpieczeństwa, w tym wyszukiwanie i wykorzystywanie podatności typu zero-day. W związku z ryzykiem, jakie niesie ta technologia, firma rozpoczęła Project Glasswing. To inicjatywa o ograniczonym dostępie, która ma wykorzystać potencjał modelu do wzmocnienia zabezpieczeń infrastruktury krytycznej.

    Dane techniczne opublikowane przez Anthropic wskazują, że model uzyskał wynik 83% w teście CyberGym. Dla porównania Claude Opus osiągnął w tym samym badaniu 67%. Claude Mythos nie ogranicza się do prostego skanowania kodu. Potrafi tworzyć złożone łańcuchy exploitów, które w testach wywoływały awarie w OSS-Fuzz i pozwalały na przejmowanie przepływu sterowania (control flow). Model radzi sobie również z lukami typu N-day oraz inżynierią wsteczną oprogramowania o zamkniętym kodzie źródłowym.

    Skala wykrywania luk i ryzyko podwójnego zastosowania

    W fazie testowej model wskazał tysiące nieznanych wcześniej błędów w popularnych systemach operacyjnych i przeglądarkach. System odnajduje usterki, które pozostawały niewykryte przez dziesięciolecia. Przykładem jest załatany już błąd w OpenBSD, który znajdował się w kodzie przez 27 lat.

    Technologia ta ma charakter podwójnego zastosowania (dual-use). Narzędzia służące do łatania starych systemów mogą zostać użyte przez grupy przestępcze do automatyzacji ataków. Z tego powodu Anthropic ograniczyło dostęp do modelu. W ramach Project Glasswing korzysta z niego obecnie ponad 40 podmiotów, w tym firmy technologiczne i organizacje zajmujące się bezpieczeństwem cyfrowym.

    Wpływ na pracę programistów i DevOps

    Rozwój takich modeli zmienia podejście do web developmentu i procesów DevOps. Tradycyjne testy penetracyjne wykonywane raz na kwartał stają się niewystarczające, gdy sztuczna inteligencja potrafi w kilka godzin wykonać pracę, która ekspertowi zajmowała wiele dni. Ciągła walidacja bezpieczeństwa (continuous validation) staje się standardowym wymogiem.

    Claude Mythos może pomóc w zabezpieczaniu potoków CI/CD poprzez automatyczne wykrywanie błędów pamięci czy warunków wyścigu (race conditions) w starym kodzie. Integracja takiej analizy bezpośrednio z codzienną pracą programistów ma docelowo utrudnić przeprowadzanie ataków i podnieść ogólny poziom bezpieczeństwa systemów.

    Wyniki ewaluacji pokazują, że Anthropic koncentruje się na specjalistycznych zadaniach związanych z ochroną danych i infrastruktury. Jest to jeden z głównych kierunków rozwoju zaawansowanych modeli tej firmy.

    Wyzwania i dalsze kroki

    Skuteczność modelu w testach laboratoryjnych nie gwarantuje identycznych wyników w rzeczywistych warunkach. Systemy obronne, takie jak mechanizmy EDR (Endpoint Detection and Response), mogą skutecznie blokować działania podejmowane przez model. Kluczowym sprawdzianem będzie praca w środowiskach posiadających aktywne zabezpieczenia.

    Pojawienie się Claude Mythos wywołało w branży dyskusję na temat odpowiedzialności za niezałatane luki w działających systemach. Poprzez Project Glasswing Anthropic testuje model dystrybucji technologii o wysokim ryzyku. Wyniki tego projektu pokażą, czy szerokie zastosowanie sztucznej inteligencji w cyberbezpieczeństwie realnie wzmocni ochronę, czy ułatwi przeprowadzanie ataków.


    Źródła

  • Windsurf Wprowadza Adaptacyjny Router Modeli AI dla Efektywnego Codingu

    Windsurf Wprowadza Adaptacyjny Router Modeli AI dla Efektywnego Codingu

    Platforma Windsurf wprowadziła funkcję o nazwie Adaptacyjny Router Modeli. Jest to mechanizm, który automatycznie wybiera model AI najlepiej dopasowany do konkretnego zadania programistycznego. Rozwiązanie to ma pomóc użytkownikom lepiej wykorzystywać miesięczne limity tokenów i usprawnić codzienną pracę z kodem.

    Adaptacyjny router modeli: Zarządzanie zasobami AI

    Adaptacyjny Router Modeli analizuje zadania zlecane asystentowi Cascade i dobiera do nich odpowiedni model. System ten zapobiega wykorzystywaniu zaawansowanych i kosztownych modeli do prostych operacji, które mogą zostać wykonane przez tańsze jednostki. Dzięki temu programiści korzystający z planów Pro, Max lub Teams mogą rzadziej przekraczać swoje limity subskrypcyjne.

    Funkcja jest dostępna dla użytkowników indywidualnych oraz zespołów w planach samoobsługowych. Windsurf ustawił ją jako opcję domyślną. Przez najbliższe dwa tygodnie obowiązują również niższe stawki za korzystanie z routera po wyczerpaniu limitu: 0,50 USD za 1 milion tokenów wejściowych, 2 USD za 1 milion tokenów wyjściowych oraz 0,10 USD za 1 milion tokenów odczytu z pamięci podręcznej (cache).

    Transparentność kosztów i monitorowanie zużycia

    Wraz z nową funkcją zmienił się interfejs wyboru modelu. W menu wyboru przy każdej opcji widnieje teraz dokładny cennik za tokeny wejściowe, wyjściowe oraz odczyt z cache. Pozwala to sprawdzić koszt operacji przed wysłaniem zapytania do AI.

    W oknie kontekstu pojawił się licznik czasu pamięci podręcznej, który pokazuje status wykorzystania mechanizmu optymalizacji kosztów. Dodatkowo każda odpowiedź asystenta zawiera teraz informację o liczbie zużytych tokenów. Te dane pozwalają na bieżąco kontrolować wydatki i pozostały limit w ramach abonamentu.

    Usunięcie dziennych limitów w planie Max

    Windsurf zmienił zasady korzystania z planu Max, usuwając z niego dzienne ograniczenia. Wcześniej użytkownicy tej subskrypcji, mimo posiadania miesięcznej puli, byli ograniczani dobowymi limitami. Obecnie mogą oni wykorzystać cały dostępny limit w dowolnym czasie, co ułatwia pracę przy intensywnych projektach wymagających wielu godzin ciągłego kodowania.

    Rozwój platformy Windsurf

    Windsurf rozwija asystenta Cascade, który zajmuje się pisaniem i naprawianiem kodu oraz planowaniem kolejnych etapów pracy. Wprowadzenie adaptacyjnego routera modeli ma sprawić, że korzystanie z narzędzi AI stanie się bardziej przewidywalne pod względem kosztów.

    Firma planuje dalsze aktualizacje systemu routingu. Algorytm dobierający modele ma być rozwijany, aby w przyszłości jeszcze dokładniej dopasowywać moc obliczeniową AI do potrzeb programistów.


    Źródła

  • Claude Design: Nowe Narzędzie od Anthropic Labs Przekształca Idee w Projekty Wizualne

    Claude Design: Nowe Narzędzie od Anthropic Labs Przekształca Idee w Projekty Wizualne

    Anthropic Labs wprowadziło w piątek, 17 kwietnia 2026 roku, eksperymentalne narzędzie o nazwie Claude Design. Jest to produkt AI do tworzenia materiałów wizualnych, takich jak prototypy, prezentacje oraz makiety z elementami wideo i 3D. Użytkownik generuje te treści za pomocą poleceń tekstowych. Pojawienie się tego rozwiązania stawia Anthropic w roli bezpośredniego konkurenta dla firm Adobe i Figma.

    Claude Design wykorzystuje model multimodalny Claude Opus 4.7, który zadebiutował dzień wcześniej. Model ten przetwarza obrazy w wysokiej rozdzielczości i wykonuje zadania wymagające precyzji. Narzędzie analizuje zasoby firmy, w tym kod, pliki projektowe, kolory oraz typografię. Potrafi też pobierać elementy bezpośrednio ze stron internetowych, co pozwala zachować spójność z systemem projektowym marki.

    Jak działa Claude Design

    Praca z narzędziem przypomina rozmowę. Użytkownik opisuje swój pomysł w formie promptu, a następnie doprecyzowuje go na czacie. Można dodawać komentarze w interfejsie, wprowadzać ręczne poprawki lub zmieniać parametry za pomocą suwaków. Pozwala to na modyfikowanie projektu w czasie rzeczywistym podczas interakcji z modelem.

    Ważną funkcją jest praca zespołowa. Kilka osób może jednocześnie edytować materiały w jednym oknie. Gotowe projekty można eksportować do formatów PDF i PPTX, pobrać jako kod HTML lub udostępnić za pomocą linku. Claude Design integruje się również z platformą Canva, gdzie możliwa jest dalsza obróbka, oraz z Claude Code, co pozwala zamienić projekt w działającą aplikację.

    Grupa docelowa

    Anthropic podaje, że Claude Design ma wspierać, a nie zastępować programy takie jak Adobe Creative Cloud czy Figma. Narzędzie powstało z myślą o osobach, które nie zajmują się zawodowo grafiką. Są to głównie założyciele startupów, menedżerowie produktu, marketerzy i handlowcy. Dzięki niemu mogą oni samodzielnie przygotować prezentacje, proste makiety interfejsów czy grafiki do mediów społecznościowych.

    Z rozwiązania korzystają już jednak większe podmioty. W fazie testów brała udział Canva, która używała narzędzia do przygotowywania mockupów produktów i wizualizacji kampanii reklamowych.

    Dostępność i sytuacja na rynku

    Obecnie Claude Design jest dostępne w wersji testowej (research preview) dla użytkowników planów Claude Pro, Max, Team oraz Enterprise. Za jego rozwój odpowiada Anthropic Labs, czyli dział zajmujący się najbardziej zaawansowanymi eksperymentami firmy.

    Wprowadzenie tego narzędzia pokazuje, jak AI zmienia rynek oprogramowania kreatywnego. Claude Design automatyzuje powtarzalne czynności i sprawia, że tworzenie estetycznych projektów staje się dostępne dla szerszego grona odbiorców bez specjalistycznego przygotowania technicznego.

    Rozwój projektowania z AI

    Claude Design to przykład głębszego połączenia sztucznej inteligencji z pracą twórczą. Narzędzie nie tylko generuje pojedyncze grafiki, ale stara się uwzględniać kontekst marki i uczyć się na podstawie poprawek wprowadzanych przez użytkownika. Pozwala to na zachowanie spójności wizualnej przy dużej skali produkcji materiałów.

    Mimo że projekt jest w fazie eksperymentów, pokazuje kierunek zmian w branży. W miarę rozwoju technologii rola projektantów może skupić się bardziej na nadzorze koncepcyjnym i wyznaczaniu kierunków strategicznych, podczas gdy AI zajmie się techniczną realizacją zadań. Claude Design jest narzędziem, które ma ułatwiać przekładanie pomysłów na gotowe obrazy.


    Źródła