Tag: LLM

Factory v0.123.0 wprowadza stałe śledzenie tokenów i szybsze przesyłanie wiadomości
Twórcy platformy Factory ogłosili wydanie wersji v0.123.0, która została udostępniona użytkownikom pod koniec czerwca. Najważniejszą nowością w tej wersji jest moduł do stałego monitorowania zużycia tokenów, który jest teraz dostępny w panelu Mission Control. Dodatkowo zespół wprowadził mechanizm optymistycznego przesyłania wiadomości, mający na celu skrócenie czasu oczekiwania na odpowiedzi agentów AI. Krótko po premierze, 11 maja, opublikowano także łatkę v0.123.0, która zawierała drobne usprawnienia.

Kluczowe informacje o aktualizacji
- Śledzenie zużycia tokenów w Mission Control umożliwia bieżącą kontrolę kosztów i obciążenia workflow.
- Optymistyczne przesyłanie wiadomości pozwala na szybszą interakcję z agentami przed pełnym nawiązaniem połączenia.
- Powiadomienia o przestarzałych modelach informują programistów, które wersje warto zaktualizować.
- Poprawki błędów sesji eliminują problemy z ładowaniem i zwiększają niezawodność pracy z subagentami.
- Korekta zliczania tokenów subagentów dostarcza dokładniejsze dane do rozliczeń i analiz.
Jak działa nowe śledzenie tokenów w Factory

Dotychczas użytkownicy Factory mogli jedynie szacować zużycie tokenów na podstawie zewnętrznych narzędzi lub ogólnych metryk. Teraz, dzięki integracji licznika z Mission Control — centralnym hubem do zarządzania agentami — deweloperzy mają dostęp do dokładnych danych o konsumpcji tokenów w czasie rzeczywistym, bez potrzeby przełączania się między aplikacjami.

Panel prezentuje zarówno ogólne statystyki, jak i szczegółowe rozbicie na poszczególne zadania. To znaczące ułatwienie dla zespołów DevOps, które muszą monitorować budżety przy intensywnym wykorzystaniu modeli językowych. Oznacza to mniej niespodzianek na fakturach i większą kontrolę nad kosztami infrastruktury AI.

W tej samej aktualizacji poprawiono również błąd związany z nieprawidłowym zliczaniem tokenów dla subagentów. Wcześniej dane mogły być nieprecyzyjne, co utrudniało dokładne rozliczenia — teraz problem został rozwiązany.

Optymistyczne przesyłanie — mniej czekania, więcej działania

Drugim kluczowym elementem tej aktualizacji jest mechanizm optymistycznego przesyłania wiadomości. System nie czeka już na pełne potwierdzenie połączenia przed wysłaniem wiadomości do agenta. Działa na zasadzie „zakładamy, że wszystko pójdzie dobrze” i realizuje zapytanie od razu.

Efekt to krótsze czasy reakcji, co jest szczególnie zauważalne przy szybkim iterowaniu kodu. Deweloperzy, którzy stosują metodę vibe coding, gdzie tempo i płynność pracy są kluczowe, od razu dostrzegą różnicę. Nie trzeba już czekać na kilka dodatkowych sekund przy każdym zapytaniu.

Zespół Factory zaznacza, że mechanizm został zaprojektowany tak, aby nie wpływał negatywnie na stabilność sesji. W przypadku problemów system potrafi cofnąć operację i spróbować ponownie, co oznacza, że użytkownik nie traci danych ani kontekstu rozmowy.

Poprawki i drobniejsze zmiany

Oprócz głównych funkcji, wersja v0.123.0 wprowadziła kilka poprawek. Najważniejsza dotyczyła sesji — wcześniej zdarzało się, że nie ładowały się poprawnie po ponownym uruchomieniu, co mogło zakłócać pracę. Teraz ten problem został usunięty.

Poprawiono także obsługę nazw narzędzi. Wcześniej niektóre komendy mogły być błędnie interpretowane przez agentów, zwłaszcza gdy zawierały niestandardowe znaki. Po aktualizacji mapowanie jest dokładniejsze, co zmniejsza liczbę nieoczekiwanych błędów w automatyzacjach.

Warto również wspomnieć o powiadomieniach deprecjacyjnych. Jeśli któryś z używanych modeli zbliża się do końca wsparcia, Factory informuje o tym i sugeruje migrację na nowszą wersję. To małe udogodnienie oszczędza czas na ręczne sprawdzanie statusu kompatybilności.

Co to oznacza dla zespołów AI i DevOps

Ta aktualizacja wpisuje się w szerszy trend w narzędziach dla AI engineeringu, koncentrując się na transparentności kosztowej i niezawodności sesji. Dla osób zarządzających wieloma agentami jednocześnie, dokładne dane o zużyciu tokenów oraz poprawiona stabilność sesji mogą znacząco ułatwić pracę i zwiększyć efektywność.

Źródła
- Factory Release v0.123.0: Enhanced Token Tracking and Improved Session Reliability
2026-06-26
Claude Opus 4.7 z trybem Fast Mode – 2,5 razy szybsza generacja i wejście na AWS
12 maja 2026 roku Anthropic wprowadziło tryb Fast Mode dla modelu Claude Opus 4.7, który przyspiesza generowanie tokenów wyjściowych 2,5 razy. W tym samym czasie firma uruchomiła Claude Platform na AWS, co umożliwia deweloperom korzystanie z pełnego zestawu funkcji API, w tym Managed Agents i wykonywania kodu, bezpośrednio przez infrastrukturę Amazona, z natywnym rozliczaniem i uwierzytelnianiem.

Kluczowe informacje
- Fast Mode przyspiesza tylko generowanie tokenów wyjściowych – czas do pierwszego tokena pozostaje taki sam.
- Cena wynosi 30 dolarów za 1 milion tokenów wejściowych i 150 dolarów za 1 milion wyjściowych – to sześć razy więcej niż standardowy Opus 4.7.
- To nie nowy model – Fast Mode wykorzystuje te same wagi i mechanizmy co standardowy Opus 4.7; to jedynie priorytetowa ścieżka serwowania.
- Claude Platform na AWS oferuje Managed Agents, webhooki, multi-agent orchestration oraz self-hosted sandboxy z natywnym billingiem.
- Dostępność – research preview na API oraz w Claude Code od wersji 2.1.36.
Fast Mode – szybszy, ale nie mądrzejszy

Anthropic wyjaśnia, że Fast Mode to rozwiązanie infrastrukturalne, a nie algorytmiczne. Model nie działa szybciej – ma jedynie priorytetowy dostęp do mocy obliczeniowej. Jak opisuje dokumentacja: to ten sam samolot i to samo miejsce docelowe, tylko osobna kolejka na lotnisku.

Przyspieszenie dotyczy wyłącznie tokenów wyjściowych. Streaming wydaje się szybszy, ale początkowe opóźnienie – czas oczekiwania na pierwszy token – pozostaje niezmienione. Dla programistów korzystających z Claude Code oznacza to płynniejszą iterację kodu i szybsze podpowiedzi, ale nie zmienia jakości odpowiedzi.

Aktywacja trybu jest prosta. W Claude Code wystarczy wpisać komendę /fast, a w API – przekazać nagłówek beta fast-mode-2026-02-01 z parametrem speed: "fast". Należy jednak pamiętać, że przełączenie trybu w trakcie konwersacji powoduje naliczenie wyższej ceny za cały dotychczasowy kontekst, nie tylko za nowe wiadomości.

Fast Mode nie współpracuje z Batch API ani Priority Tier. To narzędzie przeznaczone do zadań interaktywnych – szybkiego debugowania, iteracji kodu na żywo i wszędzie tam, gdzie liczy się każda sekunda.

AWS i Managed Agents – Claude w ekosystemie Amazona

Równolegle z Fast Mode Anthropic rozszerza obecność platformy na AWS. Deweloperzy korzystający z infrastruktury Amazona mają teraz dostęp do pełnego zestawu funkcji API bez konieczności zarządzania osobnym billingiem czy kluczami uwierzytelniającymi. Wszystko działa natywnie, przez IAM.

Co dokładnie trafiło na AWS? Managed Agents z możliwością planowania sesji, webhooki do obsługi zdarzeń w czasie rzeczywistym, multi-agent orchestration oraz self-hosted sandboxy. Te ostatnie stanowią interesującą alternatywę dla domyślnej infrastruktury Anthropica – umożliwiają uruchamianie narzędzi agentów w własnym środowisku, co jest istotne dla firm z restrykcyjnymi wymogami bezpieczeństwa.

Dla zespołów devopsowych oznacza to mniej integracyjnego boilerplate'u.

Źródła
- Claude Platform Update: Fast Mode for Opus 4.7 and AWS Integration
2026-06-25
Kimi K2.7 Code wchodzi do gry – Moonshot AI rzuca wyzwanie Claude i GPT w długodystansowym kodowaniu
Moonshot AI wprowadziło 12 czerwca 2026 roku model Kimi K2.7 Code, który jest ich najnowszym asystentem do programowania. Model ten został zaprojektowany z myślą o długoterminowych zadaniach inżynierskich, obsługuje długie konteksty oraz autonomiczne narzędzia. Użytkownicy mogą uzyskać do niego dostęp przez API, Hugging Face oraz środowisko Kimi Code.
- Kimi K2.7 Code jest modelem stworzonym do długodystansowych zadań programistycznych, który lepiej radzi sobie z różnymi językami oraz z frontendem, DevOpsem i optymalizacją wydajności.
- 256-tysięczne okno kontekstowe oraz tryb myślący (bez szybkich odpowiedzi) – model został zoptymalizowany do złożonego, wieloetapowego rozumowania.
- Około 30% mniej tokenów rozumowania w porównaniu do Kimi K2.6 Code przy tych samych zadaniach, co prowadzi do niższych kosztów inferencji.
- Ceny API: 0,95 USD za milion tokenów wejściowych, 4 USD za milion wyjściowych oraz 0,19 USD przy trafieniach cache’a – model jest dostępny na licencji Modified MIT.
Model dostosowany do agentowego kodu

Kimi K2.7 Code nie jest jedynie poprawioną wersją swojego poprzednika. Moonshot AI określa go jako „najbardziej zdolny model do kodowania”, który został dostosowany do agentowego generowania kodu oraz długoterminowej inżynierii oprogramowania. Model ma na celu lepsze radzenie sobie z zadaniami wymagającymi wielu kroków, wywoływania narzędzi oraz utrzymania spójności w długich kontekstach.

Dokumentacja wskazuje na znaczną poprawę w zadaniach długohoryzontalnych. Kimi K2.7 Code lepiej generalizuje między Rustem, Go i Pythonem, a także poprawia efektywność w projektach frontendowych, automatyzacji DevOps i optymalizacji wydajności. Dla zespołów korzystających z vibe coding lub autonomicznych agentów, model ten może obsługiwać bardziej złożone zadania niż tylko krótkie fragmenty kodu.

Duże okno i jeden tryb

Model dysponuje oknem kontekstowym o długości 256 tysięcy tokenów i nie obsługuje trybu niemyślącego – cała komunikacja odbywa się poprzez ścieżkę rozumowania. Dla programistów przyzwyczajonych do szybkich odpowiedzi od GPT czy Claude, może to być zauważalna różnica w interakcji, ale zapewnia, że model nie uprości skomplikowanej logiki.

Moonshot informuje o redukcji tokenów rozumowania o około 30% w porównaniu do Kimi K2.6 Code. Oznacza to, że nowa architektura lub proces treningowy pozwoliły modelowi myśleć bardziej zwięźle, nie tracąc jakości. Mniejsza liczba tokenów przekłada się również na niższe koszty przy wywołaniach API.

Ceny, licencja i możliwości testowania

Dostęp do Kimi K2.7 Code można uzyskać przez Moonshot API, narzędzie Kimi Code (terminalowy/IDE agent) oraz repozytorium na Hugging Face. Model jest dostępny na licencji Modified MIT, co oznacza, że w przeciwieństwie do niektórych konkurencyjnych rozwiązań, nie ma ograniczeń dotyczących komercyjnego wykorzystania.

Ceny wynoszą: 0,95 USD za milion tokenów wejściowych, 4 USD za milion wyjściowych oraz 0,19 USD za cache. W przypadku długich kontekstów i powtarzalnych promptów, te stawki mogą być korzystne. W porównaniu do modeli takich jak Claude czy GPT, Kimi K2.7 Code może być bardziej opłacalnym rozwiązaniem.

Rodzina K2 i jej znaczenie dla web deweloperki

Kimi K2.7 Code to kolejny krok po modelu Kimi K2.6 Code, który Moonshot promowało jako otwarte narzędzie do kodowania, długoterminowej egzekucji oraz agentów. Seria K2 opiera się na architekturze Mixture-of-Experts, która według wcześniejszych zapowiedzi ma bilion parametrów, z czego 32 miliardy są aktywowane podczas inferencji. Nowsze informacje sugerują, że Kimi K2.7 Code utrzymuje podobną skalę, chociaż oficjalne specyfikacje nie zostały jeszcze w pełni ujawnione.

Dla programistów pracujących z Kimi K2.7 Code, model ten oferuje nowe możliwości w zakresie długoterminowego kodowania i bardziej złożonych projektów.
2026-06-14
Z.ai wprowadza GLM-5.2 – nowy flagowy model językowy z naciskiem na kodowanie i milion tokenów kontekstu
Z.ai, firma odpowiedzialna za jeden z najbardziej zaawansowanych modeli językowych, wprowadziła GLM-5.2 – nową wersję swojego flagowego modelu. GLM-5.2 jest następcą uznanego GLM-5 i wprowadza ulepszenia w zakresie kodowania oraz obsługi długiego kontekstu, co przekłada się na lepszą wydajność w złożonych zadaniach programistycznych. Model jest dostępny dla wszystkich subskrybentów planu Coding Plan – Lite, Pro i Max – bez dodatkowych opłat.

Kluczowe informacje o premierze GLM-5.2
- GLM-5.2 to nowy model w rodzinie GLM, zoptymalizowany do kodowania i autonomicznych agentów programistycznych.
- Model obsługuje długi kontekst, co umożliwia analizę całych repozytoriów kodu oraz złożonych zadań.
- Użytkownicy Coding Plan (Lite, Pro, Max) uzyskali dostęp do modelu bez dodatkowych kosztów od dnia premiery.
- Z.ai koncentruje się na agentowości, przechodząc od pojedynczych zapytań do autonomicznych procesów inżynieryjnych.
- Nowy model ma silniejsze możliwości kodowania i lepiej radzi sobie z rzeczywistymi zadaniami programistycznymi w porównaniu do wcześniejszych wersji.
Tło i ewolucja rodziny GLM

Aby zrozumieć znaczenie GLM-5.2, warto przyjrzeć się wcześniejszym wersjom. GLM-5 był pierwszym flagowym modelem Z.ai, który wykorzystał architekturę Mixture-of-Experts. Dysponował 744 miliardami parametrów, z czego 40 miliardów było aktywnych na token. Obsługiwał kontekst o długości 200 tysięcy tokenów wejściowych oraz 128 tysięcy tokenów wyjściowych. W benchmarku Intelligence Index v4.0 uzyskał wynik 50 punktów, co oznaczało wzrost o 8 punktów w porównaniu do GLM-4.7. Model został wytrenowany na 28,5 biliona tokenów, co stanowiło wzrost o 5,5 biliona w stosunku do poprzednika.

GLM-5 był promowany jako model do „złożonej inżynierii systemów i długoterminowych zadań agentowych”. Z.ai podkreślało, że model ten wprowadza nową jakość w autonomicznej inżynierii. Zyskał uznanie za swoje możliwości w rzeczywistych zadaniach programistycznych.

GLM-5.2, opisany jako „model flagowy nowej generacji do inżynierii agentowej”, wprowadza znaczne ulepszenia w zakresie kodowania, co pokazuje, że Z.ai kontynuuje rozwój i podnosi standardy w narzędziach AI do kodowania.

Co nowego wnosi GLM-5.2

GLM-5.2 rozwija możliwości swojego poprzednika, wprowadzając kilka istotnych usprawnień. Najważniejsza zmiana dotyczy jakości kodowania – model ma lepsze możliwości programistyczne, co potwierdzają wewnętrzne testy Z.ai oraz opinie użytkowników planu Coding Plan. Oznacza to lepsze rozumienie skomplikowanych struktur kodu oraz generowanie bardziej wydajnego i lepiej udokumentowanego kodu.

Kolejnym istotnym obszarem jest rozwój w kierunku agentowości. GLM-5.2 nie jest już tylko narzędziem do pojedynczych zapytań, ale systemem zdolnym do prowadzenia złożonych procesów inżynieryjnych, obejmujących analizę wymagań, implementację, testowanie i wdrożenie. Oznacza to, że może zarządzać całym repozytorium lub modułem oprogramowania bez potrzeby mikrozarządzania przez programistę.

Trzecim kluczowym elementem jest obsługa długiego kontekstu, która umożliwia analizę rozbudowanych repozytoriów i śledzenie zależności w projektach bez utraty spójności.

Znaczenie dla użytkowników Coding Plan

Z.ai udostępniło GLM-5.2 w ramach istniejącej subskrypcji Coding Plan, obejmującej pakiety Lite, Pro i Max. Użytkownicy nie muszą ponosić dodatkowych kosztów ani zmieniać warunków umowy, aby korzystać z nowego modelu. Plan Coding Plan został zaprojektowany do codziennej pracy na średnich repozytoriach, oferując priorytetowy dostęp do najnowszych modeli i zestawu narzędzi MCP. Wprowadzenie GLM-5.2 znacząco zwiększa wartość tej oferty, dając programistom dostęp do jednego z najsilniejszych narzędzi agentowości na rynku.
2026-06-13
Claude Fable 5 wchodzi do gry — Anthropic otwiera dostęp do modelu klasy Mythos dla każdego
Anthropic udostępniło Claude Fable 5, swój najnowszy model klasy Mythos, który jest uznawany za bezpieczny do powszechnego użytku. To pierwszy raz, gdy tak zaawansowany model jest dostępny dla użytkowników płatnych planów Claude oraz przez API, chociaż jego bliźniacza wersja, Claude Fable 5, pozostaje ograniczona do wybranych partnerów. Fable 5 jest już dostępny na Amazon Bedrock, w interfejsie Claude API, a także na Google Cloud Vertex AI i w Microsoft Foundry.

Co trzeba wiedzieć o Claude Fable 5
- Fable 5 to model klasy Mythos, który osiąga wysokie wyniki w testach porównawczych.
- Autonomiczna praca przez miliony tokenów — model potrafi działać samodzielnie przez długi czas.
- Inżynieria oprogramowania i długotrwałe zadania kodowania to obszary, w których model wykazuje znaczną poprawę wydajności.
- Ograniczenia bezpieczeństwa dotyczą głównie biologii, chemii, cyberbezpieczeństwa i destylacji — zapytania z tych dziedzin są kierowane do modelu Opus 4.8.
- Claude Fable 5 to wersja z poluzowanymi zabezpieczeniami, dostępna tylko dla cyberobrońców i instytucji rządowych USA.
Kodowanie, które nie potrzebuje nadzoru

Największą nowością w Fable 5 jest jego zdolność do wielogodzinnej autonomicznej pracy. Model potrafi utrzymać kontekst przez miliony tokenów, robić notatki dla siebie i korygować własne wyniki podczas wykonywania zadania. Dla deweloperów oznacza to narzędzie, które nie wymaga ciągłego nadzoru.

Anthropic informuje, że Fable 5 może działać autonomicznie dłużej niż jakikolwiek wcześniejszy model Claude. W praktyce oznacza to, że agenci kodujący mogą otrzymać specyfikację na kilka stron i realizować ją przez wiele godzin bez interwencji człowieka. Ethan Mollick, który testował model przed premierą, potwierdził, że Fable potrafi pracować nawet kilkanaście godzin nad złożonymi zadaniami.

Co ciekawe, model samodzielnie ocenia swój kod w kontekście założonych celów. Nie chodzi już tylko o generowanie fragmentów kodu — Fable 5 sprawdza, czy to, co napisał, faktycznie realizuje zamierzony cel. To podejście agentowe, które Anthropic traktuje jako kluczowe w tej wersji.

Frontend ze screenshota i inne sztuczki z wizją

Anthropic określa Fable 5 jako nowy krok w zadaniach związanych z wizją komputerową. Model rozumie diagramy, wykresy, tabele, pliki PDF i zrzuty ekranu. Jednak szczególnie interesującą funkcją dla web deweloperów jest możliwość odtworzenia kodu źródłowego aplikacji webowej na podstawie zrzutów ekranu interfejsu.

Wyobraź sobie: robisz zrzuty ekranu istniejącej aplikacji, przesyłasz je do Claude, a model rekonstruuje frontend. To znaczne ułatwienie przy prototypowaniu, przekształcaniu starych interfejsów czy szybkim odtwarzaniu konkurencyjnych rozwiązań do analizy.

Dodatkowo model precyzyjnie odczytuje dane z wykresów naukowych — potrafi wyciągać dokładne liczby z wizualizacji, co wcześniej wymagało ręcznej pracy lub specjalistycznych narzędzi OCR. Dla zespołów pracujących z dokumentacją techniczną to znaczny postęp.

Vibe coding wchodzi na wyższy poziom

Dla osób śledzących trend vibe codingu, Fable 5 to jedna z najważniejszych premier tego roku. Model został zaprojektowany do długotrwałych zadań w środowiskach takich jak Claude Code. Mówimy o agentach, którzy otrzymują opis funkcjonalności w języku naturalnym i realizują go przez wiele godzin, a czasem dni.

Mollick pokazał, jak Fable 5 generuje gry wideo na podstawie pojedynczego prompta w Claude Code. To nie są proste dema — model tworzył gry na podstawie wielostronicowych specyfikacji. Inny przykład to szczegółowa mapa izochroniczna wygenerowana z opisu słownego.

AWS w swoim komunikacie podkreśla, że Fable 5 jest zbudowany z myślą o ambitnych, złożonych projektach, które wcześniej wymagały całych zespołów. To nie jest narzędzie do szybkich fragmentów kodu — to silnik do poważnych zadań programistycznych.

Bezpieczeństwo z zastrzeżeniami

Anthropic wprowadziło zabezpieczenia dla Fable 5. Zapytania związane z biologią, chemią, cyberbezpieczeństwem i destylacją są przekierowywane do modelu Opus 4.8, ponieważ firma obawia się nadużyć w tych dziedzinach. Cybernetyczny zespół testowy spędził ponad tysiąc godzin na testowaniu zabezpieczeń i nie znalazł skutecznego sposobu na ich obejście.

Claude Fable 5, czyli ta sama wersja z poluzowanymi ograniczeniami, trafił wyłącznie do wybranych partnerów — cyberobrońców i dostawców infrastruktury współpracujących z rządem USA. Anthropic wyraźnie oddziela masowe wdrożenie Fable od limitowanego dostępu do Claude Fable 5.

Co to zmienia dla deweloperów

Claude Fable 5 to nie tylko aktualizacja. To model, który Anthropic wprowadza jako narzędzie do autonomicznej pracy programistycznej. Rekonstrukcja frontendu ze zrzutu ekranu, wielogodzinne agentowe kodowanie, samokrytyka generowanego kodu — wszystko to jest dostępne w publicznym API.

Dla branży web dev, AI i vibe codingu to sygnał, że agentowe podejście do programowania staje się standardem. Staje się produktem dostępnym od ręki, na platformie chmurowej, z dokumentacją i wsparciem. Jeśli twoje narzędzia jeszcze nie korzystają z agentów, Fable 5 może być modelem, który zmieni twoje podejście.
2026-06-10
Andrej Karpathy, współtwórca OpenAI, dołącza do Anthropic i buduje zespół, który będzie używał Claude do przyspieszania pre-trainingu
Andrej Karpathy, współtwórca OpenAI i były dyrektor AI w Tesli, ogłosił 19 maja 2026 roku, że dołącza do Anthropic, firmy odpowiedzialnej za model Claude. W swoim wpisie na X wyraził radość z powrotu do badań i rozwoju, podkreślając, że nadchodzące lata będą kluczowe dla rozwoju dużych modeli językowych (LLM). Karpathy rozpoczął pracę w Anthropic w tym samym tygodniu, dołączając do zespołu zajmującego się pre-trainingiem, który jest kluczowym i kosztownym etapem trenowania modeli językowych.

Karpathy otrzymał ważne zadanie. Będzie prowadzić nową grupę badawczą, która skupi się na wykorzystaniu modelu Claude do przyspieszania i automatyzacji badań nad procesem pre-trainingu kolejnych modeli. Oznacza to, że sztuczna inteligencja opracowana przez Anthropic będzie wspierać rozwój bardziej zaawansowanych systemów AI, co może wpłynąć na konkurencję w tej dziedzinie.

Kluczowe fakty o przejściu Karpathy’ego
- Andrej Karpathy ogłosił dołączenie do Anthropic 19 maja 2026 roku, a pracę rozpoczął natychmiast, w tym samym tygodniu.
- Dołącza do zespołu pre-trainingu, który odpowiada za podstawowy, wielkoskalowy trening modeli takich jak Claude.
- Będzie prowadzić nową grupę, której celem jest użycie modelu Claude do usprawnienia badań nad pre-trainingiem – czyli AI pomagająca w rozwoju AI.
- Ten ruch wzmacnia pozycję Anthropic w konkurencji o talenty badawcze w dziedzinie AI.
- Karpathy ma unikalne doświadczenie jako współtwórca OpenAI i były dyrektor AI w Tesli, gdzie prowadził zespoły zajmujące się wizją komputerową dla Autopilota.
Znaczenie przejścia dla rywalizacji w świecie AI

Transfer Karpathy’ego to nie tylko zmiana pracy, ale także istotny sygnał dla branży. Anthropic, znany z modelu Claude, często był postrzegany jako firma z filozoficznym podejściem do bezpieczeństwa AI. Pozyskanie jednego z oryginalnych twórców OpenAI, który ma doświadczenie w skalowaniu systemów, pokazuje determinację Anthropic w dążeniu do technologicznej doskonałości.

Skupienie się na pre-trainingu odpowiada na aktualne wyzwania. Budowa nowoczesnych modeli wymaga ogromnych zasobów obliczeniowych i finansowych. Każda optymalizacja, która pozwala na uzyskanie lepszego modelu w krótszym czasie, staje się strategiczną przewagą. Właśnie w tym obszarze Karpathy będzie działać.

Claude jako narzędzie do budowy kolejnych Claude

Ciekawym aspektem tej sytuacji jest misja nowego zespołu. Wykorzystanie obecnego modelu Claude do przyspieszenia badań nad treningiem jego następców to przykład automatyzacji na wysokim poziomie. Firma planuje włączyć swoją AI w proces badawczy, co może oznaczać analizę danych treningowych, generowanie lub ocenę kodów związanych z infrastrukturą treningową, symulację wyników zmian hiperparametrów oraz pomoc w odkrywaniu nowych architektur. Taki kierunek rozwoju AI może prowadzić do szybkiej ewolucji w tej dziedzinie.

Wpływ na przyszłość rozwoju LLM

Decyzja Karpathy’ego wskazuje, gdzie koncentrują się wysiłki największych graczy. Nie chodzi tylko o finetuning czy specjalizację modeli, ale o fundamentalny proces pre-trainingu. Jeśli jego zespół zdoła znacząco zautomatyzować lub zoptymalizować tę fazę, może to przyspieszyć cykle wydawania nowych, potężniejszych modeli przez Anthropic.

Dla środowiska developerskiego i osób zainteresowanych AI, takie ruchy są istotnymi wskazówkami. Obszary takie jak dev ops dla AI, infrastruktura treningowa i automatyzacja badań nad modelami będą prawdopodobnie kluczowymi specjalizacjami. Sukces lub porażka tego podejścia w Anthropic będzie praktycznym testem idei, że zaawansowane LLM mogą być nie tylko produktem końcowym, ale także fundamentalnym narzędziem w ciągłym rozwoju AI.
2026-05-21
Factory CLI w wersji 0.108.0 konsoliduje pliki misji i dodaje szczegółowe śledzenie zużycia mocy obliczeniowej
Wydanie Factory CLI w wersji 0.108.0 wprowadza zmiany, które poprawiają organizację plików oraz przejrzystość kosztów dla deweloperów. Aktualizacja ma na celu zgrupowanie plików związanych z zadaniami w jednym miejscu w systemie użytkownika oraz dodanie szczegółowych statystyk zużycia mocy obliczeniowej do panelu rozliczeniowego, co jest istotne dla zespołów pracujących z AI. Wprowadzono także ulepszenia dla procesów działających w tle oraz naprawiono błędy interfejsu terminala.

Factory CLI w wersji 0.108.0 to narzędzie działające w terminalu, które umożliwia deweloperom korzystanie z dużych modeli językowych (LLM) bezpośrednio w linii poleceń. Umożliwia budowanie, debugowanie, refaktoryzację kodu i tworzenie aplikacji przy wsparciu AI, co wpisuje się w trendy "vibe coding". Rozwój tego narzędzia stanowi krok w stronę większej dojrzałości produktu, koncentrując się na doświadczeniu deweloperów i stabilności długotrwałych sesji.

Kluczowe zmiany
- Konsolidacja plików zadań – Pliki związane z zadaniami są organizowane w dedykowanym katalogu, co ułatwia ich zarządzanie i odnalezienie.
- Wgląd w rozliczenia – Możliwość śledzenia szczegółowego zużycia mocy obliczeniowej jest istotna w aplikacjach tego typu.
- Obsługa procesów w tle – Wsparcie dla uruchamiania i zarządzania procesami działającymi w tle to przydatna funkcjonalność.
- Usprawnienia stabilności systemu – Poprawki zwiększające niezawodność, takie jak zapobieganie niechcianym przerwom sesji, są ważne dla użytkowników.
- Naprawy błędów komunikacji – Poprawki dotyczące interfejsu użytkownika terminala (TUI) oraz warstwy komunikacyjnej zwiększają płynność działania.
Lepsza organizacja pracy z zadaniami

Jedną z praktycznych zmian dla użytkowników pracujących z narzędziami CLI jest lepsza organizacja plików lokalnych. Pliki związane z zadaniami, które są kluczowe dla automatyzacji, powinny być przechowywane w sposób uporządkowany.

Takie rozwiązanie upraszcza zarządzanie stanem aplikacji, tworzenie backupów czy diagnozowanie problemów. Dla zespołów DevOps oraz deweloperów pracujących nad złożonymi projektami, gdzie zadania mogą definiować wieloetapowe procesy, centralne miejsce na te pliki stanowi duże ułatwienie.

Pełna transparentność kosztów mocy obliczeniowej

Z perspektywy liderów zespołów i osób zarządzających budżetem, możliwość szczegółowego śledzenia zużycia mocy obliczeniowej jest kluczowa. W kontekście AI-as-a-Service, gdzie koszty często wynikają z zużycia zasobów GPU/CPU podczas wykonywania zadań, ta transparentność jest niezbędna.

Monitorowanie, ile zasobów pochłaniają poszczególne zadania, sesje czy użytkownicy, to kluczowa funkcja dla efektywnego zarządzania kosztami w projektach opartych na intensywnym wykorzystaniu modeli językowych. Dzięki temu zespoły mogą optymalizować swoje workflowy, wybierać odpowiednie modele dla danych zadań i unikać niespodzianek na fakturze, co jest szczególnie istotne w środowiskach hostingowych i DevOps.

Większa niezawodność dla długotrwałych zadań

Rozwój narzędzi CLI często koncentruje się nie tylko na nowych funkcjach, ale również na poprawie podstaw działania. Wprowadzenie wsparcia dla procesów działających w tle to odpowiedź na potrzeby użytkowników wykonujących długie zadania, takie jak kompilacje, testy czy procesy CI/CD sterowane przez AI.

Dodatkowo, mechanizmy zapobiegające przedwczesnemu usypianiu sesji CLI, na przykład gdy deweloper odejdzie od komputera, mogą uratować wiele godzin pracy, jeśli agent AI był w trakcie wykonywania złożonego zadania. Naprawy błędów w interfejsie terminala i warstwie komunikacyjnej również przekładają się na płynniejsze i bardziej przewidywalne doświadczenie, co jest kluczowe w codziennej pracy.

Podsumowanie

Rozwój narzędzi takich jak Factory CLI w wersji 0.108.0 zmierza w kierunku większej dojrzałości i praktyczności. Skupienie się na solidnych fundamentach: lepszej organizacji plików, pełnej transparentności kosztów oraz zwiększeniu stabilności systemu, jest kluczowe. Dla deweloperów, zespołów AI i specjalistów DevOps te aspekty oznaczają mniej czasu straconego na walkę z narzędziem, a więcej na rzeczywistą pracę twórczą przy kodzie.

Konsolidacja plików zadań upraszcza zarządzanie projektami, a wgląd w zużycie mocy obliczeniowej daje kontrolę nad budżetem. W połączeniu z usprawnieniami stabilności, użytkownicy mogą skupić się na realizacji swoich zadań.

Źródła
- Factory CLI v0.108.0: Consolidated Missions and Enhanced Billing Insights
2026-05-21
Qwen3.7-Max-Preview i Plus-Preview już w testach — mocne wejście do ligi agentów
Alibaba udostępnił społeczności AI dwa nowe modele do testów — Qwen3.7-Max-Preview i Qwen3.7-Plus-Preview. Te wersje, które można już zobaczyć w Qwen Chat i rankingach Arena, są krokiem w kierunku stworzenia uniwersalnej podstawy dla zaawansowanych agentów sztucznej inteligencji. Model Max, określany jako największy i najbardziej zaawansowany w rodzinie Qwen 3.7, ma oferować znaczące usprawnienia w zakresie rozumowania i interakcji z narzędziami.

Materiał informuje, że to nie są jeszcze oficjalne wydania modeli open-weight, lecz ich wersje preview, które mają na celu zbieranie informacji zwrotnej przed pełną premierą. Dla deweloperów i entuzjastów vibe coding to doskonała okazja, aby zobaczyć, jak ewoluują narzędzia do automatyzacji zadań programistycznych.

Kluczowe fakty o nowych preview
- Dwa nowe modele preview: Alibaba udostępnił do testów Qwen3.7-Max-Preview oraz Qwen3.7-Plus-Preview, które są flagowymi wersjami w linii Qwen 3.7.
- Nacisk na rozumowanie i agentów: Nowe modele są zoptymalizowane pod kątem zaawansowanego rozumowania, zachowań agentowych i niezawodnego korzystania z narzędzi, co jest istotne dla automatyzacji.
- Duże okno kontekstu: Qwen3.7-Max-Preview dysponuje oknem kontekstu o rozmiarze 256k tokenów, co jest ważne dla analizy dużych repozytoriów kodu czy długiej dokumentacji.
- Obiecujące wyniki: Wstępne testy zewnętrzne pokazują, że Qwen3.7-Max-Preview plasuje się wysoko w rankingach, konkurując z czołowymi modelami dostępnymi na rynku.
Qwen3.7-Max-Preview jako fundament dla agentów

Z oficjalnego opisu wynika, że Qwen3.7-Max-Preview ma być podstawą dla wszechstronnych agentów, zdolnych do samodzielnego wykonywania złożonych zadań. Wymienia się tu między innymi pisanie i debugowanie kodu, automatyzację biurowych workflow oraz działania autonomiczne. Taki kierunek rozwoju odpowiada potrzebom współczesnego developmentu, gdzie poszukuje się asystentów mogących nie tylko sugerować fragmenty kodu, ale także planować i wykonywać całe sekwencje operacji.

Dostępność modelu w trybie "thinking" w Qwen Chat pozwala użytkownikom na bieżąco obserwować tok rozumowania SI, co jest przydatne przy debugowaniu skomplikowanych promptów czy testowaniu granic możliwości agenta. To funkcja, która pomaga zrozumieć, jak model dochodzi do rozwiązania, a nie tylko uzyskać ostateczną odpowiedź.

Znaczenie dla świata developmentu i vibe coding

Wprowadzenie modeli preview, zwłaszcza Qwen3.7-Max-Preview, ma konkretne implikacje dla programistów i zespołów deweloperskich. Duże okno kontekstu 256k umożliwia załadowanie całych, dużych plików konfiguracyjnych, logów z rozbudowanych systemów czy dokumentacji technicznej. Dla narzędzi typu RAG (Retrieval-Augmented Generation) czy agentów analizujących kod bazy, taka pojemność jest kluczowa.

Ponadto, nacisk na niezawodne korzystanie z narzędzi oznacza, że model lepiej radzi sobie z używaniem zewnętrznych API, wykonywaniem poleceń systemowych czy manipulacją plikami w ramach zautomatyzowanego workflow. To ma bezpośredni wpływ na automatyzację DevOps, tworzenie skomplikowanych pipeline'ów czy zarządzanie infrastrukturą.

Preview vs. wersja produkcyjna — droga ewolucji

Ciekawy kontekst dla obecnych preview daje informacja z konsoli Alibaba Cloud dotycząca wcześniejszej generacji. Jak podano, oficjalnie wydany model Qwen3.7-Max otrzymał ulepszenia w obszarach agent programming i tool invocation w porównaniu do swojej wersji preview. Ten schemat sugeruje, że obecne testy Qwen3.7-Max-Preview są naturalną fazą rozwojową.

Społeczność testująca teraz te modele dostarcza twórcom cennych danych, które posłużą do dopracowania finalnego produktu. Dla użytkowników końcowych oznacza to, że wersja, która trafi później do szerokiego użytku, może być lepiej dostrojona pod kątem stabilności i wydajności w realnych zadaniach agentowych. Podejście "testuj z nami i bądź częścią rozwoju" staje się coraz bardziej popularne wśród dostawców dużych modeli językowych.

Podsumowanie

Premiera modeli preview Qwen3.7-Max-Preview i Qwen3.7-Plus-Preview to istotny sygnał ze strony Alibaba, potwierdzający zaangażowanie w rozwój zaawansowanych fundamentów dla sztucznej inteligencji. Choć to jeszcze nie finałowe wydanie, modele te, zwłaszcza wariant Max z dużym kontekstem i naciskiem na rozumowanie, oferują potencjał istotny dla przyszłości automatyzacji w IT. Dla deweloperów to kolejna potężna opcja do rozważenia przy budowaniu inteligentnych asystentów i narzędzi usprawniających codzienną pracę z kodem. W nadchodzących miesiącach zebrane podczas preview informacje mogą wpłynąć na jakość stabilnej, produkcyjnej wersji.
2026-05-21
Wprowadzenie Claude Opus 4.7: mocniejsze myślenie i nowe opcje dla agentów
Anthropic udostępnił swój najnowszy model, Claude Opus 4.7, 16 kwietnia 2026 roku. Model ten wprowadza istotne ulepszenia w zakresie złożonego rozumowania i zadań agentowych, szczególnie w obszarze kodowania. Ceny pozostają na tym samym poziomie co w przypadku poprzedniej wersji. Programiści powinni zapoznać się z przewodnikiem migracyjnym, ponieważ zmiany w tokenizerze i API mogą wymagać dostosowań w istniejących implementacjach.

Model, dostępny w API jako claude-opus-4-7, można wykorzystać we wszystkich produktach Claude oraz przez API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry i GitHub Copilot dla użytkowników Pro+, Business i Enterprise. Jego główną zaletą jest skuteczność w zaawansowanych zadaniach inżynierii oprogramowania oraz długoterminowych przepływach pracy, gdzie precyzja, samoweryfikacja i przestrzeganie instrukcji są kluczowe.

Kluczowe informacje o Claude Opus 4.7
- Znaczny skok w kodowaniu: Model osiągnął ponad 10-punktowy wzrost na benchmarku SWE Bench Pro w porównaniu do Claude Opus 4.6. Użytkownicy testowi zauważają, że mogą z większą pewnością powierzać mu wymagające zadania programistyczne.
- Wsparcie obrazów w wysokiej rozdzielczości: To pierwszy model Claude, który obsługuje obrazy o rozdzielczości do 2576px / 3.75MP, co jest istotnym udoskonaleniem dla agentów analizujących zrzuty ekranu, dokumenty czy wykonujących zadania wymagające precyzyjnej percepcji wizualnej.
- Nowy poziom nakładu xhigh: Wprowadzono nowy poziom xhigh między high a max w parametrze effort, co ma na celu zbalansowanie głębi rozumowania z opóźnieniem i kosztami. Dla zadań kodowania i agentowych zaleca się rozpoczęcie od tego poziomu.
- Ulepszona pamięć dla agentów: Model lepiej wykorzystuje pamięć między kolejnymi turami rozmowy, wspierając notatniki, pliki i strukturalne przechowywanie stanu, co jest kluczowe dla długotrwałych, złożonych workflow.
- Bezpieczeństwo cybernetyczne: Wprowadzono automatyczne zabezpieczenia, które wykrywają i blokują żądania związane z zabronionymi lub wysokiego ryzyka zastosowaniami w cyberbezpieczeństwie.
Dostępność i integracja z głównymi platformami chmurowymi, takimi jak Amazon Bedrock, sprawiają, że Claude Opus 4.7 jest atrakcyjnym narzędziem dla zespołów deweloperskich w obszarze web developmentu, DevOps i hostingu. Możliwość skalowania, prywatność (w Bedrock zero dostępu operatora) oraz ulepszona wizja otwierają nowe możliwości dla agentów testujących interfejsy użytkownika czy analizujących artefakty.

Jednak niektórzy użytkownicy, na przykład na Reddicie, wyrażają sceptycyzm. Krytyka dotyczy zmienionego tokenizera, który rzekomo zużywa do 35% więcej tokenów na to samo wejście, co może być postrzegane jako podwyżka cen. Pojawiają się również doniesienia o regresji w wydajności przy bardzo długim kontekście oraz nadmiernie czułych filtrach bezpieczeństwa w narzędziu Claude Code, które błędnie blokują proste operacje na kodzie. Te kontrowersje sugerują, że migracja do Claude Opus 4.7, mimo nowych możliwości, może nie być całkowicie płynna dla wszystkich zastosowań.

Źródła
2026-05-04
Factory w wersji 0.102.0 wzmacnia bezpieczeństwo i rozbudowuje Wiki
Platforma Factory.ai, która wspiera programistów w wykorzystaniu sztucznej inteligencji, wprowadziła nową wersję swojego oprogramowania oznaczoną numerem 0.102.0. Aktualizacja skupia się na dwóch kluczowych obszarach: poprawie mechanizmów bezpieczeństwa w procesie przeglądu kodu oraz znacznym udoskonaleniu funkcjonalności dokumentacji wewnętrznej. Te zmiany odpowiadają na istotne wyzwania w nowoczesnym rozwoju oprogramowania, takie jak zarządzanie ryzykiem w łańcuchu dostaw oraz zagrożenia związane z dużymi modelami językowymi.

Kluczowe zmiany w aktualizacji v0.102.0
- Zaawansowane przeglądy bezpieczeństwa: Wprowadzono szczegółowe sprawdzanie pod kątem podatności z listy OWASP Top 10, ryzyk związanych z LLM oraz problemów w łańcuchu dostaw.
- Obrazy w dokumentacji Wiki: Umożliwiono osadzanie i wyświetlanie grafik na stronach Wiki, co ułatwia tworzenie jasnych instrukcji.
- Tryb pełnego audytu projektu: Nowa funkcja w skillu security-review pozwala na przeprowadzenie kompleksowego audytu bezpieczeństwa całego projektu.
- Ulepszenia autonomii i stabilności: Wprowadzono lepsze egzekwowanie autonomii, mechanizm awaryjny dla dużych PR-ów oraz szereg poprawek błędów zwiększających stabilność.
Rewolucja w bezpieczeństwie kodu

Głównym elementem tej aktualizacji jest integracja zaawansowanych przeglądów bezpieczeństwa z codziennym workflow programisty. Skill security-review został rozszerzony o detekcję najpoważniejszych zagrożeń według standardu OWASP Top 10, który jest kluczowy dla bezpiecznego rozwoju aplikacji webowych. Factory uwzględnia również kontekst pracy z AI, dodając skanowanie pod kątem podatności specyficznych dla dużych modeli językowych, takich jak iniekcja promptów czy wyciek danych.

Przeglądy bezpieczeństwa są teraz domyślnie włączone, a dla bardziej wymagających scenariuszy dostępny jest tryb pełnego audytu projektu. Ulepszony mechanizm autonomii szybciej wykrywa błędy, takie jak problemy z firewall czy DNS, i inteligentniej zarządza limitami kontekstu oraz timeoutami. Dla dużych przeglądów pull requestów system ma także mechanizm awaryjny, który zapobiega zawieszeniu procesu.

Wiki z prawdziwego zdarzenia

Druga strona aktualizacji to znaczne ulepszenie dokumentacji. Strony Wiki w Factory zyskały możliwość osadzania obrazów. Dla zespołów developerskich, które prowadzą dokumentację projektów, instrukcje konfiguracyjne czy notatki ze spotkań, to znaczące ułatwienie. Diagramy architektury, zrzuty ekranu z błędami czy schematy przepływu danych można teraz dodać bezpośrednio, co poprawia czytelność i użyteczność dokumentacji. To usprawnienie ma duży wpływ na efektywność zespołu.

Stabilność i dopracowanie interfejsu

Wersja 0.102.0 to nie tylko nowe funkcje, ale także wiele poprawek i optymalizacji. Zwiększono bufor Droid Shield z 20 MB do 64 MB, aby lepiej radzić sobie z dużymi wynikami generowanymi przez AI. Usprawniono wykrywanie hibernacji Droid Computer, a lista modeli w CLI została posortowana według daty wydania, pokazując najnowsze na początku.

Poprawki dotknęły również interfejsu użytkownika, zwiększając jego spójność i stabilność. W aplikacji desktopowej utrwalono katalog roboczy, szczegóły komputera są widoczne nawet przy przejściowych błędach, a aktualizator pobiera nową wersję dopiero po kliknięciu przez użytkownika. Wprowadzono także nowe polecenie /btw do wysyłania prywatnych wiadomości w sesji oraz ulepszono selektor dla komendy /copy.

Podsumowanie

Aktualizacja Factory do wersji 0.102.0 wyraźnie wskazuje kierunek rozwoju platformy: łączenie możliwości asystentów AI z solidnymi praktykami inżynieryjnymi. Wzmocnienie bezpieczeństwa na etapie przeglądu kodu, z naciskiem na nowoczesne zagrożenia związane z LLM, odpowiada na realne potrzeby zespołów wdrażających AI w kluczowych procesach. Dbałość o czytelną dokumentację oraz stabilność interfejsu świadczy o dojrzałości produktu. Dla programistów i zespołów DevOps, które szukają nie tylko generatywnej mocy, ale także kontroli i bezpieczeństwa w workflow, te zmiany są istotnym krokiem naprzód.

Źródła
- Factory Release v0.102.0: Enhanced Security and Wiki Features
2026-05-04