Tag: dall-e 3

  • Oto ChatGPT Images 2.0: OpenAI prezentuje model, który wreszcie poprawnie renderuje tekst

    Oto ChatGPT Images 2.0: OpenAI prezentuje model, który wreszcie poprawnie renderuje tekst

    OpenAI wprowadziło nową wersję swojego modelu generowania obrazów, Oto ChatGPT Images 2.0. Model jest już dostępny dla użytkowników i odpowiada na jedną z głównych krytyk dotyczących generatywnej sztucznej inteligencji – problem z poprawnym renderowaniem tekstu na grafikach.

    Nowy silnik nie tylko poprawia pisanie, ale także wprowadza ulepszenia w fotorealizmie, edycji i dostosowywaniu rozdzielczości. OpenAI kontynuuje rozwój w dziedzinie generatywnych mediów, koncentrując się na praktycznych zastosowaniach dla twórców i deweloperów.

    Kluczowe fakty o nowym modelu

    • Doskonałe renderowanie tekstu to główna nowość; model integruje napisy, znaki i notatki odręczne w scenach, poprawnie obsługując języki niełacińskie, takie jak japoński, koreański, hindi czy bengalski.
    • Świadomość kontekstu i fizyki pozwala na tworzenie realistycznych scen z wieloma obiektami, z poprawnym oświetleniem i bez typowych błędów, jak nakładanie się elementów.
    • Zaawansowana edycja z maskami umożliwia precyzyjne wypełnianie (inpainting) i rozszerzanie (outpainting) obrazów, zachowując szczegóły takie jak oświetlenie czy twarze, co jest kluczowe przy prototypowaniu UI czy wizualizacji produktów.
    • Nowe możliwości obejmują generowanie obrazów w rozdzielczości do 2K, dostępność wielu formatów, czterokrotnie szybsze tworzenie oraz funkcję "Chronicle" do tworzenia spójnych sekwencji wizualnych.

    Przełom w renderowaniu tekstu i wielojęzyczność

    Najważniejszą funkcją Oto ChatGPT Images 2.0 jest poprawne renderowanie tekstu. Wcześniejsze modele, w tym poprzednia wersja, miały problemy z literami, tworzyły nieczytelne ciągi znaków lub zniekształcały napisy na szyldach czy plakatach. Teraz to się zmienia.

    Model potrafi wkomponować pisany język w scenę – jako etykieta na butelce, znak drogowy, interfejs użytkownika czy kartka z notatkami. Zachowuje poprawną ortografię, spójne odstępy między literami i odpowiednie czcionki. Wsparcie dla skryptów niełacińskich otwiera możliwości dla globalnych projektów.

    Świadome świata obrazy i elastyczna jakość

    Świadome świata obrazy i elastyczna jakość

    Model został wytrenowany na lepszym rozumieniu świata fizycznego. Generowane sceny z wieloma obiektami są spójne – światło pada realistycznie, materiały wyglądają odpowiednio, a obiekty nie przenikają się nawzajem.

    Model oferuje tryby generowania "Instant" i "Thinking", które pozwalają na różnorodność w czasie przetwarzania i szczegółowości wyników. Działa z aktualną wiedzą o świecie, z datą odcięcia w grudniu 2025 roku, co pozwala na tworzenie obrazów odnoszących się do bieżących wydarzeń i trendów.

    Narzędzie dla deweloperów: od prototypów do produkcji

    Dla społeczności web dev i twórców aplikacji AI, Oto ChatGPT Images 2.0 oferuje potężne możliwości przez API (dostępne jako GPT-Image-1.5). Elastyczność rozdzielczości – od presetów po customowe wymiary, z krawędziami do 3840 px i różnymi proporcjami – pozwala generować zasoby dokładnie pod potrzeby projektu, czy to na baner, czy na tło w wysokiej rozdzielczości.

    Endpoint edycji może być najbardziej praktycznym rozwiązaniem dla wielu zastosowań. Możliwość precyzyjnej modyfikacji wybranych regionów obrazu przy użyciu masek to funkcja, na którą czekało wielu designerów. Dzięki niej można iteracyjnie poprawiać mockupy UI, wizualizować zmiany na opakowaniach produktów czy generować warianty grafik bez potrzeby zaczynania od zera.

    Podsumowanie

    Oto ChatGPT Images 2.0 to nie tylko kolejna iteracja, ale odpowiedź na konkretne problemy dotychczasowej technologii. Poprawione renderowanie tekstu ma kluczowe znaczenie dla wielu zastosowań komercyjnych, gdzie poprawny napis na wizualizacji jest istotny. Połączenie tego z lepszym rozumieniem fizyki, zaawansowaną edycją i opcjami dostosowywania jakości sprawia, że model staje się wszechstronnym narzędziem produkcyjnym.

    Dostępność przez API oznacza, że wkrótce możemy zobaczyć jego implementacje w narzędziach do prototypowania, platformach e-commerce czy generatorach treści. OpenAI stawia na użyteczność, a Oto ChatGPT Images 2.0 wydaje się być krokiem w stronę generatywnej AI, która nie tylko imponuje, ale także solidnie pracuje.

  • Sztuczna inteligencja utknęła w przeszłości. Generatory AI wciąż widzą neandertalczyków jako małpoludy

    Sztuczna inteligencja utknęła w przeszłości. Generatory AI wciąż widzą neandertalczyków jako małpoludy

    Jeśli poprosicie sztuczną inteligencję o wygenerowanie obrazu neandertalczyka, prawdopodobnie otrzymacie wynik, który naukowcy odrzucili dekady temu. Badanie przeprowadzone przez Matthew Magnaniego z University of Maine i Jona Clindaniela z University of Chicago rzuca nowe światło na to, jak AI „rozumie” naszą prehistorię. Wyniki są, delikatnie mówiąc, zaskakujące.

    Publikacja, która ukazała się w lutym 2026 roku na łamach Advances in Archaeological Practice, punktuje technologię za powielanie mitów, z którymi archeolodzy walczą od lat.

    Masowy test prawdy

    Badacze nie ograniczyli się do kilku zapytań. Przeprowadzili szeroko zakrojony eksperyment, wykorzystując generatory obrazów DALL-E 3 oraz model tekstowy GPT-3.5. Zespół przygotował cztery różne prompty – dwa z nich prosiły o naukową dokładność, a dwa były ogólnymi prośbami o sceny z życia neandertalczyków. Każde zapytanie zostało uruchomione aż sto razy.

    Rezultaty? Okazało się, że „wiedza” sztucznej inteligencji ma ogromne luki. Zespół porównał każdy wynik z recenzowanymi badaniami naukowymi dotyczącymi diety, ubioru, narzędzi i budowy ciała naszych przodków. W jednej z grup zapytań znaczna część tekstów generowanych przez AI stała w sprzeczności z obecną wiedzą archeologiczną.

    Neandertalczyk czy bestia?

    Najbardziej rzuca się w oczy sposób, w jaki AI wizualizuje neandertalczyków. Zamiast wyprostowanych, podobnych do nas ludzi, których znamy ze współczesnych rekonstrukcji, ekrany zalały postacie zgarbione, mocno owłosione i o małpich rysach twarzy.

    To wizja, która dominowała w nauce na przełomie XIX i XX wieku, a nie w 2026 roku. Co ciekawe, badacze zauważyli specyficzną rozbieżność czasową w źródłach, z których czerpią algorytmy:

    • Teksty (ChatGPT) często odzwierciedlały stan wiedzy z lat 60. XX wieku.
    • Obrazy (DALL-E 3) stylistycznie przypominały rekonstrukcje popularne na przełomie lat 80. i 90.

    Co więcej, AI ma tendencję do fantazjowania na temat technologii. W wygenerowanych scenach pojawiały się przedmioty, które absolutnie nie pasują do epoki.

    Niektóre wyniki zawierały obiekty z dużo późniejszych okresów. Na obrazach pojawiały się plecione kosze, metalowe narzędzia, a nawet przedmioty ze szkła – materiały, które nie mają racji bytu w kontekście neandertalskim.

    Problem tkwi w danych

    Dlaczego tak zaawansowana technologia popełnia tak podstawowe błędy? Magnani i Clindaniel wskazują na prozaiczną przyczynę: dostępność danych. Nowoczesne, przełomowe badania archeologiczne są często ukryte za paywallami (płatnym dostępem) w specjalistycznych czasopismach.

    Z drugiej strony, starsze książki, artykuły i ilustracje są szeroko dostępne w domenie publicznej lub w otwartym internecie. AI uczy się więc na tym, co jest łatwo dostępne, a to niestety często oznacza materiały przestarzałe. To klasyczny przykład tego, jak cyfrowy dostęp do wiedzy kształtuje – lub w tym przypadku zniekształca – naszą wizję przeszłości.

    Gdzie są kobiety i dzieci?

    Badanie ujawniło jeszcze jeden niepokojący aspekt – stronniczość społeczną. W wygenerowanych scenach dominowali dorośli mężczyźni. Kobiety i dzieci pojawiały się rzadko, co drastycznie spłyca obraz życia społecznego neandertalczyków.

    To powielenie schematów ze starej literatury, gdzie rola kobiet i dzieci była często pomijana lub marginalizowana. Kiedy AI bezkrytycznie powiela te wzorce, utrwala fałszywy, wąski obraz dawnych społeczności, co może być problematyczne, jeśli takie obrazy trafią do materiałów edukacyjnych czy muzeów.

    Źródła