Wyślij zapytanie Dołącz do Sii

Czy kiedykolwiek marzyłeś o tym, żeby fizycznie przedstawić obraz, który sobie wyobraziłeś? By móc pokazać go innym ludziom nie za pomocą opisu, licząc na to, że poprawnie zdekodują, co masz na myśli i odtworzą go w swoich własnych głowach, ale bezpośrednio – jakby wziąć go z twojej wyobraźni i postawić przed wszystkimi do obejrzenia? A może chciałbyś po prostu móc zobaczyć to, co widzisz w swojej głowie bardziej wyraźnie – używając wzroku – a nie tylko przenośnymi oczami wyobraźni?

Chociaż technologia, która czyta myśli, nadal jest poza naszym zasięgiem, mamy teraz dostęp do interesującej alternatywy. Żyjemy w erze modeli sztucznej inteligencji zdolnych do generowania wysokiej jakości obrazów jedynie na podstawie opisu tekstowego. Ta technologia jest darmowa, udostępniana na zasadzie otwartych źródeł i dostępna dla każdego.

Ale jak znaleźliśmy się w tym miejscu? Ten artykuł przedstawia krótką historię syntezy obrazów, dając ogólny ogląd na kluczowe wydarzenia, które doprowadziły nas do obecnego stanu.

Generacyjne sieci antagonistyczne

Mimo że pierwsze próby generowania obrazów za pomocą sztucznej inteligencji sięgają lat 70-tych, przez dziesięciolecia postęp w tej dziedzinie był niewielki. Dostępna moc obliczeniowa i ilość danych były ograniczone, a algorytmy zbyt proste i sztywne, aby poradzić sobie z bardziej skomplikowanymi i realistycznymi obrazami. Jednak ta sytuacja zaczęła się zmieniać wraz z pojawieniem się uczenia głębokiego i konwolucyjnych sieci neuronowych, które z kolei położyły fundament pod generacyjne sieci antagonistyczne (GAN, ang. generative adversarial networks).

GAN-y stanowiły znaczący przełom w dziedzinie generowania obrazów za pomocą sztucznej inteligencji. Ta architektura sieci neuronowej została opracowana w 2014 roku przez Iana Goodfellowa i jego współpracowników z Uniwersytetu w Montrealu. Składa się z dwóch sieci neuronowych – generatora i dyskryminatora, które są naprzemiennie trenowane. Sieć generatora uczy się generowania syntetycznych danych, które naśladują rozkład danych rzeczywistych, podczas gdy sieć dyskryminatora ćwiczy się w rozróżnianiu między syntetycznymi danymi wytworzonymi przez generator, a danymi rzeczywistymi.

Proces trenowania jest iteracyjny, a generator stara się wyprodukować syntetyczne dane, które będą zdolne oszukać dyskryminator, który z kolei poprawia swoją zdolność do rozróżniania między danymi rzeczywistymi i fałszywymi.

Efektem końcowym jest sieć generacyjna, zdolna wytwarzać syntetyczne dane wizualnie nie do odróżnienia od danych rzeczywistych. Ta ogólna metoda może być stosowana nie tylko do syntezy obrazów, ale także do innych zadań, takich jak transfer stylu lub powiększanie danych. Może być stosowana poza dziedziną wizualną, np. w syntezie muzyki.

Metoda ta okazała się skuteczna w generowaniu wysokiej jakości obrazów i została wykorzystana w różnych zastosowaniach, takich jak generowanie obrazów twarzy, krajobrazów i obiektów. Ponadto GAN-y zostały dostosowane do innych zadań, w tym generowania szczegółowych obrazów na podstawie szkiców, transferowania stylu jednego obrazu na inny lub zamiany fragmentów obrazu na pożądany obiekt.

Ograniczenia technologii GAN

Jednakże, pomimo że GAN-y wykazują imponujące wyniki w generowaniu realistycznych obrazów, istnieją pewne ograniczenia tej technologii. Jednym z nich jest niestabilna natura procesu uczenia. Struktura antagonistyczna sieci może prowadzić do sytuacji, gdzie sieć generatora produkuje tylko ograniczony zbiór danych, które nie obejmują całego zakresu możliwych wyników, skutkując brakiem różnorodności w wynikowych obrazach.

Kolejnym problemem, na który GAN-y mogą być szczególnie podatne, jest nadmierne dopasowanie (overfitting), kiedy sieć generatora zapamiętuje zbiór treningowy, zamiast generalizować w celu produkcji nowych obrazów. Dodatkowo, GAN-y mogą mieć trudności z generowaniem obrazów o wysokiej rozdzielczości ze względu na złożoność obliczeniową, często wymagając znacznej ilości czasu i mocy obliczeniowej do treningu. Ponadto, chociaż istnieją przykłady wersji GAN-ów umożliwiających generowanie obrazów na podstawie tekstu lub przetwarzania obrazu na obraz, większość implementacji zapewnia jedynie bardzo ograniczoną kontrolę nad procesem generowania, co utrudnia produkcję konkretnych obiektów lub zmianę stylu generowanych obrazów bez dodatkowej pracy lub dotrenowania całej sieci.

DALL-E

Aby przezwyciężyć te ograniczenia, badacze eksplorowali nowe techniki i architektury do generowania obrazów. Jednym z takich przykładów jest DALL-E, opracowany przez OpenAI i wydany 5 stycznia 2021 roku. Model wykorzystuje wstępnie wytrenowany transformator generatywny (ang. Generative Pre-trained Transformer – GPT), który z kolei opiera się na wcześniejszym modelu transformatora (transformer). Oba zostały pierwotnie opracowane do zastosowań w przetwarzaniu języka naturalnego.

Transformator to architektura sieci neuronowej oparta na mechanizmie samouwagi (self-attention). W tradycyjnych sieciach neuronowych każdy element wejściowy jest przetwarzany niezależnie, co może prowadzić do trudności w modelowaniu odległych zależności. Mechanizm uwagi pozwala modelowi selektywnie skupić się na różnych częściach sekwencji wejściowej, umożliwiając mu uchwycenie złożonych zależności między słowami.

Model transformatora składa się z kodera i dekodera (oba są złożone z wielu warstw samouwag i sieci neuronowych ze sprzężeniem w przód (feedforward neural network)) oraz posiada duże zdolności do zrównoleglania. Model ten osiąga najlepsze wyniki w wielu zadaniach przetwarzania języka naturalnego.

Na bazie tej architektury OpenAI opracowało, w 2018 roku, model wstępnie wytrenowanego transformatora generatywnego. GPT działa poprzez uczenie dużej sieci neuronowej na ogromnych ilościach danych tekstowych takich jak książki, artykuły i strony internetowe. Model używa procesu zwanego uczeniem nienadzorowanym do identyfikowania wzorców i relacji w danych, bez jawnego podawania do modelu jak powinny one wyglądać.

Po wytrenowaniu, model jest zdolny do generowania nowego tekstu przez przewidywanie następnego słowa lub ich sekwencji na podstawie kontekstu z poprzednich słów w zdaniu. Realizowane jest to za pomocą procesu autoregresji, w którym model generuje jedno słowo na raz, bazując na rozkładzie prawdopodobieństwa dla każdego następnego słowa oraz biorąc pod uwagę poprzednie.

Oryginalny GPT został rozszerzony w 2019 roku, a następnie ponownie w 2020 roku, co doprowadziło do powstania GPT-3, używającego 175 miliardów parametrów. Model ten stał się fundamentem dla DALL-E, który wykorzystuje jego wielomodalną implementację, zamieniając tekst na piksele. Posiada 12 miliardów parametrów i został wytrenowany na parach tekst-obraz pozyskanych z Internetu.

DALL-E wykazał imponujące wyniki w wielu zadaniach generowania obrazów na podstawie wejść tekstowych. Poza prostym generowaniem próbek obrazów różnych obiektów, które widział podczas treningu, model potrafi łączyć różne pomysły i niespokrewnione koncepcje w przekonujący sposób, generując nawet obiekty, które nie istnieją w świecie fizycznym.

CLIP

Kolejnym ważnym krokiem w syntezie obrazów za pomocą sztucznej inteligencji, oprócz DALL-E, było opracowanie techniki kontrastywnego wstępnego uczenia językowo-obrazowego (ang. Contrastive Language-Image Pre-training). CLIP to model wyuczony na 400 milionach par obrazów wraz podpisami tekstowymi, pozyskanymi z Internetu. Działanie modelu polega na uczeniu sieci neuronowej zarówno na danych obrazowych, jak i tekstowych, aby umożliwić modelowi zrozumienie związku między dwiema modalnościami – jak opisy tekstowe odnoszą się do treści wizualnej obrazów.

Podczas treningu model uczy się kodować dane wejściowe obrazu i tekstu do wspólnej przestrzeni wektorowej, w której podobieństwo między obrazem a odpowiadającym mu opisem tekstu jest maksymalizowane, podczas gdy podobieństwo między obrazami a innymi nieistotnymi tekstami jest minimalizowane. Realizowane jest to za pomocą kontrastywnej funkcji straty, która zachęca model do przyciągania wektorów obrazu i tekstu, należących do tej samej pary obraz-opis, i oddalania wektorów obrazu i tekstu, które nie należą do tej samej pary.

W DALL-E, CLIP został wykorzystany do oceny generowanych obrazów pod względem trafności opisu, w celu filtrowania początkowego zestawu obrazów i wyboru najbardziej odpowiednich wyników. Od tego czasu, CLIP stał się popularnym elementem wykorzystywanym w różnych rozwiązaniach syntezy obrazów, pełniąc rolę filtru i przewodnika w procesie generowania obrazów.

Pierwszym otwartym źródłowym rozwiązaniem wykorzystującym CLIP był DeepDaze. Został opracowany w styczniu 2021 roku przez Phila Wanga i łączył CLIP z siecią neuronową reprezentacji jawnej (implicit neural representation network) zwaną Siren. DeepDaze zyskał popularność dzięki swojej zdolności do produkcji wizualnie oszałamiających i surrealistycznych obrazów, które często przypominają krajobrazy niczym ze snów lub sztukę abstrakcyjną.

BigSleep

Kilka dni później ten sam programista, przy pomocy modeli opracowanych przez badacza Ryana Murdocka, opracował kolejny model generatywny uczenia maszynowego o nazwie BigSleep. Model działa poprzez połączenie CLIP z BigGAN – systemem opracowanym przez badaczy z Google, który wykorzystuje wariant architektury GAN do generowania obrazów o wysokiej rozdzielczości z losowych wektorów szumu. BigSleep wykorzystuje wyniki BigGAN do znalezienia obrazów o wysokim wyniku nadawanym przez CLIP. Następnie model stopniowo dostosowuje wejście szumu w generatorze BigGAN, aż wygenerowane obrazy będą odpowiadały danemu zapytaniu.

Według Ryana Murdocka, BigSleep był pierwszym modelem, który mógł generować różnorodne pojęcia i obiekty o wysokiej jakości w rozdzielczości 512 x 512 pikseli. Podczas gdy poprzednie prace, choć dające imponujące wyniki, często były ograniczone do obrazów o niższej rozdzielczości i bardziej powszechnych obiektów.

The VQGAN-CLIP

Model BigSleep zainspirował inny wariant połączenia CLIP-GAN. Jedynie trzy miesiące później, w kwietniu 2021 roku, badaczka Katherine Crowson opracowała model VQGAN-CLIP. VQGAN (generacyjna sieć antagonistyczna z kwantyzacją wektorów – ang. Vector Quantized Generative Adversarial Network) to wariant architektury generacyjnych sieci antagonistycznych, który jest zdolny do wytwarzania obrazów wysokiej jakości przez kodowanie ich jako dyskretne wpisy słownika kodów, co umożliwia bardziej efektywne szkolenie i lepszą jakość obrazu w porównaniu z tradycyjnymi modelami GAN.

VQGAN-CLIP wykorzystuje multimodalny enkoder z CLIP do oceny podobieństwa par (tekst, obraz) i przekazuje go z powrotem przez sieć do przestrzeni ukrytej (tj. przestrzeni abstrakcyjnych reprezentacji obrazów) generatora obrazów VQGAN. Poprzez iteracyjne powtarzanie tego procesu, kandydat na wygenerowany obraz jest dostrajany, aż stanie się bardziej podobny do docelowego tekstu.

Model umożliwiał nie tylko generowanie nowych obrazów, ale także manipulowanie już istniejącymi, poprzez podanie opisu tekstowego pożądanej. Ta architektura była ważnym krokiem w rozwoju modeli tekst-obraz, oferując wytwarzanie i manipulowanie obrazów wysokiej jakości, dokładność semantyczną między tekstem a obrazem oraz efektywność, nawet podczas generowania niespotykanych treści. Podejście oparte na otwartym rozwoju i badaniach przyczyniło się do szybkiego sukcesu tej architektury w świecie rzeczywistym, kiedy niezależni twórcy rozszerzyli ją na inne modalności i zastosowania komercyjne.

Modele dyfuzyjne

Podejście badawcze oparte na łączeniu CLIP z innymi architekturami rozwijało się dalej. W czerwcu 2021 roku autorka VQGAN-CLIP opublikowała kolejne dzieło, łącząc kontrastywne wstępne uczenie językowo-obrazowe z algorytmem dyfuzji, aby stworzyć model „dyfuzji kierowanej CLIP-em” (ang. CLIP Guided Diffusion).

Algorytmy dyfuzji to rodzina probabilistycznych metod generowania obrazów, opartych na symulowaniu zachowania cząstek dyfundujących przez ośrodek. Dane obrazowe można przekształcić do jednorodnego rozkładu przez dodanie losowego szumu. Algorytm dyfuzji stopniowo degraduje strukturę obrazu poprzez dodawanie szumu, aż pozostanie tylko losowy szum.

W uczeniu maszynowym celem jest nauczenie procesu odwróconej dyfuzji – znalezienie parametrów procesu, który iteracyjnie przekształca losowy szum z powrotem w spójny obraz. Proces rekonstrukcji jest uwarunkowany pewnym rodzajem sygnału kierującego.

Jak działa algorytm?

W ogólnym zarysie, algorytm działa w następujący sposób:

  • Algorytm inicjalizuje dane szumem, który jest generowany losowo – zwykle z rozkładu Gaussa o średniej zero i wariancji jednostkowej.
  • Ten sygnał szumu jest używany jako stan początkowy procesu dyfuzji, a cząstki reprezentujące położenie pikseli obrazu, są pobierane z tej początkowej dystrybucji.
  • Dyfuzja cząstek jest symulowana jako sekwencja kroków czasowych, a w każdym z nich położenia cząstek są aktualizowane na podstawie reguły probabilistycznej, która modeluje dyfuzję.
  • Proces jest warunkowany sygnałem kierującym – obrazem lub tekstem.
  • Sygnał jest wykorzystywany do zwracania dyfuzji w kierunku generowania obrazu odpowiadającego pożądanym cechom.
  • Krok dyfuzji i kierowanie są powtarzane przez ustaloną liczbę iteracji. W miarę postępu procesu, cząstki stają się bardziej skupione w obszarach, które odpowiadają sygnałowi kierującemu.
  • Po zakończeniu procesu dyfuzji, końcowe położenia cząstek są przekształcane na obraz za pomocą dekodera sieci neuronowej.
  • Opcjonalnie, podejmowane są dodatkowe kroki przetwarzania, takie jak korekcja kolorów lub usuwanie szumów, aby poprawić jakość obrazu.

W CLIP Guided Diffusion autorka wykorzystała dyfuzję kierowaną (Guided Diffusion) – implementację algorytmu dyfuzji stworzoną przez badaczy z OpenAI, która sterowana jest przez sygnał dostarczony z CLIP. W tej architekturze model CLIP jest wykorzystywany do pozyskania zestawu obrazów, które odpowiadają wprowadzonemu na wejście tekstowi, a następnie obrazy te są używane jako sygnał kierujący dla modelu Guided Diffusion. Użytkownik może także dostarczyć dodatkowe ograniczenia dla pożądanego obrazu, takie jak rozdzielczość lub paleta kolorów.

Model Guided Diffusion generuje następnie sekwencję wektorów szumu, które są stopniowo ulepszane, aby wygenerować obraz, który pasuje do sygnału kierującego, dostarczonego przez CLIP. Model iteracyjnie aktualizuje wektory szumu, poprzez warunkowanie ich na poprzednim wektorze szumu, sygnale kierującym dostarczonym przez CLIP oraz losowym szumie dyfuzyjnym. Wynikowe wektory szumu są następnie przekształcane w obraz za pomocą dekodera sieci neuronowej.

Zalety i wady CLIP Guide Diffusion

Algorytm CLIP Guided Diffusion zademonstrował zdolność do generowania wysokiej jakości obrazów o realistycznych teksturach i drobnych detalach, które są trudne do osiągnięcia przy użyciu innych modeli generatywnych. Co ważniejsze, jest on również wysoce sterowalny, pozwalając użytkownikom na generowanie obrazów, które odpowiadają określonym stylom lub cechom określonym przez tekst. Model ten ma zdolność do wykonywania szerokiego zakresu zadań generowania obrazów, w tym edycji, syntezy oraz manipulacji obrazów.

To odkrycie doprowadziło do eksplozji zainteresowania generowaniem obrazów, rozprzestrzeniając wiedzę na temat tej technologii wśród jeszcze większej publiczności. Niedługo po modelu Crowson pojawiło się Disco Diffusion – popularny notatnik w Google Colab, który wykorzystywał CLIP Guided Diffusion, zapewniając łatwy w użyciu interfejs oraz mnogość możliwości konfiguracji procesu. Narzędzie to szybko stało się popularne wśród artystów i entuzjastów sztucznej inteligencji, którzy otrzymali jeszcze łatwiejszy i wygodniejszy dostęp do technologii wcześniej dostępnej tylko dla pracowników dużych firm technologicznych.

Jednym z wad modeli dyfuzyjnych jest ich wysokie zapotrzebowanie na moc obliczeniową podczas treningu i inferencji, ale następne odkrycie miało to zmienić.

Rozwój technologii

W grudniu 2021 roku grupa naukowców z grupy CompVis na uniwersytecie LMU w Monachium zaprezentowała swoją wersję popularnej techniki, nazywając ją dyfuzją ukrytą (ang. Latent Diffusion). Ten algorytm oferował bardziej wydajną alternatywę dla klasycznych modeli dyfuzyjnych.

Zamiast działać na oryginalnym obrazie, proces dyfuzji był przeprowadzany w ramach skompresowanej reprezentacji obrazu, zwanej przestrzenią ukrytą. Dzięki działaniu w tej przestrzeni, algorytm mógł odtworzyć obraz, minimalizując obciążenie obliczeniowe. Dodatkowo, algorytm był wszechstronny pod względem typów danych wejściowych, zdolny do pracy z ich różnymi rodzajami, w tym z obrazami i tekstem.

Jako pierwszy krok, pierwotny obraz jest kodowany do przestrzeni ukrytej, gdzie najważniejsze informacje są ekstrahowane i reprezentowane w mniejszej podprzestrzeni. Ten proces jest analogiczny do redukcji rozmiaru poprzez decymację, co pozwala zachować istotne cechy obrazu przy jednoczesnym zmniejszeniu jego rozmiaru. Następnie, ten sam proces jest stosowany do dowolnych wejść kondycjonujących, takich jak tekst lub dodatkowe obrazy, które są łączone z aktualną reprezentacją obrazu za pomocą mechanizmu uwagi.

Mechanizm ten uczy się optymalnego łączenia wejść i wejść kondycjonujących w przestrzeni ukrytej. Połączone wejścia są następnie używane jako początkowy szum dla procesu dyfuzji, który zachodzi w podprzestrzeni ukrytej. Ostatecznie, obraz jest odtwarzany za pomocą dekodera, który można uznać za odwrócenie kroku kodowania.

Latent Diffusion okazało się zdolne do generowania wysokiej jakości obrazów – różnorodnych oraz realistycznych. Pozwalało na tworzenie przykładów zarówno prostych, jak i złożonych, zawierających dużą ilość szczegółów. Była to elastyczna i skalowalna architektura modelu, zdolna do trenowania na dużych zbiorach danych, co pozwoliło na poprawę dokładności i zdolności do generalizacji. Architektura ta stała się to ważnym krokiem w rozwoju modeli generujących obrazy na podstawie tekstu.

Gorączka generowania obrazów

Modele AI do generowania obrazów na podstawie tekstu zrobiły w ostatnich latach duży postęp, ale aż do 2022 roku pozostawały stosunkowo ograniczone. Wiele wcześniejszych modeli wymagało dużej mocy obliczeniowej, zwłaszcza w fazie treningu. Oznaczało to, że często były one uczone na mniejszych zbiorach danych, przez co interesowali się nimi głównie badacze. Niektóre interesujące technologie były dostępne poprzez notatniki Google Colab, umożliwiające łatwe wykonywanie kodu na sprzęcie dostępnym w chmurze, ale ta metoda nadal wymagała pewnej wiedzy technicznej, co ograniczało popularność technologii.

W 2022 roku zaczęło się to zmieniać, gdy pojawiły się nowe aplikacje zapewniające wygodne interfejsy dla modeli opartych głównie na jakiejś implementacji modelu dyfuzji.

W marcu, niezależne laboratorium badawcze MidJourney uruchomiło otwartą betę swojej aplikacji, umożliwiającej dostęp do generowania wysokiej jakości obrazów w artystycznym stylu poprzez chatbota dostępnego w aplikacji Discord. Usługa wymaga płatności za dalsze korzystanie, jednak pozwala nowym użytkownikom na wygenerowanie ograniczonej liczby obrazów za darmo.

Wkrótce potem, w kwietniu, uruchomiono kolejną dużą usługę generacji obrazów. Dotychczas dostępne tylko dla ograniczonej liczby odbiorców, stworzone przez OpenAI – DALL-E 2 zostało otwarte dla wszystkich. Podobnie jak w przypadku MidJourney, wymaga ono zakupu kredytów, które można wykorzystać do generowania, choć oferuje małą ilość odnawiających się co miesiąc, darmowych, ale nie kumulujących się punktów.

DALL-E 2 został stworzony poprzez wytrenowanie sieci neuronowej na parach obraz-opis. Model nie tylko potrafi rozpoznawać obiekty i łączyć opisy tekstowe z obrazami, ale także rozumie relacje między nimi. Podobnie jak wiele innych modeli, wykorzystuje algorytm dyfuzji w procesie syntezy obrazu.

DALL-E 2 wykorzystuje CLIP do uczenia się połączeń między semantyką tekstu opisującego obraz a jego reprezentacją wizualną, kodując obraz do przestrzeni reprezentacji. Następnie zmodyfikowana wersja jednego z poprzednich modeli OpenAI, zwana GLIDE, jest wykorzystywana do odwrócenia procesu kodowania obrazu, aby stochastycznie dekodować wektory wytworzone przez CLIP. Pomaga to tworzyć wariacje w stosunku do oryginalnego obrazu lub tekstu, które mimo różnic, nadal zachowują najważniejsze cechy podanego wejścia.

DALL-E 2 przewyższa swojego poprzednika w kwestii fotorealizmu i podobieństwa do opisu wejściowego. Oprócz osiągnięć wydajnościowych, oferuje dodatkowe funkcje poza prostą syntezą tekstu-obraz, takie jak:

  • inpainting (generowanie określonych obiektów i łączenie ich w większe obrazy),
  • outpainting (tworzenie wizualnie spójnych rozszerzeń obrazu wejściowego),
  • tworzenie wariacji obrazów wejściowych.

Warto również wspomnieć o implementacji opensource DALL-E o nazwie Craiyon (wcześniej DALL-E Mini, przemianowanej z powodu sporu prawnego z OpenAI), stworzonej przez niezależnego programistę i inżyniera uczenia maszynowego – Borisa Daymę. Nie był on w stanie dorównać jakości oryginalnej architektury DALL-E, ale zdobył pewną popularność poza społecznością AI dzięki memom internetowym, ze względu na często komiczne wyniki generowane przez model.

W pierwszej połowie 2022 roku poza dwoma dużymi aplikacjami, pojawiło się wiele innych ciekawych projektów. W maju Google ogłosił swoją aplikację do generowania obrazów – Imagen, mającą konkurować z DALL-E, a w czerwcu opublikował kolejny model do generowania obrazów na podstawie tekstu – Parti. Warto również wspomnieć o publikacjach Microsoftu – NUWA i NUWA Infinity. Każda z tych architektur przyniosła interesujące wyniki i proponowała nowe odmiany wcześniej opracowanych technik. Niestety, żadna z nich nie jest dostępna do testowania dla szerszej publiczności, a ich szczegółowy opis wykracza poza zakres tego artykułu.

Rozkwit Stabilnej Dyfuzji

To wszystko sprowadza nas do lipca 2022 roku i wydania modelu, który zyskał największą popularność – Stabilnej Dyfuzji (ang. Stable Diffusion). Model został opracowany przez tę samą grupę naukowców, którzy wcześniej pracowali nad modelem Latent Diffusion. Dzięki większemu zestawowi danych treningowych i usprawnieniom w strukturze projektu, Stable Diffusion przewyższa swojego poprzednika zarówno pod względem jakości obrazów, jak i zakresu możliwości. Do warunkowania syntezy obrazów w modelu Stable Diffusion wykorzystywany jest „zamrożony” enkoder tekstu CLIP ViT-L/14 wpleciony w architekturę modelu i wyuczony na zestawie danych LAION-2B, zawierającym 2,32 miliarda par obraz-tekst w języku angielskim.

Mimo swojego rozmiaru, ta technika jest stosunkowo smukła po procesie treningu, wykorzystując 860-milionowy model UNet i 123-milionowy model kodera tekstu (w porównaniu np. do 3,5-miliardowego modelu DALL-E 2). Początkowo wymagała ona karty graficznej z co najmniej 10 GB VRAM, ale najnowsze optymalizacje zmniejszyły ilość wymaganej pamięci do zaledwie 6 GB, a niektórzy użytkownicy zgłaszali, że udaje im się przeprowadzać inferencję na kartach Nvidia zaledwie z 4 GB VRAM.

W bezpośrednim porównaniu z DALL-E 2 lub MidJourney, wyniki uzyskiwane za pomocą Stable Diffusion mogą czasami wydawać się gorsze, ale darmowy dostęp i otwarty kod źródłowy tego rozwiązania oznacza, że przy odpowiednim dostrojeniu wejść tekstowych i odrobinie cierpliwości, syntetyczne obrazy w najlepszej możliwej jakości są łatwo dostępne dla każdego.

Co więcej, elastyczność i skalowalność architektury pozwoliły na modyfikowanie oryginalnego modelu przez dostosowywanie go do mniejszych zbiorów danych. Umożliwia to tworzenie specjalistycznych modeli do generowania obrazów w określonym stylu i wytwarzania pożądanych scen, obiektów lub ludzi. Dzięki nowym technikom dalej upraszczającym ten proces (takim jak Dreambooth czy LoRA, które umożliwiają stosunkowo szybkie dostrajanie) dodawanie pojedynczych koncepcji do modelu przy użyciu niewielkich zbiorów danych, nawet kilkudziesięciu, jest prostsze. Od momentu jego wydania zainteresowanie Stable Diffusion eksplodowało do gigantycznych rozmiarów.

Na dzień dzisiejszy, istnieje wiele sposobów na uruchomienie tego modelu, włączając w to aplikacje internetowe, boty na Discordzie oraz notatniki na Google Colab, wymieniając tylko niektóre z możliwości opartych o technologie chmurowe. Ponadto, istnieje wiele darmowych aplikacji opensource, które dostarczają interfejs dla tego modelu, co pozwala każdemu na łatwe korzystanie z jego licznych funkcji na własnym sprzęcie.

Dzięki nowym funkcjom i dodatkowym modelom dostarczanym zarówno przez innych badaczy, jak i społeczność niezależnych programistów, Stable Diffusion otworzył szeroką bramę kreatywności, wprowadzając nas w nową erę łatwego i powszechnie dostępnego generowania obrazów przy pomocy sztucznej inteligencji.

Podsumowanie

Historia wytwarzania obrazów z zastosowaniem sztucznej inteligencji to fascynująca podróż przez dziesięciolecia badań prowadzonych na całym świecie. Jest to opowieść pełna ciężkiej pracy naukowej, współpracy i nieoczekiwanych wynalazków. Od wczesnych algorytmów proceduralnych, poprzez generacyjne sieci antagonistyczne, syntezy międzydomenowej przetwarzania języka naturalnego i generowania obrazów przez CLIP i GPT, do przełomów zapewnianych przez modele dyfuzyjne, technologia ta stanowi dowód na to, jak szybko postęp można osiągnąć, gdy naukowcy i inżynierowie mogą swobodnie i otwarcie korzystać z pracy innych, nieustannie budując na fundamentach osiągnięć swoich poprzedników i ciągle przesuwając do przodu granice ludzkiej pomysłowości.

Ze swoim ogromnym potencjałem, technologia SI wytwarzające obrazy zdążyła już zaskarbić sobie zarówno oddanych wielbicieli, jak i zagorzałych przeciwników. Wielu grafików i artystów, czując oburzenie faktem, że ich dzieła są wykorzystywane do szkolenia modeli AI, które mogą podważyć zatrudnienie w ich zawodzie, postanowiło zaprotestować lub nawet pozwać firmy stojące za tymi rozwiązaniami. Inne organizacje aktywnie pracują nad integracją tej technologii w swoich procesach i budowaniem nowych, zasilanych nią rozwiązań.

Jak dokładnie ta kontrowersja rozegra się w przyszłości, jest jeszcze nieznane, ale jedno jest pewne – syntezowanie obrazów z wykorzystaniem AI dysponuje potencjałem, aby rewolucjonizować sztukę, przemysł… a może i całe społeczeństwo.

***
Jeśli interesuje Cię tematyka AI, polecamy również inne artykuły naszych ekspertów.

5/5 ( głosy: 10)
Ocena:
5/5 ( głosy: 10)
Autor
Avatar
Michał Chruściński

W Sii od lipca 2021 roku. Początkowo zajmował się modelowaniem i sterowaniem przy pomocy algorytmów AI w wewnętrznym projekcie EVAA, szybko jednak przeszedł do komercyjnych projektów, w których buduje rozwiązania do przetwarzania danych w oparciu o technologie chmurowe. W Pythonie programuje od 2017, w większości w kontekście AI, Data lub DevOps. Wolny czas spędza w większości na pochłanianiu wiedzy z obszaru ekonomii lub filozofii.

Zostaw komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

  • Świetny artykuł poruszający gorący ostatnio temat. Myślę że warto wspomnieć o aspekcie filozoficznym najnowszych osiągnięć w dziedzinie generowania fotorealistycznych obrazów za pomocą AI czy silników renderujących pokroju Unreal Engine 5. Połączenie jednej z tych technologii z holografią może sprawić że jeszcze przed końcem tej dekady zmierzymy się z problemem jaskini Platona – coś co zobaczymy na własne oczy może się okazać złudzeniem.

  • Drogi przyjacielu, obawiam się, że z tym problemem mierzymy się od zarania dziejów. W filozofii sceptycyzm ma długą i dostojną tradycję.

    Ale rozumiem o co Ci chodzi – tworzenie fotomontaży czy innych podróbek nigdy nie było tak proste jak teraz.

    Wygenerowanie przekonujących zdjęć kogokolwiek, na podstawie kilku obrazów pobranych choćby z czyjegoś profilu w mediach społecznościowych to kwestia kilku, najwyżej kilkunastu minut, dla kogoś kto wie co robi.

    Niestety, jak często bywa prawdopodobnie najbardziej ucierpią na tym kobiety.

Może Cię również zainteresować

Pokaż więcej artykułów

Bądź na bieżąco

Zasubskrybuj naszego bloga i otrzymuj informacje o najnowszych wpisach.

Otrzymaj ofertę

Jeśli chcesz dowiedzieć się więcej na temat oferty Sii, skontaktuj się z nami.

Wyślij zapytanie Wyślij zapytanie

Natalia Competency Center Director

Get an offer

Dołącz do Sii

Znajdź idealną pracę – zapoznaj się z naszą ofertą rekrutacyjną i aplikuj.

Aplikuj Aplikuj

Paweł Process Owner

Join Sii

ZATWIERDŹ

This content is available only in one language version.
You will be redirected to home page.

Are you sure you want to leave this page?