DreamBooth

Demostració de l'ús de DreamBooth per afinar el model de difusió Stable Diffusion v1.5, utilitzant dades d'entrenament obtingudes de Categoria:Jimmy Wales a Wikimedia Commons. Aquí es mostren imatges generades algorítmicament de Jimmy Wales, cofundador de la Viquipèdia, fent exercicis de premsa de banc en un gimnàs.

DreamBooth és un model de generació d'aprenentatge profund utilitzat per ajustar els models existents de text a imatge, desenvolupat per investigadors de Google Research i la Universitat de Boston el 2022. Desenvolupat originalment amb el model de text a imatge Imagen de Google, les implementacions de DreamBooth es poden aplicar a altres models de text a imatge, on pot permetre que el model generi resultats més afinats i personalitzats després d'entrenar en tres o cinc imatges de un tema.[1][2]

Tecnologia

Els models de difusió de text a imatge prèviament entrenats, encara que sovint són capaços d'oferir una gamma diversa de diferents tipus de sortida d'imatges, no tenen l'especificitat necessària per generar imatges de subjectes menys coneguts i tenen una capacitat limitada per representar subjectes coneguts en diferents situacions i contextos. La metodologia utilitzada per executar les implementacions de DreamBooth implica l'ajustament d'aquests models mitjançant un petit conjunt d'imatges que representen un tema específic, amb tres o cinc imatges identificades com a generalment suficients, i aquestes imatges s'acompanyen amb indicacions de text que contenen el nom de la classe a la qual pertany l'assignatura, a més d'un identificador únic (per exemple, a photograph of a [Nissan R34 GTR] car, amb cotxe la classe); s'aplica una pèrdua de preservació prèvia específica de la classe per animar el model a generar diverses instàncies del subjecte en funció del que el model ja està entrenat per a la classe original. S'utilitzen parells d'imatges de baixa resolució i d'alta resolució preses del conjunt d'imatges d'entrada per afinar els components de superresolució, permetent mantenir els detalls minuciosos del subjecte.

Ús

DreamBooth es pot utilitzar per afinar models com Stable Diffusion, on pot alleujar una deficiència comuna de Stable Diffusion que no és capaç de generar adequadament imatges de persones concretes.[3] Tanmateix, aquest cas d'ús és força intensiu de VRAM i, per tant, té un cost prohibitiu per als usuaris aficionats.[3] L'adaptació de Stable Diffusion de DreamBooth, en particular, es publica com un projecte gratuït i de codi obert basat en la tecnologia descrita pel document original publicat per Ruiz et. al. el 2022.[4] S'han plantejat preocupacions pel que fa a la capacitat dels actors dolents d'utilitzar DreamBooth per generar imatges enganyoses amb finalitats malicioses i que la seva naturalesa de codi obert permet que qualsevol pugui utilitzar o fins i tot fer millores a la tecnologia.[5] A més, els artistes han expressat la seva aprensió pel que fa a l'ètica d'utilitzar DreamBooth per entrenar models de punts de control que estan específicament dirigits a imitar estils d'art específics associats amb artistes humans; una d'aquestes crítiques és Hollie Mengert, una il·lustradora de Disney i Penguin Random House que ha format el seu estil artístic com a model de control mitjançant DreamBooth i compartit en línia, sense el seu consentiment.[6][7]

Referències

  1. Yuki Yamashita. «愛犬の合成画像を生成できるAI 文章で指示するだけでコスプレ 米Googleが開発» (en japonès). ITmedia Inc., September 1, 2022. Arxivat de l'original el August 31, 2022.
  2. Brendan Murphy. «AI image generation is advancing at astronomical speeds. Can we still tell if a picture is fake?» (en anglès). The Conversation, October 13, 2022. Arxivat de l'original el October 30, 2022.
  3. 3,0 3,1 Ryo Shimizu. «まさに「世界変革」──この2カ月で画像生成AIに何が起きたのか?» (en japonès). Yahoo! News Japan, October 26, 2022. Arxivat de l'original el October 26, 2022.
  4. Benj Edwards. «AI image generation tech can now create life-wrecking deepfakes with ease» (en anglès). Ars Technica, December 9, 2022. Arxivat de l'original el December 12, 2022.
  5. Kevin Jiang. «These AI images look just like me. What does that mean for the future of deepfakes?» (en anglès). Toronto Star, December 1, 2022. Arxivat de l'original el December 8, 2022.
  6. Isabel Berwick. «Will AI replace human workers?» (en anglès). Financial Times, December 14, 2022.
  7. «Генеративные нейросети и этика: появилась модель, копирующая стиль конкретного художника» (en rus). DTF, November 9, 2022. Arxivat de l'original el November 9, 2022.