AI overnamen? Een kijk vanuit een vormgever

Dit wordt mijn tweede blogartikel, en ik ben van plan deze artikelen ook op sociale media te posten. Ik wil graag mijn ideeën met jullie delen, met een unieke kijk vanuit mijn sector.

Inmiddels zijn we al een tijdje verder, en ChatGPT-4 en Midjourney zijn niet de enige AI-modellen die zijn uitgebracht. Maar op dit moment zijn zij de meest opmerkelijke modellen die beschikbaar zijn voor het publiek. Ze laten ze zien dat AI inderdaad een disruptieve kracht kan zijn in onze maatschappij. Het is zo potentieel dat er wordt er gesproken over een 6 maanden durende pauze voor alle modellen die meer parameters bevatten dan ChatGPT-4. Men noemt veiligheidsrisico’s als reden, of als je sceptisch bent, om andere technologiebedrijven de kans te geven om bij te blijven.

Naast ChatGPT-4 neemt Midjourney een deel van het vormgevingswerk over. Hiermee worden nieuwe artistieke elementen uitgesneden en verschijnen er thumbnails als paddenstoelen uit de grond. Niet alleen dat, maar ook schetsen van logo’s en andere vormgevingsopstellingen zijn mogelijk met dit model.

Het is duidelijk: AI is here to stay. Wat betekent dit voor mijn beroep en de vormgeefsector?

Eerst wat over ChatGPT-4

Laat ik beginnen bij ChatGPT-4. Voor zij die nog niet geheel bekent zijn met de omgeving. ChatGPT-4 is een LLM (Large Language Model) gemaakt en getraind door Open AI. Een tech bedrijf in San Francisco, Californië.

Wat houdt dat in? LLM’s zijn gebaseerd op neurale netwerken, met name transformer-gebaseerde architecturen zoals GPT (Generative Pre-trained Transformer). Deze modellen leren van enorme hoeveelheden tekstuele data. Het trainingsproces omvat het voeden van het model met grote lichamen tekst en het aanpassen van de interne parameters (gewichten) om de output van het model zo dicht mogelijk bij de gewenste output te krijgen.

In het specifiek bevat deze GPT model, (ChatGPT-4) 100 triljoen parameters. Waarbij de voorgaande model, ChatGPT-3 er 175 miljard bevat.

Wat betekent dit? Dit betekent dat ChatGPT-4, dankzij het enorme aantal parameters, zeer nauwkeurig kan bepalen wat wel en wat niet werkt bij het genereren van tekst. Dit gebeurt door het aanpassen van gewichten (biases) in het model, waardoor het in staat is om overtuigende en mensachtige teksten te creëren.

Nu zijn we up to date

Nu zijn we helemaal bijgewerkt. Om te achterhalen of zo’n model daadwerkelijk een ontwrichtende factor is in onze samenleving, is het belangrijk na te gaan wat zo’n model al kan. Hier hebben we de zogenaamde ‘emergent abilities‘. Dit zijn nieuwe krachten die het model beheerst nadat de schaal is wordt vergroot. dus met meer parameters. ChatGPT-4 kan vanwege zijn grote aantal parameters het volgende:

Grammaticaal correcte teksten schrijven in diverse talen. (bijna alle talen mogelijk)
Code schrijven. (bijna elke bekende taal)
Rekenen (al kan dit nog wat beter)
Plannen maken (tot op zekere lengte)
Verhalen schrijven
Poëzie
Songteksten schrijven
Logica nalopen
Feiten controleren (al kun je er nog niet volledig op vertrouwen)
Gesprekken voeren
SEO-teksten schrijven
Quizen
En ongetwijfeld zullen anderen nog meer ontdekken.

Simpel gezegd, het is een goede schrijver. Niet de beste, maar zeker goed genoeg voor veel situaties. Hoewel ik momenteel geloof dat een tekstschrijver het beter kan, zie ik al snel in dat het ook veel werk van hen zal overnemen. Met name het schrijven van SEO teksten op websites. En voor de goede orde: dit artikel is door mij geschreven, maar de draft is opgestuurd naar ChatGPT-4 voor een fact-check, grammaticale controle en vlotter maken van de tekst. Het is wel mijn artikel, maar ChatGPT-4 helpt mij enorm met het realiseren van een aantrekkelijke tekst.

Over Midjourney en Firefly

De visuele kunstsector is een andere tak van sport. Hier draait het natuurlijk niet om teksten, al is typografie een belangrijk onderdeel. Het draait hier om beelden en bewegende beelden. Ik ga het hier wat uitgebreider over hebben, aangezien dit het meest mijn sector raakt. Allereerst bevat Midjourney ook een transformer-model, maar deze is gespecialiseerd in het maken van afbeeldingen. Firefly wordt het AI-model van Adobe en het plan is deze ook typografie te laten genereren. Hiermee kan je soortgelijke afbeeldingen maken, al vind ik ze nu nog niet geheel op smaak. Het biedt wel als extra voordeel dat dit model is getraind op data waarvoor toestemming is gegeven.

Midjourney is al in staat prachtige afbeeldingen te maken, en raakt daarmee een heel specifieke, belangrijke markt in de vormgeefsector: concept art, clip art, thumbnails, concept vormgeving, advertentie lay-outs en illustraties.

AI en vormgeving

Momenteel ondervinden freelance conceptartiesten de meeste concurrentie van bijvoorbeeld Midjourney, omdat het prima in staat is een ontwerp te maken voor een idee. Ik wil er wel bij zeggen dat conceptartiesten nog steeds in staat zijn om zelf te kiezen hoe de scène vorm krijgt en zij werken voor nu nog met meer consistentie. Zij kunnen voor nu nog bijvoorbeeld hoofdkarakters terug laten komen in diverse omgevingen. Iets wat heel belangrijk is ook bij storyboard telling.

Als gereedschap biedt AI hier de mogelijkheid meer concept art werken te maken en basisobjecten te creëren. Deze kunnen dan worden uitgeknipt en geplakt in een ander werk. Dit wordt in de industrie ‘photo bashing’ genoemd.

Concept art voor logo’s en advertentielayouts zijn hier ook bij betrokken. Hoewel deze AI’s nog niet nauwkeurig genoeg werken om het werk volledig professioneel over te nemen, zijn er al enkele voorbeelden gemaakt met Midjourney 5 die overtuigend genoeg zijn. Schetsen die kunnen worden gebruikt als concept art met een specifieke stijl zijn goed bruikbaar, maar het blijft lastig om de stijl consistent te houden. Er zijn modellen die objecten kunnen plaatsen zonder de omgeving te veranderen, maar ook deze objecten zullen niet zomaar hetzelfde zijn, dus terugkerende personages blijven voorlopig nog een uitdaging.

Midjourney worstelt nog steeds met problemen met betrekking tot logische consistentie. Het is duidelijk dat het model soms in de war raakt bij reflecterende patronen. Hoewel het vliegtuig overduidelijk opstijgt, zijn de achtervleugels te hoog geplaatst. Naarmate deze modellen verder ontwikkelen, zullen dergelijke problemen minder vaak voorkomen. Het is ook bekend dat deze modellen het weergeven van handen erg lastig vinden, hoewel dit naar verwachting zal verbeteren naarmate de modellen verder worden geschaald.

AI voor logo’s en huisstijlen

Hoe dit precies zal verlopen, is nog niet duidelijk. Als we willen dat AI in staat is om huisstijlen te maken, hebben we de zogenaamde multimodale AI nodig. Hier komen we terug bij ChatGPT-4, die nu langzaam multimodaal wordt gemaakt. Dat betekent dat het in staat is om afbeeldingen te begrijpen en resultaten te tonen via tekst. Dit is relevant voor de uitleg over hoe een specifieke huisstijl werkt.

Hier hebben we een voorbeeld van een afbeelding als input en een omschrijving van de afbeelding door ChatGPT-4. Het begrijpt hier ook de betekenis van een afbeelding, wat erg belangrijk is bij het oplossen van het consistentie probleem, aangezien dit vaak verband houdt met logica.

“The image shows a package for a “Lightning Cable” adapter with three panels.

Panel 1: A smartphone with a VGA connector (a large, blue, 15-pin connector typically used for computer monitors) plugged into its charging port.

Panel 2: The package for the “Lightning Cable” adapter with a picture of a VGA connector on it.

Panel 3: A close-up of the VGA connector with a small Lightning connector (used for charging iPhones and other Apple devices) at the end.

The humor in this image comes from the absurdity of plugging a large, outdated VGA connector into a small, modern smartphone charging port.”

Je kunt begrijpen dat het creëren van een huisstijl te maken heeft met context. Wat vertegenwoordigt jouw merk, waarom kies je voor bepaalde kleuren en vormen, en wat doen deze vormen met onze gedachten? Wie is je doelgroep en wat zijn de overige vragen omtrent de onderneming? Deze vragen moeten vorm krijgen, en daarvoor hebben we regels. Dit is iets waar Midjourney niet goed in is. Echter, ChatGPT-4 kan hierbij in de toekomst een oplossing bieden.

ChatGPT-4 is in staat om regels vast te stellen via logica, waardoor het kleurcodes en lettertypen consistent kan toepassen. Hiervoor is tekstuele uitleg handig. In dit soort situaties wil je dat zo’n model in staat is om mooie brochures te maken die zowel visueel als tekstueel effectief zijn. Ik verwacht wordt dat deze problemen binnen de komende 1,5 jaar worden opgelost.

Conclusie

Modellen zoals Midjourney en ChatGPT-4 zijn al ver gekomen, maar ze kunnen de perfectie van een vormgever nog niet overtreffen. Bovendien kunnen de huidige modellen nog geen vectoren verwerken, wat naar verwachting door Adobe Firefly zal worden aangepakt. Vectoren zijn essentieel voor een logo en huisstijl. En vereisen pixel perfecte plaatsing. Kortom, AI is vooralsnog net iets te onnauwkeurig om daadwerkelijk vormgevingsberoepen te vervangen. Echter, het kan nu wel als improvisatietool worden gebruikt, waar het uitstekend in presteert. Het is waarschijnlijk dat vormgevers AI zullen gebruiken als gereedschap om hun werken uit hand te nemen. Denk aan geautomatiseerde uitknip en retoucheer werk. Ook zou het eerder genoemde vliegtuigvoorbeeld bijvoorbeeld eenvoudig door een vormgever met Photoshop kunnen worden hersteld. Waarna deze afbeelding wel te gebruiken is.

Het is interessant om te zien waar de markt naar zal evolueren in de komende 5 tot 10 jaar. De eerste GPT-modellen, werden geïntroduceerd door OpenAI in 2018. GPT-1 was het eerste model in deze reeks, gevolgd door GPT-2 in 2019 en GPT-3 in 2020. Dat betekent dat we de huidige transformatie in ongeveer 5 jaar hebben waargenomen. Geef het nog eens 5 jaar, en in 2028 zal AI naar verwachting vector-, muziek- en animatieproblemen hebben opgelost. Ze zullen ook multimodaal zijn, in staat om websites en animatiefilms te creëren waarin ze iets uitleggen.

Voor freelance vormgevers is het raadzaam om te beginnen met het verkennen van aanvullende vaardigheden. Hoewel ik betwijfel of een AI binnenkort een WordPress-website kan maken met slechts één prompt, zal er uiteindelijk een website komen waar je slechts één prompt verwijderd bent van het creëren van een logische website voor een merk. Deze zal dan gebruik maken van een multi modaal netwerk. We zien al dat Auto-GPT uit zich zelf WordPress websites kan bouwen. Dit is zo’n model dat zelf reflecterend een doelstelling kan uitvoeren.

Wat betekent dit voor mij als freelance vormgever? Ik ga mezelf blijven ontwikkelen en nieuwe vaardigheden aanleren, met name op het gebied van programmeren. Je kunt je bijvoorbeeld richten op het leren van ‘narrow AI’, wat inhoudt dat je oplossingen kunt bieden voor het automatiseren van specifieke taken voor bedrijven. Het voordeel hiervan is dat je geen enorme rekenkracht nodig hebt om dergelijke oplossingen te realiseren. En is een markt die ik zie aankomen.