On m’a offert un tirage format carte postale d’une image faite avec midjourney. Les ombrés sont très franc et je me suis dit que ça pouvait être un bon exercice de le reproduire. Si vous voulez retrouver la version originale, voici le lien vers l’insta du créateur : https://www.instagram.com/unexpected_universe_/
Très réussi !
Et je suis artiste…c’est…impresionnant
Si c’est ton gagne pain, prend un petit moment pour t’intéresser à l’état de l’art, surtout dans ton domaine/style. Beaucoup de besoins vont être remplacés par midjourney, Stable Diffusion ou Dall-E
Ça fait un moment que je me suis reconvertit dans un autre secteur car je supportait pas l’art brut, conceptuel où l’artiste ne maitrise pas ses outils. Je trouve que les beaux arts n’enseignent rien, les profs n’enseignent rien. Ce qui me rend triste c’est que ça remplacera les artistes qui savent faire quelque chose de leur main. u.u
Oui, de ce que j’ai vu de Dall-E, je me pose pas la question, la production artistique sera en partie remplacées sauf dans les musées, frac, fiat lors des marché de l’art. Entre Dall-E et ceci : t’as l’imprimante, la matière, le support. Le concept : “c’est fait à la main par cet artiste”, comme les boites à merde se vendra très bien. Meme le bout de scotch.
Ça se vendra plus cher qu’une production numérique et la peinture n’est pas seulement une image, ya le symbolisme et surtout la matière, les couche, le choix d’un vernis brillant ou non…
En tout cas, j’attends de voir jusqu’où on ira car sincèrement j’arrive pas à visualiser à quel point ça va changer. Est ce qu’on interdira la commercialisation de création via IA car ya eu un vol d’oeuvre pour générer ces images ? Est ce que ce sera remplacé par des entreprises qui feront des prompts sur chatgpt ?
En revanche les mains, cheveux c’est pas au point. Je trouve souvent le crane trop lisse, je reconnais facilement la coupe en oeuf ou les couleurs qui sont flashy.
Pour les mains, c’est en train de se régler, tu peux voir un exemple de correcteur ici : https://civitai.com/models/47085/envybetterhands-locon
Pas trop d’avis sur le reste de ton message, je suis assez nul en art de manière générale 😅
Pas mal, après ya des mains à l’envers ou des textures différentes par rapport à l’ensemble du corps ou 3 mains. Mais c’est un net bond en avant.
Après, je remarque qu’il n’y a que des femmes, des armures en forme de corset, à poil près d’un brasero ou dans un lieu style université/temple ou encore la silhouette barbie…est ce une future production porno ? 😅
Est ce qu’on interdira la commercialisation de création via IA car ya eu un vol d’oeuvre pour générer ces images ?
J’en doute. Il n’y a eu aucun vol. Je sais que cette rhétorique est très présente dans le discours des artistes, mais il est vraiment difficile à défendre techniquement. On a un modèle qui a appris, comme les artistes humains apprennent. S’il y a besoin on peut l’entrainer sur des images libres de droit, on progress vite dans le fait d’obtenir une meilleure qualité avec moins d’entrainement.
Est ce que ce sera remplacé par des entreprises qui feront des prompts sur chatgpt ?
Possible oui, mais apprendre à faire des bons prompts prend juste une demi-journée, pour l’instant y a besoin d’un juge humain de la qualité du résultat
En revanche les mains, cheveux c’est pas au point. Je trouve souvent le crane trop lisse, je reconnais facilement la coupe en oeuf ou les couleurs qui sont flashy.
Tout ça progresse très vite, pour les mains y a déjà des moyens de “tricher” avec controlnet qui rendent très bien. Pour le reste les prompts te permettent de justement préciser les détails qui ne te vont pas. Si tu précises rien, ces modèles choisissent un style qui est pas forcément celui que tu veux. Par exemple les cranes lisses, ça se contre bien avec “detailed skin texture”:
Les couleurs flashy c’est vraiment une histoire de paramètres et de prompt on peut sortir des choses pales si on veut:
Pas sur de ce que tu veux dire avec “coupe en oeuf”?
Merci, c’est super intéressant :D
En fait, la question de vol, c’est qu’on a récupéré des images qui sont pas forcément libre de droit, ni sans demandé l’accord de l’artiste. Mais je me trompe peut-etre. En fait, tu viens de me faire réaliser un autre exemple : l’IA, c’est comme un visiteur dans un musée. Elle visite chacune des oeuvres puis l’explore et produit.
Après, j’aimerai bien lire dans son code pour voir comment elle “peint”. Est ce que l’ordi fait la moyenne des couleurs des images et le replique. Ou est que qu’elle est capable d’analyser l’oeuvre, de voir le mouvement du pinceau et l’epaisseur.
Par exemple, Van Gogh lui il fait d’épaisse croute, et la couleur suit une direction. C’est le plus facile dans une toile classique.
Les ombres du bras ne colle pas à la forme du muscle. Son menton est bizarre et il a comme un trou au niveau de l’oreille. Reste qu’il a 2 sources lumineuse, arrière et avant.
La bouche me fait bizarre et j’ai l’impression qu’il n’a pas de cou. Yeux peut-etre trop sombre. Menton et barbe étrange. Double oreille. En tout cas le sens des poils est bon et juste.
Pour les couleurs, des fois ya un coté plastique qui ressort et ça manque de grain.
Les coupes en forme d’oeuf, c’est une référence à un post reddit sur Macron avec une IA. Et j’ai trouvé qu’il avait une coupe de cheveux en forme d’oeuf. Sur un chauve ça passe, sur les cheveux pas trop, c’est comme si on avait coupé et collé, puis ajouté un flou pour que ça se voit pas.
Après comme tu dis, ce n’est qu’une question de temps. Moi j’aimerais bien voir comment une IA dessine. Est ce qu’elle part d’un squelette 3D, place les éléments, puis la lumière et ensuite des corps, applique les proportions. Ou est ce qu’elle fait une moyenne d’images ? Comment elle procède ?
Et justement c’est ça qui resoud le problème de la main. Une main, c’est 2 carrés avec 5 branches puis tout un ensemble de texture liée à l’activité de la main. Les bons artistes savent dessiner une main. C’est l’organe le plus difficile tant ya une grande variété d’os, muscle, position, age, pression ou non…j’adore les mains XD
Un exemple de photo qui pour moi est compliqué à détecter comme était IA-généré (mains correctes, crâne normal, lumière OK):
Le visage, je sais pas pourquoi je le trouve étrange. Peut-etre la limite 3D réel ? Les couleurs ça passe, pas mon kiff. Les cheveux ne sont plus lissés on aperçoit les brindilles, on a toujours l’effet coiffeurs mais les résultats sont superbe. :3
Peut-etre la machoire ? Proportion tete thorax ? La seule que je detecte du premier coup, c’est celle de la baignade, je veux bien connaitre sa technique pour ne pas mouiller ses cheveux en nageant. Si l’eau était plus basse ca passerait 😁
Là, c’est plus de mon niveau. Un artiste exceptionnel y verrai les détails qui collent pas, genre celui qui a detecté la vertebre de trop dans la grande odalisque d’Ingres. J’ai atteins la limite de ce que je peux detecter. Comme tu dis c’est extremement difficile dans cet exemple.
Si s’inspirer d’une image c’est du vol, au bout d’un moment, va falloir définir ce qu’est une publication. Un artiste a le droit de faire une parodie de Mickey ou de s’inspirer (voire d’imiter) le style de Disney. Les artistes se sentent spoliés quand on peut mettre leur nom dans la prompt et que l’IA imite leur style, je comprends le sentiment, et il faut qu’on en discute en tant que société, mais appeler ça un vol est incorrect. Aux vus de comment les règles sont faites aujourd’hui, ces pratiques sont légales.
Après, j’aimerai bien lire dans son code pour voir comment elle “peint”. Est ce que l’ordi fait la moyenne des couleurs des images et le replique. Ou est que qu’elle est capable d’analyser l’oeuvre, de voir le mouvement du pinceau et l’epaisseur.
Il y a deux process séparés là: l’apprentissage d’un style et la génération d’une image.
La technique vers laquelle tout le monde est allé pour la génération d’image ne ressemble pas à ce que les humains font et est très étrange: c’est un débruiteur. On lui donne image composée de pixels aléatoires et on lui dit “ça c’est l’image d’une île paradisiaque avec un perroquet au premier plan mais elle est très bruitée, enlève du bruit” et au bout de plusieurs étapes il faut une image parfaitement débruitée. Ce n’est pas un process humain où on applique des touches locales de peinture ou des traits. Elle va par exemple garder des pixels bleus là où le ciel devrait être et rouges là où le perroquet devrait être et va tenter de discerner l’objet qu’on lui a dit être présent, un peu comme quelqu’un qui cherche des formes dans la nuages.
L’apprentissage, pas contre, fait très clairement émerger des concepts de haut niveau. Ça fait des années qu’on sait que les VAE par exemple sont capable d’extraire des concepts abstraits de par exemple des visages. Là ça se fait par apprentissage de débruitage sur des couples image-texte. Par exemple si tu lui dis “portrait d’une personne avec des lunettes” le modèle va apprendre que les pixels “anormaux” autour des yeux ne sont pas forcément à remplacer par des pixels de peau, et va comprendre les règles selon lesquelles ils forment des lunettes cohérentes.
Est ce qu’elle part d’un squelette 3D, place les éléments, puis la lumière et ensuite des corps, applique les proportions.
Elle ne le fait pas spontanément mais avec ControlNet on peut lui donner en entrée un squelette 3D (et y a des outils de composition d’image précisant où se trouve tel ou tel objet) https://www.redsharknews.com/controlnet-another-step-change-in-ai-image-generation
Là je te décris les modèles par diffusion, qui ont donné les meilleurs résultats récemment, mais d’autres techniques existent qui donnent des résultats un peu moins bon mais utilisent des techniques très différentes et pourraient un jour revenir sur le devant de la scène. Par exemple une technique est de transformer la prompt en un “vocabulaire” artistique (les guillemets sont là car c’est juste une série de vecteur, pas des mots en langage naturel) qui vient décrire chaque portion de l’image. Tu passes par une représentation intermédiaire de l’image à générer sous forme de grille où chaque grille contient une information abstraite du genre “cheveux, haut du crane, blonds, longs, style peinture à l’huile, relfets de soleil” etc. Et un “peintre” final vient transformer cette grille en une image cohérente. On a dans ce cas là une composition explicite avant la génération.
Le workflow que tu décris est possible, mais est souvent fait par les humains qui travaillent avec ces modèles. Il donnerait surement de meilleurs résultats, le problème est qu’il est difficile de générer les informations d’entrainement pour ça: des couples textes-images on en a, mais des images couplée au squelette 3D des personnes et à une description spatiale de la composition et lumière, on n’a pas.
Ou est ce qu’elle fait une moyenne d’images ?
Il n’y a pas de “moyenne d’image”, je pense que c’est à cause de cette idée fausse qu’on parle de vol d’oeuvres. J’imagine qu’on peut expliquer l’apprentissage des premiers layers comme une moyenne mais très vite le modèle apprend autre chose et apprend justement les différences de style et la cohérence générale d’une image. Par exemple là voici plusieurs images de la prompt “eye close-up, comics, stylized” (et une série de mots génériques pour augmenter la qualité). La prompt ne change pas (mon modèle est SD-1.5, pas le plus récent ni le meilleur). Tu vois qu’il sort des images cohérentes dans des styles différents mais ne fait pas une moyenne. En fait il essaye de discerner, à partir du bruit de départ qu’on lui donne, le style qui est probablement derrière ce bruit:
Justement l’exemple d’une visite de musée enlève cette notion de vol :)
Oui une parodie ou une citation :)
Intéressant. Parce que quand je dessinne, je procède par formes géométriques : cercles, triangles…qui s’appuient sur la structure sous-jacente : l’anatomie. Une fois que j’ai fixé la posture du corps, je l’enrobe. À force de le faire, ça devient une mécanique.
Pour revenir à la moyenne d’images, je pense que ça vient de plusieures choses :
- L’apprentissage d’un enfant. On lui montre plein d’images simplifiés et on lui dit : “c’est des yeux”. Et quelque soit le style, l’espèce, il a associé “yeux” à tout ça. Et donc qu’il a établis un modèle, une moyenne qu’il va appliquer.
- 2ème possibilité, les outils de PAO, adobe, gimp…Qui, pour agrandir, réduire ou mélanger des couleurs passent par des calculs de moyennes de couleurs.
Après je suis pas trop expert, je sais pas du tout comment un humain apprend, voit et associe. Ce sont juste des hypothèses et peut-etre que l’IA permettra de comprendre comment le cerveau fonctionne ?
En tout cas, merci infiniment pour ton partage. 😁👍
De rien, je trouve important qu’on discute franchement de ces sujets et des changements qu’ils amènent.
Interessant. Parce que quand je dessinne, je procède par forme géométrique : cercle, triangle…qui s’appuie sur la structure sous-jacente : l’anatomie. Une fois que j’ai fixé la posture du corps, je l’enrobe et à force de le faire, ça devient une mécanique.
Oui, je fais pareil. Et ce qu’il y a de troublant c’est qu’il n’est pas impossible que ces modèles aient appris à faire la même chose derrière la tache de “débruitage”. Ils ont des notions d’anatomie et de géométrie qui émergent du bruit initial qu’on leur donne.
Quand tu as une liberté artistique, par exemple pour choisir la pose précise d’un personnage, peux-tu prouver que tu fais autre chose que de te baser sur un choix aléatoire et “d’en faire quelque chose”?
L’apprentissage d’un enfant. On lui montre plein d’images simplifiés et on lui dit : “c’est des yeux”. Et quelque soit le style, l’espèce, il a associé “yeux” à tout ça. Et donc qu’il a établis un modèle, une moyenne qu’il va appliquer.
Oui, dans ce sens là en effet, le modèle fait un peu pareil, mais toute la force de cet algo c’est justement de ne pas être une moyenne mais une extraction des caractéristiques importantes et la création d’un modèle plus que d’une moyenne. C’est un peu comme de dire qu’un modèle de météo est juste une moyenne des températures dans une zone. C’est quand même un peu plus que ça.
Très intéressant
Après il faut aussi se demander quels métiers ça va remplacer, les arts visuels c’est très large, il y a des milliers de métiers dedans.
Perso la discussion que j’aimerais bien lancer c’est celle sur la société post-travail. J’aimerais bien qu’on arrive à remplacer la réaction “merde mon boulot est automatisé” par “cool! mon boulot est automatisé!”. Ça demande une organisation de la société différente et une petite évolution culturelle, mais si on se force à trouver des boulots aux humains parce qu’on veut conserver l’idée que t’as pas le droit de vivre si tu travailles pas, on va vite tous se retrouver dans des bullshits jobs à rêver de l’utopie qu;on a refusé de créer.
Mais comme d’hab, dans le principe on est d’accord. En attendant vu la direction que prend le monde je pense qu’on peut se brosser pour vivre en harmonie avec les IA qui font les tâches chiantes et nous qui faisons bien ce qu’on veut.
Je peux pas dire “cool mon boulot est automatisé” quand je sais que je peux me retrouver sans pouvoir faire ce que je kiffe faire au quotidien a cause de ça.
Oui, aujourd’hui c’est angoissant de voir son taff remplacé. Que faudrait-il changer pour que ce ne soit plus le cas? C’est nous qui impulsons la direction au monde autour de nous, perso je tente des trucs, mais j’aimerais trouver un modèle qui convienne bien à tout le monde.
Je peux pas dire “cool mon boulot est automatisé” quand je sais que je peux me retrouver sans pouvoir faire ce que je kiffe faire au quotidien a cause de ça.
Aujourd’hui oui, parce que tu sais que ça veut dire que ton frigo risque de se vider et ton loyer de ne pas être payé. Mais si ces choses là étaient garanties? Est ce que d’avoir ton pouvoir créatif démultiplié par ces technos ne serait pas une incroyable aide?
Oui, tu as raison. Je pense qu’il y a un tas de boulots merdiques qui devraient etre remplacés. Travail = vivre doit prendre fin, son statut social aussi. Reste qu’avec le gouvernement actuel, Macron…la misère quoi. On sera pas pret…
Cependant, on a des économies qui émergent comme la monnaie libre qui part sur une dividence universelle sur la masse monétaire. Tout le monde peut co-créer la monnaie, une fois coopté par 5 personnes qui vérifient que tu n’a pas d’autre identité et que tu aura qu’une seule dividende universelle.
Ça apporte des choses, des mécaniques différentes qui structurent et façonnent la socièté de manière plus démocratique.
Après moi ce qui me questionne c’est plus l’aspect relationnel. C’est à dire que le travail, l’école quand meme des lieux d’interaction social, de rythme de vie 7h je pars au taff, 18h je rentre. Ça pulse comme une artère avec des cellules qui vont travailler. Ça disparaitra pas, ça aura une autre forme et je me demande laquelle.
Quelle forme nous prendrons.
Le gouvernement n’est pas la société. Les “dirigeants” sont en fait des suiveurs. Macron n’aurait jamais proposé le marriage pour tous, mais maintenant il prétend qu’il l’a toujours défendu.
Propose un modèle de société qui fonctionne, et plein de groupes politiques s’y reconnaîtront. On reste une société où on est relativement libre d’expérimenter des trucs tant qu’on paye nos tributs au système.
Après moi ce qui me questionne c’est plus l’aspect relationnel. C’est à dire que le travail, l’école quand meme des lieux d’interaction social
Je trouve que quand on y pense, niveau interactions sociales, ces lieux sont en fait nuls. L’école c’est 15 minutes pendant la récré, le boulot c’est juste les pauses qui sont des lieux d’interaction sociale. Fais n’importe quoi d’autre: organise une rando avec des potes, un BBQ, un marathon, un jeu de plateau, un hackathon, une séance de garderie collective, tu auras cent fois plus d’interactions sociales.
Non, ça ne me fait pas peur le manque d’interactions, je pense au contraire qu’elles vont prendre beaucoup, beaucoup plus de place.