• @[email protected]
    link
    fedilink
    Français
    211 months ago

    Tiens c’est intéressant l’idée de propulser un gptv2 pour ingénierer une réplique dans stable diffusion. A essayer.

    • @[email protected]
      link
      fedilink
      Français
      111 months ago

      J’imagine que l’intégralité des générateurs d’images vont passer par cette étape.
      Sur Stable Diffusion, l’analyse de texte est à zéro. Si on lui donne un prompt compliqué du type : “un homme en vert qui tient un chien, et un homme en bleu qui saute”, il ne tient compte d’aucune relation, subordonnée, virgule. Ça traite ceci : “homme vert tenir chien homme bleu sauter” et on peut très bien se retrouver avec un seul homme à tête bleue avec un chien vert qui saute à côté".

      Dall-e 3 qui vient de sortir est exceptionnellement bon. Je ne sais pas comment ça marche sous le capot, mais il arrive à analyser la sémantique de manière très fine. Avec le prompt précédent, on a exactement un homme en vert qui tient le chien. Pour moi, il y a un LLM en premier…