cómo escribir prompts stable diffusion:

Cómo escribir Prompts para Stable Diffusion

Stable Diffusion es una potente tecnología de síntesis de imágenes impulsada por IA que permite generar imágenes de alta calidad a partir de indicaciones de texto.

La calidad de las imágenes generadas depende de la efectividad de la indicación. Una indicación clara y precisa guiará al modelo de IA hacia los resultados deseados. En esta guía, exploraremos las mejores prácticas y técnicas para escribir indicaciones efectivas y aprovechar al máximo esta herramienta de vanguardia.

Elementos de una Buena Indicación

Una buena indicación para Stable Diffusion debe ser clara, específica, concisa, relevante y no ambigua. Al describir el sujeto y la escena en detalle, utilizando palabras clave y frases relevantes, se obtendrán mejores resultados.

Un ejemplo sería:

Indicación poco efectiva: «Una mujer en la calle»

Indicación efectiva: «Una joven de pelo castaño caminando por una animada calle comercial llena de tiendas y personas»

Las Palabras Clave en Stable Diffusion

Las palabras clave desempeñan un papel importante en cómo realizar la generación de imágenes relevantes en esta IA. Al seleccionar palabras clave, es crucial considerar la pertinencia, la popularidad y la efectividad de las mismas.

Aquí hay algunos ejemplos de tipos de palabras clave que puedes utilizar:

  1. Sustantivos: Los sustantivos son palabras clave efectivas para indicar los elementos principales de la imagen que deseas generar. Por ejemplo, «perro», «árbol», «playa», «montaña», etc.
  2. Adjetivos: Los adjetivos describen las cualidades o características de los elementos que deseas incluir en la imagen. Puedes utilizar palabras clave como «soleado», «hermoso», «oscuro», «grande», etc., para refinar la descripción de la imagen.
  3. Verbos: Los verbos son útiles para indicar acciones o actividades que deseas ver en la imagen. Por ejemplo, «correr», «saltar», «bailar», «nadar», etc. Estos verbos pueden ayudar a generar imágenes dinámicas y en movimiento.
  4. Adverbios: Los adverbios añaden información adicional sobre cómo deseas que se realicen las acciones en la imagen. Palabras clave como «rápidamente», «suavemente», «alegremente», «silenciosamente», pueden afectar el tono o la atmósfera de la imagen generada.
  5. Características físicas: Si deseas describir características específicas de los objetos o sujetos en la imagen, puedes utilizar palabras clave relacionadas con su apariencia física. Por ejemplo, «alto», «pequeño», «colorido», «peludo», «brillante», etc.
  6. Ambiente o entorno: Para establecer el escenario o el ambiente de la imagen, puedes utilizar palabras clave relacionadas con el entorno deseado. Por ejemplo, «urbano», «rural», «boscoso», «desértico», «acuático», etc.
  7. Emociones o estados de ánimo: Si deseas evocar emociones o estados de ánimo específicos en la imagen, puedes utilizar palabras clave que describan estas sensaciones. Por ejemplo, «alegría», «tristeza», «misterio», «calma», «emoción», etc.

Lo más recomendable es que experimentes con diferentes combinaciones y contextos para obtener los mejores resultados con Stable Diffusion. Recuerda que una palabra puede cambiar por completo el sentido de la imagen generada.

Para controlar la variación en las imágenes generadas por Stable Diffusion, se pueden agregar más detalles a la indicación y limitar el número de palabras clave utilizadas.

Los Límites de Tokens y Cómo Trabajar con Ellos

Stable Diffusion tiene un límite de tokens que se pueden utilizar en un prompts, por ejemplo para el modelo básico de Stable Diffusion v1, el límite es de 75 tokens.

¿Y qué es un token? Pues los tokens son las unidades más pequeñas en las que se divide el texto, como palabras individuales o caracteres. Los modelos de lenguaje tienen un límite máximo de tokens que pueden procesar de una sola vez.

Si se excede ese límite en la descripción de los prompts, es decir, en las instrucciones o indicaciones proporcionadas para generar imágenes, una posible solución es dividir esas indicaciones en segmentos más pequeños. Cada segmento tendría un número de tokens dentro del límite permitido.

Después de dividir las indicaciones, se generaría una representación de imagen para cada segmento de forma individual. Luego, estas representaciones se combinarían o fusionarían de alguna manera para obtener una representación final coherente y completa de la imagen deseada.

Este enfoque de dividir las indicaciones en segmentos más pequeños y luego combinar las representaciones resultantes es una forma de trabajar dentro de los límites de capacidad del modelo y lograr generar imágenes satisfactorias a pesar de las restricciones de tokens.

Es importante ser consciente de los efectos de asociación al seleccionar palabras clave. Algunos atributos o elementos pueden estar fuertemente correlacionados en la comprensión del modelo de IA, lo que puede llevar a resultados no deseados.

Ejemplos de imágenes y prompts generados

A continuación vamos a ver algunos prompts para Stable Diffusion, así como sus resultados generados.

En su página web encontraremos estos prompts de ejemplo y otros que podrás inspirarnos.

Prompt

Cobertizo postapocalíptico en verano, altamente dañado por incendios forestales recientes que han quemado toda la flora y fauna circundante

Prompt

Una pareja en sus primeros treinta años, casada desde hace tres años, camina por una playa apartada durante la hora dorada, contemplando en silencio la belleza recientemente descubierta del carácter en la otra persona y creciendo cada vez más en confianza y amor mutuo.

Prompt

La banda virtual Gorillaz, renderizada al estilo de su reciente video musical «Cracker Island», actuando en la cima de una torre de radio mientras la multitud observa desde abajo, al atardecer.

Prompt

La reina del sol con un cuerpo y rostro espinosos, al besarla morirás instantáneamente, inquietante, espeluznante, hermosa, aterradora, llena de pinchos, colorida al estilo de Zdzisław Beksiński y H.R. Giger, óleo sobre lienzo, cuerpo completo, pecho abierto de par en par, obra de arte intrincadamente detallada, resolución de alta calidad de 8k, recientemente descubierta como una obra maestra desconocida, pintura renacentista, fotorealismo, detalle de alta calidad de 8k, lente Sigma 85 mm f/1.4, luz de estudio, Studio Ghibli, Jacek Yerka, Alex Gray, Zdzisław Beksiński, Dariusz Zawadzki, Jeffrey Smith y H.R. Giger, óleo sobre lienzo altamente detallado en 8k, tendencia en ArtStation, su cabello es grueso y suave, es hermosa mostrando su verdadera forma.

Más información en la web de Stable Diffusion

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Carrito de compra
Scroll al inicio