Stable Diffusion 3.5 sigue sus indicaciones más de cerca y genera personas más diversas

Stable Diffusion, una alternativa de código abierto a los generadores de imágenes de IA como Midjourney y DALL-E, se actualizó a la versión 3.5. El nuevo modelo intenta corregir algunos de los errores (que pueden ser un eufemismo) del ampliamente criticado Stable Diffusion 3 Medium. Stability AI dice que el modelo 3.5 se adhiere mejor a las indicaciones que otros generadores de imágenes y compite con modelos mucho más grandes en calidad de salida. Además, está adaptado a una mayor diversidad de estilos, tonos de piel y características sin necesidad de que se le solicite hacerlo explícitamente.

El nuevo modelo viene en tres versiones. Stable Diffusion 3.5 Large es el más potente del trío, con la más alta calidad del grupo, a la vez que lidera la industria en cuanto a rápida adherencia. Stability AI dice que el modelo es adecuado para usos profesionales con una resolución de 1 MP.

Mientras tanto, Stable Diffusion 3.5 Large Turbo es una versión “destilada” del modelo más grande, que se centra más en la eficiencia que en la máxima calidad. Stability AI dice que la variante Turbo aún produce “imágenes de alta calidad con una adherencia rápida excepcional” en cuatro pasos.

Finalmente, Stable Diffusion 3.5 Medium (2,5 mil millones de parámetros) está diseñado para ejecutarse en hardware de consumo, equilibrando calidad con simplicidad. Con su mayor facilidad de personalización, el modelo puede generar imágenes con una resolución de entre 0,25 y 2 megapíxeles. Sin embargo, a diferencia de los dos primeros modelos, que ya están disponibles, Stable Diffusion 3.5 Medium no llegará hasta el 29 de octubre.

El nuevo trío sigue al fallido Stable Diffusion 3 Medium en junio. La compañía admitió que el lanzamiento “no cumplió plenamente con nuestros estándares o las expectativas de nuestras comunidades”, ya que produjo un horror corporal ridículamente grotesco en respuesta a indicaciones que no pedían tal cosa. Las repetidas menciones de Stability AI sobre una rápida y excepcional adherencia en el anuncio de hoy probablemente no sean una coincidencia.

Aunque Stability AI solo lo mencionó brevemente en la publicación de su blog de anuncio, la serie 3.5 tiene nuevos filtros para reflejar mejor la diversidad humana. La compañía describe las producciones humanas de los nuevos modelos como “representativas del mundo, no solo de un tipo de persona, con diferentes tonos de piel y características, sin necesidad de demasiadas indicaciones”.

Esperemos que sea lo suficientemente sofisticado como para tener en cuenta las sutilezas y sensibilidades históricas, a diferencia de la debacle de Google de principios de este año. Sin que se le pidiera que lo hiciera, Gemini produjo colecciones de “fotografías” históricas atrozmente inexactas, como nazis étnicamente diversos y padres fundadores de Estados Unidos. La reacción fue tan intensa que Google no reincorporó a las generaciones humanas hasta seis meses después.

Source link