Cómo crear un influencer con IA: proceso paso a paso

Q: ¿Hace falta saber programar?

No. El kit actual (Higgsfield, ElevenLabs, CapCut, Claude) funciona desde interfaz visual o conversación. Saber prompting sí ayuda. Saber programar no es necesario.

Crear un influencer con inteligencia artificial no es «subir una foto a Pippit y dale al botón». Si lo fuera, ya tendríamos un millón de Aitana López y ninguno facturaría nada. La parte difícil está antes y después del clic: entrenar bien al personaje y luego mantenerlo consistente a lo largo de cientos de piezas.

Te cuento el flujo que uso para mí y para clientes, con cifras reales de tiempo, número de fotos y errores típicos. Tengo un vídeo en YouTube donde lo explico en pantalla; te lo dejo más abajo.

Índice de contenidos

Antes de crear nada: define el personaje (no la cara)
Paso 1: entrenar el Soul del personaje
Paso 2: generar imágenes hiperrealistas para alimentar redes
Paso 3: vídeo con voz sincronizada (Veo 3, Seedance, Kling)
Paso 4: voz clonada con ElevenLabs
Paso 5: edición y subtítulos (CapCut)
Errores típicos que matan al personaje
Cuánto se tarda y cuánto cuesta de verdad
Preguntas frecuentes

Antes de crear nada: define el personaje (no la cara)

El error de salida más común es ir directo a Higgsfield a generar caras bonitas. Pasas dos horas eligiendo cara y luego no sabes ni qué publicar. El orden correcto es definir primero la marca del personaje y solo después su físico.

Una página, cinco líneas, suficiente:

Nicho de producto que va a recomendar (cosmética, fitness, moda, gadgets).
Edad y estética general (no la cara concreta).
Voz: tono, vocabulario, valores. Lo que diría y lo que no diría.
Plataforma principal (Instagram, TikTok, ambas).
Modelo de ingresos: colaboraciones, suscripción, dropshipping propio.

Sin esto, el avatar te sale precioso y vacío. Y un avatar precioso pero vacío no vende nada en 2026.

Paso 1: entrenar el Soul del personaje (la parte que sí cuesta tiempo)

Mi herramienta para este paso es Higgsfield con el modelo Soul. Es lo más inteligente y sencillo a día de hoy para tener un personaje que se mantiene visualmente consistente entre piezas distintas. Otras herramientas como Pippit, JoggAI o Vidnoz hacen algo parecido, pero atan más a su ecosistema.

Te recomiendan entre 20 y 80 fotos con buena calidad para entrenar al Soul. He cometido el error de meter menos por hacerlo rápido y la calidad se nota al final del todo. Si no metes mínimo veinte, el personaje empieza a derretirse en cuanto sale de un primer plano.

¿Qué tipo de fotos meter? Variedad real:

Cara muy cerca y cara a un metro de distancia.
Plano medio y cuerpo entero.
Con luz dura y con luz suave (con y sin sombra).
Distintos cortes de pelo (si los va a usar) y al menos tres outfits.
Distintos fondos: estudio, exterior, interior con iluminación natural.

Cuanto más trabajo le pongas a este paso, mejor será el resultado final en todo lo que venga después.

Paso 2: generar imágenes hiperrealistas para alimentar redes

Una vez tienes el Soul entrenado, NanoBanana (la imagen generativa de Google Gemini) acelera la producción de fotos del personaje en escenarios distintos. Tu prompt cambia tres variables cada vez: lugar, ropa, gesto. La cara la fija el Soul.

Mi flujo:

Genero 10 a 15 fotos por escenario con NanoBanana usando el Soul.
Las paso por Higgsfield para corregir cualquier deformidad obvia (manos, pies, ojos).
Selecciono las 3 a 5 mejores por escenario.

Con 20 a 30 escenarios distintos tienes contenido para dos a tres meses sin repetir. Y todo manteniendo la misma cara reconocible.

Paso 3: vídeo con voz sincronizada (Veo 3, Seedance, Kling)

Aquí es donde se separa el contenido amateur del que parece producido. Mi proceso varía según el tipo de vídeo:

Vídeo cinematográfico, 5 a 10 segundos: Veo 3. La mejor calidad de movimiento, físicas creíbles, manejo de luz.
Vídeo más largo, cliente sostenido en escena, hasta 30 segundos: Seedance. Mantiene mejor la coherencia del personaje en planos extendidos.
Vídeo con movimiento rápido o cámaras imposibles: Kling. Pierde algo de calidad pero abre encuadres que los otros no aceptan.

Higgsfield permite usar varios de estos modelos con un mismo crédito, lo que ahorra suscripciones aparte. Es uno de los motivos por los que sigue siendo mi plataforma principal.

Un detalle clave: la voz se añade después. No pidas al modelo de vídeo que sincronice labios con un audio externo en el mismo prompt, te sale mal el 90% de las veces. Genera primero el vídeo silencioso y luego le pegas la voz.

Paso 4: voz clonada con ElevenLabs

Para la voz uso ElevenLabs. Diez dólares al mes te dan más que suficiente para producir todo lo que va a publicar un influencer virtual durante un mes. Tres opciones según el caso:

Voz sintética del catálogo. Para personajes ficticios. Eliges acento, tono y velocidad.
Voz clonada de una persona con permiso. Útil si tienes un creador detrás cuya voz quieres usar. Pides consentimiento, subes 1 a 2 minutos de muestra y la clonas.
Voz clonada del propio fundador. Es lo que más se usa en portavoces virtuales (lo explico aparte en la guía de portavoz virtual con IA).

Una vez tienes el audio, lo importas a CapCut y montas.

Paso 5: edición y subtítulos (CapCut)

CapCut sigue siendo el editor más ágil para reels y TikTok. Aquí montas el audio sobre el vídeo, ajustas el lip sync visualmente, añades subtítulos (importante: en 2026 una pieza sin subtítulos pierde un 30 a 40% de retención) y aplicas la curva final.

Para el flujo de redes te interesa cuidar especialmente:

El primer segundo. Hook visual y texto, sin la cara hablando todavía.
Los subtítulos quemados, no autocaptions de Instagram (esos a veces no aparecen y te juegas la retención).
Ratio 9:16 nativo para Reels y TikTok.

Si te interesa el flujo más amplio de hacer contenido para redes con IA, lo desarrollo en la guía de contenido para Instagram con IA.

Errores típicos que matan al personaje

Los he cometido todos. Aquí van los que más se repiten:

Subir menos de veinte fotos para entrenar el Soul. Calidad final desastre. Mínimo veinte, ideal cuarenta.
Mismo plano en todas las fotos. El personaje se deforma en cuanto cambias de ángulo. Mezcla cerca, medio, lejos.
Misma ropa en todas las fotos. El Soul aprende la ropa como parte del personaje. Cambia tres outfits mínimo.
Pedir vídeo, voz y audio en un solo prompt. Sincronización rota. Vídeo primero, audio después.
Olvidar el etiquetado. «AI» en bio más declaración por pieza. Si no, te van a bajar alcance.
Una sola cuenta, un solo personaje. Mejor variar dos o tres perfiles en cuentas distintas para testear cuál convierte mejor.

Cuánto se tarda y cuánto cuesta de verdad

La fase más larga es la preparación de fotos, ángulos, planos. Más que el vídeo. Una vez tienes el Soul bien entrenado, generar un vídeo nuevo te puede llevar entre 15 y 30 minutos. Pero llegar al Soul entrenado, con sus 20 a 80 fotos buenas, son 4 a 8 horas la primera vez.

Coste mensual del kit completo:

Higgsfield con créditos para Veo 3 y Seedance: ~100 €.
ElevenLabs: 10 a 20 €.
Claude para guion y prompts: 20 a 200 € según uso.
Total: 140 a 350 € al mes.

Más detalle en el pilar de influencer virtual con IA y la comparativa de herramientas para crear influencers virtuales.

Y si quieres ver el proceso en pantalla:

Conclusión

Crear un influencer con IA tiene una curva técnica baja pero una curva de criterio alta. Lo difícil no es generar la cara, es decidir qué cara, qué voz y qué quiere vender. Entrena el Soul con al menos veinte fotos en variedad de planos, separa producción de vídeo y de audio, edita en CapCut con subtítulos quemados y declara el contenido como IA. Con eso, el sistema aguanta meses y escala bien. Sin eso, te quedas en una cara bonita que no factura.

Preguntas frecuentes

¿Qué se necesita para crear un influencer con IA?

Una herramienta de imagen consistente (Higgsfield Soul es la más sólida), una de vídeo (Veo 3, Seedance o Kling), una de voz (ElevenLabs), un editor (CapCut) y un asistente de copy (Claude). Coste 140 a 350 € al mes.

¿Cuánto tiempo tarda crear un influencer con IA?

La fase de preparación (entrenar el Soul con 20 a 80 fotos en variedad de planos) lleva 4 a 8 horas la primera vez. Generar cada vídeo después son 15 a 30 minutos. Es la parte de preparación la que cuesta tiempo, no la producción.

¿Se puede crear un influencer con IA gratis?

Para pruebas sí, con versiones free de Pippit, NanoBanana o JoggAI. Para publicar de forma sostenida sin marcas de agua y con calidad consistente, no. Plan mínimo realista: 100 € mensuales en Higgsfield.

¿Cómo se mantiene la cara consistente en todas las publicaciones?

Con un modelo Soul/LoRA entrenado a partir de fotos del personaje. No vale «subir una foto y replicarla». Necesitas entre 20 y 80 imágenes en variedad de ángulos, iluminación y ropa para que el modelo aprenda la cara como entidad, no como instantánea.

¿Hace falta saber programar?

No. El kit actual (Higgsfield + ElevenLabs + CapCut + Claude) funciona desde interfaz visual o conversación. Saber prompting sí ayuda. Saber programar no es necesario.

¿Puedo usar mi cara para crear el influencer?

Sí, técnicamente puedes. Pero piénsalo antes: si pones tu cara en un personaje ficticio, mezclas marca personal con avatar. Para servicios profesionales suele restar credibilidad. Para productos de ecommerce puede sumar. Más sobre esto en la guía de avatar de IA para marca.

Lectura relacionada: cuánto gana Aitana y por qué no es ingreso pasivo. Y si buscas la vía rápida con avatares listos para grabar, la guía de HeyGen.

¿Quieres un influencer virtual trabajando para tu marca sin pasarte tres meses aprendiendo herramientas? En la consultoría te monto el sistema completo y te enseño a manejarlo. Cobro solo si hay resultados.

Ojo: forma parte de mi guía de UGC con IA, donde tienes el método completo y en orden.

Cómo crear un influencer con IA: el proceso real paso a paso