Cómo dirigir el sonido en vídeo con IA: la guía completa de audio de Seedance 2.0 (2026)

Hay algo sobre el vídeo con IA que casi nadie te cuenta: la imagen es solo la mitad.

Puedes generar un clip de 8 segundos espectacular, perfectamente iluminado y cinematográfico — y si se reproduce en absoluto silencio, sigue pareciendo una demo técnica. El sonido es lo que hace que el cerebro crea que una imagen en movimiento es real. Pasos sobre la grava, el tono de una sala, una línea de diálogo que cae en el fotograma justo — esa es la diferencia entre "un clip de IA" y "un plano de una película".

La mayoría de los generadores de vídeo con IA ignoran esto. Te entregan un MP4 mudo y te dejan buscar música libre de derechos, añadir foley y sincronizarlo todo en un editor. Seedance 2.0 genera el audio junto con el vídeo, en una sola pasada, ya sincronizado con la acción. Eso cambia cómo deberías escribir los prompts — y de eso trata esta guía.

Por qué el audio nativo gana a "añadir música en posproducción"

El flujo de siempre era: generar vídeo → exportar → abrir un editor → buscar una pista → superponer efectos → moverlo todo hasta que cuadra. Funciona, pero es lento, y la sincronización nunca es perfecta porque el audio no era consciente de las imágenes.

La generación nativa le da la vuelta. Como Seedance 2.0 produce sonido e imagen desde el mismo modelo y al mismo tiempo:

El foley cae en el fotograma correcto. El paso suena cuando el pie toca el suelo, no 4 fotogramas tarde.
El ambiente coincide con la escena. Un callejón lluvioso suena mojado. Una catedral tiene reverberación. No lo eliges tú — el modelo lo infiere de las imágenes y de tu prompt.
Es un solo render. Sin idas y vueltas al editor para un primer corte. Lo que sale ya se puede ver.

Ya no eres un editor de sonido. Eres un director dando indicaciones de sonido. Es un trabajo mucho más pequeño y rápido — si sabes qué pedir.

Las tres capas del sonido en vídeo

Toda buena banda sonora — en Hollywood o en Seedance — se construye a partir de tres capas. Nombrarlas es el truco más útil para escribir prompts de audio, porque te impide escribir vaguedades como "añade un sonido chulo".

Capa	Qué es	Ejemplos
Ambiente	La base continua del entorno	Tono de sala, viento, zumbido del tráfico, lluvia, océano, bosque
Foley / Efectos	Sonidos de eventos ligados a la acción	Pasos, una puerta, un vaso al posarse, un motor arrancando, una espada al desenvainarse
Voz / Música	Audio intencionado, en primer plano	Una línea hablada, un grito de multitud, una entrada musical, un latido

Cuando hagas prompts de sonido, recorre la lista. Ambiente primero (siempre presente), foley segundo (ligado a lo que se mueve), música o voz al final (solo si la escena lo pide). Salta una capa a propósito, no por descuido.

Cómo escribir un prompt de audio

Seedance 2.0 lee tu prompt completo — imagen y audio — como una sola instrucción. El patrón más limpio es describir el plano y luego terminar con una línea de audio breve y explícita.

El patrón:

[Tu prompt normal de imagen + movimiento]. Audio: [ambiente], [foley/efectos ligados a la acción], [música o voz si la hay].

Ejemplo:

Un excursionista solitario alcanza una cresta brumosa al amanecer y contempla el valle. Lento acercamiento. Audio: viento bajo sobre la cresta, canto de pájaros a lo lejos, grava crujiendo suavemente bajo sus botas al dar un paso. Sin música.

Fíjate en lo que hace esa línea de audio: fija el ambiente (viento, pájaros), el foley (grava bajo los pies, sincronizada con su paso) y descarta explícitamente la música. Tres decisiones, una frase.

Cinco reglas que hacen funcionar los prompts de audio

1. Nombra siempre el ambiente. Incluso "silencio" es una elección — di "casi silencio, leve tono de sala" en vez de dejarlo en blanco. El vacío invita al modelo a adivinar, y suele adivinar música.

2. Liga el foley a una acción visible. "Pasos" es débil. "Pasos sobre el pavimento mojado mientras camina hacia la cámara" es fuerte — ahora el modelo sabe qué sonido y cuándo ocurre.

3. Decide sobre la música de forma explícita — normalmente en contra. Para planos cortos y realistas, "sin música" casi siempre resulta más cinematográfico. Añade una entrada musical solo cuando el clip sea un montaje, un teaser o una pieza de ambiente.

4. Uno o dos sonidos, no diez. Un clip de 6 segundos no puede cargar una mezcla completa. Elige los dos sonidos que venden la escena y deja que el modelo rellene el resto.

5. Ajusta el sonido a la distancia de cámara. Un plano aéreo abierto pide sonido lejano y suave. Un primerísimo plano macro pide sonido íntimo y detallado (el burbujeo de una bebida servida, el clic de un obturador). Indícale cuál.

Plantillas de prompts de audio por tipo de escena

Cópialas, cambia el sujeto, publica el clip.

Naturaleza / paisaje

Audio: ambiente natural en capas — [viento / agua / pájaros / insectos], sin sonidos humanos, sin música. Tranquilo e inmersivo.

Urbano / calle

Audio: ambiente de ciudad — tráfico lejano, charla tenue, el zumbido de la calle. [Foley concreto: un coche pasando, una puerta, pasos]. Sin música.

Primer plano de producto

Audio: tono de sala silencioso e íntimo. [El sonido característico del producto: el clic de un cierre, el verter de un líquido, un suave clic mecánico]. Sin música, o un único pad ambiental suave.

Diálogo / personaje

Audio: un interior tranquilo con leve tono de sala. Ella dice, con calma: "[tu línea aquí]". Sin música bajo la línea.

Acción / dramático

Audio: un retumbar grave y tenso creciendo por debajo. [Foley de impacto sincronizado con la acción: un portazo, un whoosh, un rugido de motor]. Un breve golpe musical ascendente en el último compás.

Acogedor / lifestyle (estilo ASMR)

Audio: cálido, cercano, detallado. [Fuego crepitando / lluvia en una ventana / un café sirviéndose / páginas pasando]. Sin música — deja que las texturas lo lleven.

Tres ejemplos resueltos

1. El café con la ventana lluviosa

Prompt:

Una taza de café humeante sobre una mesa de madera junto a una ventana surcada por la lluvia, luz suave de tarde. Plano fijo, vapor subiendo despacio. Audio: lluvia constante contra el cristal, leve y cálido tono de sala, el tintineo discreto de una cuchara al posarse en el platillo. Sin música.

Por qué funciona: un ambiente (lluvia), un foley (la cuchara), sin música. Parecerá un bucle lo-fi acogedor sin una sola nota de fondo.

2. La presentación de producto

Prompt:

Un reloj mecánico sobre terciopelo negro, un solo foco, una órbita lenta de 4 segundos que termina donde empezó (en bucle). Audio: casi silencio, tono de sala profundo, el delicado tic-tac del mecanismo, un suave sonido metálico cuando la luz roza la caja. Sin música.

Por qué funciona: el tic-tac es el marketing. El audio nativo lo coloca justo en el centro del silencio, donde una cama musical de posproducción lo habría enterrado.

3. El teaser de ciencia ficción

Prompt:

Una joven piloto con un traje espacial desgastado de pie en una llanura desértica roja mientras salen dos lunas. Acercamiento lento, polvo a la deriva. Audio: viento desolado y grave, arena fina silbando sobre el suelo, un retumbar de subgraves profundos hinchándose bajo el plano, una nota de sintetizador ascendente en el último fotograma.

Por qué funciona: este sí pide música. El viento y la arena son ambiente y foley; el retumbar y la nota de sintetizador son una entrada musical intencionada colocada en el último compás para un cierre de teaser.

Errores comunes (y cómo arreglarlos)

"Añadió música que no quería." → Dejaste la música sin especificar. Termina tu prompt con "Sin música." (No music.) Son las dos palabras más poderosas del prompting de audio.

"El sonido parece genérico." → Nombraste una categoría ("sonidos de ciudad") en vez de un evento ("un único coche pasando de izquierda a derecha, una sirena lejana"). Lo concreto gana a lo genérico, siempre.

"El diálogo suena raro." → Mantén las líneas cortas (una frase), indica la interpretación ("con calma", "susurrando", "gritando sobre el ruido") y elimina sonidos que compitan con "sin música bajo la línea".

"Todo está demasiado alto / cargado." → Apilaste demasiadas capas. Reduce a dos sonidos. El silencio es una herramienta — un clip que es 70 % silencio y 30 % un sonido perfecto se lee como caro.

"La sincronización está un poco desfasada." → Liga el sonido a una acción concreta y visible en la misma frase, para que el modelo lo ancle a ese movimiento ("la puerta da un portazo al cerrarse", no solo "un portazo").

Referencia rápida

Objetivo	Añade esto a tu prompt
Realista, cinematográfico	Nombra ambiente + un foley, luego "Sin música."
Bucle acogedor / ASMR	Texturas cercanas y detalladas, sin música
Teaser / hype	Ambiente + foley + un golpe musical ascendente en el último compás
Héroe de producto	Casi silencio + el sonido característico del producto
Momento de personaje	Leve tono de sala + una línea hablada corta + sin música debajo

La conclusión

El sonido es la mejora más rápida y barata disponible para tus vídeos con IA — y con Seedance 2.0 no te cuesta más que una frase extra. Deja de pensar como un editor buscando pistas y empieza a pensar como un director dando indicaciones: nombra el ambiente, fija el foley a la acción y decide sobre la música a propósito.

¿Tienes un plano en mente? Genéralo con sonido en Seedance 2.0 → y escucha la diferencia.

Cómo dirigir el sonido en vídeo con IA: la guía completa de audio de Seedance 2.0 (2026)

Índice