Como dirigir o som em vídeo com IA: o guia completo de áudio do Seedance 2.0 (2026)

Há uma coisa sobre vídeo com IA que quase ninguém te conta: a imagem é só metade.

Você pode gerar um clipe de 8 segundos deslumbrante, perfeitamente iluminado e cinematográfico — e, se ele toca em silêncio absoluto, ainda parece uma demo técnica. O som é o que faz o cérebro acreditar que uma imagem em movimento é real. Passos sobre o cascalho, o tom de uma sala, uma fala caindo no quadro certo — essa é a diferença entre "um clipe de IA" e "um plano de um filme".

A maioria dos geradores de vídeo com IA ignora isso. Eles entregam um MP4 mudo e deixam você procurar música livre de direitos, adicionar foley e sincronizar tudo num editor. O Seedance 2.0 gera o áudio junto com o vídeo, numa única passagem, já sincronizado com a ação. Isso muda a forma como você deve escrever os prompts — e é disso que trata este guia.

Por que áudio nativo vence "adicionar música na pós"

O fluxo de sempre era: gerar vídeo → exportar → abrir um editor → caçar uma faixa → empilhar efeitos → ajustar tudo até encaixar. Funciona, mas é lento, e a sincronização nunca é perfeita porque o áudio não estava ciente das imagens.

A geração nativa inverte isso. Como o Seedance 2.0 produz som e imagem do mesmo modelo ao mesmo tempo:

O foley cai no quadro certo. O passo soa quando o pé toca o chão, não 4 quadros depois.
A ambiência combina com a cena. Um beco chuvoso soa molhado. Uma catedral tem reverberação. Você não escolhe isso — o modelo infere das imagens e do seu prompt.
É uma única renderização. Sem idas e vindas ao editor para um primeiro corte. O que sai já dá para assistir.

Você não é mais um editor de som. Você é um diretor dando indicações de som. É um trabalho muito menor e mais rápido — se você souber o que pedir.

As três camadas do som em vídeo

Toda boa trilha — em Hollywood ou no Seedance — é construída a partir de três camadas. Nomeá-las é o truque mais útil para escrever prompts de áudio, porque impede você de escrever vaguezas como "adicione um som legal".

Camada	O que é	Exemplos
Ambiência	A base contínua do ambiente	Tom de sala, vento, zumbido do trânsito, chuva, oceano, floresta
Foley / Efeitos	Sons de eventos ligados à ação	Passos, uma porta, um copo sendo pousado, um motor dando partida, uma espada sendo desembainhada
Voz / Música	Áudio intencional, em primeiro plano	Uma fala, um grito de multidão, uma entrada musical, um batimento cardíaco

Ao fazer prompts de som, percorra a lista. Ambiência primeiro (sempre presente), foley em segundo (ligado ao que se move), música ou voz por último (só se a cena pedir). Pule uma camada de propósito, não por descuido.

Como escrever um prompt de áudio

O Seedance 2.0 lê seu prompt completo — imagem e áudio — como uma única instrução. O padrão mais limpo é descrever o plano e então terminar com uma linha de áudio curta e explícita.

O padrão:

[Seu prompt normal de imagem + movimento]. Audio: [ambiência], [foley/efeitos ligados à ação], [música ou voz, se houver].

Exemplo:

Um caminhante solitário alcança uma crista enevoada ao amanhecer e contempla o vale. Lenta aproximação. Audio: vento baixo sobre a crista, canto de pássaros ao longe, cascalho estalando suavemente sob as botas dela ao dar um passo. Sem música.

Repare no que essa linha de áudio faz: define a ambiência (vento, pássaros), o foley (cascalho sob os pés, sincronizado com o passo dela) e exclui explicitamente a música. Três decisões, uma frase.

Cinco regras que fazem os prompts de áudio funcionarem

1. Sempre nomeie a ambiência. Até "silêncio" é uma escolha — diga "quase silêncio, leve tom de sala" em vez de deixar em branco. O vazio convida o modelo a adivinhar, e ele costuma adivinhar música.

2. Ligue o foley a uma ação visível. "Passos" é fraco. "Passos no pavimento molhado enquanto ele caminha em direção à câmera" é forte — agora o modelo sabe qual som e quando acontece.

3. Decida sobre a música de forma explícita — geralmente contra. Para planos curtos e realistas, "sem música" quase sempre fica mais cinematográfico. Adicione uma entrada musical só quando o clipe for uma montagem, um teaser ou uma peça de atmosfera.

4. Um ou dois sons, não dez. Um clipe de 6 segundos não aguenta uma mixagem completa. Escolha os dois sons que vendem a cena e deixe o modelo preencher o resto.

5. Ajuste o som à distância da câmera. Um plano aéreo aberto pede som distante e suave. Um close macro pede som íntimo e detalhado (o borbulhar de uma bebida servida, o clique de um obturador). Diga qual.

Modelos de prompts de áudio por tipo de cena

Copie, troque o sujeito, publique o clipe.

Natureza / paisagem

Audio: ambiência natural em camadas — [vento / água / pássaros / insetos], sem sons humanos, sem música. Calmo e imersivo.

Urbano / rua

Audio: ambiência de cidade — trânsito ao longe, conversa tênue, o zumbido da rua. [Foley específico: um carro passando, uma porta, passos]. Sem música.

Close de produto

Audio: tom de sala silencioso e íntimo. [O som característico do produto: o clique de um fecho, o despejar de um líquido, um suave clique mecânico]. Sem música, ou um único pad ambiente suave.

Diálogo / personagem

Audio: um interior tranquilo com leve tom de sala. Ela diz, com calma: "[sua fala aqui]". Sem música sob a fala.

Ação / dramático

Audio: um ronco grave e tenso crescendo por baixo. [Foley de impacto sincronizado com a ação: uma batida, um whoosh, um rugido de motor]. Um breve golpe musical ascendente no último tempo.

Aconchegante / lifestyle (estilo ASMR)

Audio: quente, próximo, detalhado. [Fogo crepitando / chuva na janela / um café sendo servido / páginas virando]. Sem música — deixe as texturas conduzirem.

Três exemplos resolvidos

1. O café da janela chuvosa

Prompt:

Uma xícara de café fumegante sobre uma mesa de madeira ao lado de uma janela riscada pela chuva, luz suave da tarde. Plano fixo, vapor subindo devagar. Audio: chuva constante contra o vidro, leve e quente tom de sala, o tilintar discreto de uma colher pousada no pires. Sem música.

Por que funciona: uma ambiência (chuva), um foley (a colher), sem música. Vai parecer um loop lo-fi aconchegante sem uma única nota de fundo.

2. O lançamento de produto

Prompt:

Um relógio mecânico sobre veludo preto, um único holofote, uma órbita lenta de 4 segundos terminando onde começou (em loop). Audio: quase silêncio, tom de sala profundo, o delicado tique-taque do mecanismo, um suave som metálico quando a luz toca a caixa. Sem música.

Por que funciona: o tique-taque é o marketing. O áudio nativo o coloca bem no centro do silêncio, onde uma cama musical de pós-produção o teria soterrado.

3. O teaser de ficção científica

Prompt:

Uma jovem piloto com um traje espacial desgastado em pé numa planície desértica vermelha enquanto duas luas surgem. Lenta aproximação em travelling, poeira à deriva. Audio: vento desolado e grave, areia fina sibilando pelo chão, um ronco de subgraves profundos inchando sob o plano, uma nota de sintetizador ascendente no último quadro.

Por que funciona: este pede música. O vento e a areia são ambiência e foley; o ronco e a nota de sintetizador são uma entrada musical intencional colocada no último tempo para um fecho de teaser.

Erros comuns (e a correção)

"Adicionou música que eu não queria." → Você deixou a música sem especificar. Termine o prompt com "Sem música." (No music.) São as duas palavras mais poderosas do prompting de áudio.

"O som parece genérico." → Você nomeou uma categoria ("sons de cidade") em vez de um evento ("um único carro passando da esquerda para a direita, uma sirene ao longe"). O específico vence o genérico, sempre.

"O diálogo soa estranho." → Mantenha as falas curtas (uma frase), indique a interpretação ("com calma", "sussurrando", "gritando por cima do ruído") e remova sons concorrentes com "sem música sob a fala".

"Tudo está alto / carregado demais." → Você empilhou camadas demais. Corte para dois sons. O silêncio é uma ferramenta — um clipe que é 70% silêncio e 30% um som perfeito passa a sensação de caro.

"A sincronização está um pouco fora." → Ligue o som a uma ação específica e visível na mesma frase, para que o modelo o ancore àquele movimento ("a porta bate ao fechar", não apenas "uma batida de porta").

Referência rápida

Objetivo	Adicione isto ao seu prompt
Realista, cinematográfico	Nomeie ambiência + um foley, depois "Sem música."
Loop aconchegante / ASMR	Texturas próximas e detalhadas, sem música
Teaser / hype	Ambiência + foley + um golpe musical ascendente no último tempo
Herói de produto	Quase silêncio + o som característico do produto
Momento de personagem	Leve tom de sala + uma fala curta + sem música por baixo

A conclusão

O som é a melhoria mais rápida e barata disponível para seus vídeos com IA — e, com o Seedance 2.0, custa apenas uma frase extra. Pare de pensar como um editor caçando faixas e comece a pensar como um diretor dando indicações: nomeie a ambiência, fixe o foley na ação e decida sobre a música de propósito.

Tem um plano em mente? Gere-o com som no Seedance 2.0 → e ouça a diferença.

Como dirigir o som em vídeo com IA: o guia completo de áudio do Seedance 2.0 (2026)

Índice