Como dirigir o som em vídeo com IA: o guia completo de áudio do Seedance 2.0 (2026)

jun 2, 2026

Há uma coisa sobre vídeo com IA que quase ninguém te conta: a imagem é só metade.

Você pode gerar um clipe de 8 segundos deslumbrante, perfeitamente iluminado e cinematográfico — e, se ele toca em silêncio absoluto, ainda parece uma demo técnica. O som é o que faz o cérebro acreditar que uma imagem em movimento é real. Passos sobre o cascalho, o tom de uma sala, uma fala caindo no quadro certo — essa é a diferença entre "um clipe de IA" e "um plano de um filme".

A maioria dos geradores de vídeo com IA ignora isso. Eles entregam um MP4 mudo e deixam você procurar música livre de direitos, adicionar foley e sincronizar tudo num editor. O Seedance 2.0 gera o áudio junto com o vídeo, numa única passagem, já sincronizado com a ação. Isso muda a forma como você deve escrever os prompts — e é disso que trata este guia.

Por que áudio nativo vence "adicionar música na pós"

O fluxo de sempre era: gerar vídeo → exportar → abrir um editor → caçar uma faixa → empilhar efeitos → ajustar tudo até encaixar. Funciona, mas é lento, e a sincronização nunca é perfeita porque o áudio não estava ciente das imagens.

A geração nativa inverte isso. Como o Seedance 2.0 produz som e imagem do mesmo modelo ao mesmo tempo:

  • O foley cai no quadro certo. O passo soa quando o pé toca o chão, não 4 quadros depois.
  • A ambiência combina com a cena. Um beco chuvoso soa molhado. Uma catedral tem reverberação. Você não escolhe isso — o modelo infere das imagens e do seu prompt.
  • É uma única renderização. Sem idas e vindas ao editor para um primeiro corte. O que sai já dá para assistir.

Você não é mais um editor de som. Você é um diretor dando indicações de som. É um trabalho muito menor e mais rápido — se você souber o que pedir.

As três camadas do som em vídeo

Toda boa trilha — em Hollywood ou no Seedance — é construída a partir de três camadas. Nomeá-las é o truque mais útil para escrever prompts de áudio, porque impede você de escrever vaguezas como "adicione um som legal".

CamadaO que éExemplos
AmbiênciaA base contínua do ambienteTom de sala, vento, zumbido do trânsito, chuva, oceano, floresta
Foley / EfeitosSons de eventos ligados à açãoPassos, uma porta, um copo sendo pousado, um motor dando partida, uma espada sendo desembainhada
Voz / MúsicaÁudio intencional, em primeiro planoUma fala, um grito de multidão, uma entrada musical, um batimento cardíaco

Ao fazer prompts de som, percorra a lista. Ambiência primeiro (sempre presente), foley em segundo (ligado ao que se move), música ou voz por último (só se a cena pedir). Pule uma camada de propósito, não por descuido.

Como escrever um prompt de áudio

O Seedance 2.0 lê seu prompt completo — imagem e áudio — como uma única instrução. O padrão mais limpo é descrever o plano e então terminar com uma linha de áudio curta e explícita.

O padrão:

[Seu prompt normal de imagem + movimento]. Audio: [ambiência], [foley/efeitos ligados à ação], [música ou voz, se houver].

Exemplo:

Um caminhante solitário alcança uma crista enevoada ao amanhecer e contempla o vale. Lenta aproximação. Audio: vento baixo sobre a crista, canto de pássaros ao longe, cascalho estalando suavemente sob as botas dela ao dar um passo. Sem música.

Repare no que essa linha de áudio faz: define a ambiência (vento, pássaros), o foley (cascalho sob os pés, sincronizado com o passo dela) e exclui explicitamente a música. Três decisões, uma frase.

Cinco regras que fazem os prompts de áudio funcionarem

1. Sempre nomeie a ambiência. Até "silêncio" é uma escolha — diga "quase silêncio, leve tom de sala" em vez de deixar em branco. O vazio convida o modelo a adivinhar, e ele costuma adivinhar música.

2. Ligue o foley a uma ação visível. "Passos" é fraco. "Passos no pavimento molhado enquanto ele caminha em direção à câmera" é forte — agora o modelo sabe qual som e quando acontece.

3. Decida sobre a música de forma explícita — geralmente contra. Para planos curtos e realistas, "sem música" quase sempre fica mais cinematográfico. Adicione uma entrada musical só quando o clipe for uma montagem, um teaser ou uma peça de atmosfera.

4. Um ou dois sons, não dez. Um clipe de 6 segundos não aguenta uma mixagem completa. Escolha os dois sons que vendem a cena e deixe o modelo preencher o resto.

5. Ajuste o som à distância da câmera. Um plano aéreo aberto pede som distante e suave. Um close macro pede som íntimo e detalhado (o borbulhar de uma bebida servida, o clique de um obturador). Diga qual.

Modelos de prompts de áudio por tipo de cena

Copie, troque o sujeito, publique o clipe.

Natureza / paisagem

Audio: ambiência natural em camadas — [vento / água / pássaros / insetos], sem sons humanos, sem música. Calmo e imersivo.

Urbano / rua

Audio: ambiência de cidade — trânsito ao longe, conversa tênue, o zumbido da rua. [Foley específico: um carro passando, uma porta, passos]. Sem música.

Close de produto

Audio: tom de sala silencioso e íntimo. [O som característico do produto: o clique de um fecho, o despejar de um líquido, um suave clique mecânico]. Sem música, ou um único pad ambiente suave.

Diálogo / personagem

Audio: um interior tranquilo com leve tom de sala. Ela diz, com calma: "[sua fala aqui]". Sem música sob a fala.

Ação / dramático

Audio: um ronco grave e tenso crescendo por baixo. [Foley de impacto sincronizado com a ação: uma batida, um whoosh, um rugido de motor]. Um breve golpe musical ascendente no último tempo.

Aconchegante / lifestyle (estilo ASMR)

Audio: quente, próximo, detalhado. [Fogo crepitando / chuva na janela / um café sendo servido / páginas virando]. Sem música — deixe as texturas conduzirem.

Três exemplos resolvidos

1. O café da janela chuvosa

Prompt:

Uma xícara de café fumegante sobre uma mesa de madeira ao lado de uma janela riscada pela chuva, luz suave da tarde. Plano fixo, vapor subindo devagar. Audio: chuva constante contra o vidro, leve e quente tom de sala, o tilintar discreto de uma colher pousada no pires. Sem música.

Por que funciona: uma ambiência (chuva), um foley (a colher), sem música. Vai parecer um loop lo-fi aconchegante sem uma única nota de fundo.

2. O lançamento de produto

Prompt:

Um relógio mecânico sobre veludo preto, um único holofote, uma órbita lenta de 4 segundos terminando onde começou (em loop). Audio: quase silêncio, tom de sala profundo, o delicado tique-taque do mecanismo, um suave som metálico quando a luz toca a caixa. Sem música.

Por que funciona: o tique-taque é o marketing. O áudio nativo o coloca bem no centro do silêncio, onde uma cama musical de pós-produção o teria soterrado.

3. O teaser de ficção científica

Prompt:

Uma jovem piloto com um traje espacial desgastado em pé numa planície desértica vermelha enquanto duas luas surgem. Lenta aproximação em travelling, poeira à deriva. Audio: vento desolado e grave, areia fina sibilando pelo chão, um ronco de subgraves profundos inchando sob o plano, uma nota de sintetizador ascendente no último quadro.

Por que funciona: este pede música. O vento e a areia são ambiência e foley; o ronco e a nota de sintetizador são uma entrada musical intencional colocada no último tempo para um fecho de teaser.

Erros comuns (e a correção)

"Adicionou música que eu não queria." → Você deixou a música sem especificar. Termine o prompt com "Sem música." (No music.) São as duas palavras mais poderosas do prompting de áudio.

"O som parece genérico." → Você nomeou uma categoria ("sons de cidade") em vez de um evento ("um único carro passando da esquerda para a direita, uma sirene ao longe"). O específico vence o genérico, sempre.

"O diálogo soa estranho." → Mantenha as falas curtas (uma frase), indique a interpretação ("com calma", "sussurrando", "gritando por cima do ruído") e remova sons concorrentes com "sem música sob a fala".

"Tudo está alto / carregado demais." → Você empilhou camadas demais. Corte para dois sons. O silêncio é uma ferramenta — um clipe que é 70% silêncio e 30% um som perfeito passa a sensação de caro.

"A sincronização está um pouco fora." → Ligue o som a uma ação específica e visível na mesma frase, para que o modelo o ancore àquele movimento ("a porta bate ao fechar", não apenas "uma batida de porta").

Referência rápida

ObjetivoAdicione isto ao seu prompt
Realista, cinematográficoNomeie ambiência + um foley, depois "Sem música."
Loop aconchegante / ASMRTexturas próximas e detalhadas, sem música
Teaser / hypeAmbiência + foley + um golpe musical ascendente no último tempo
Herói de produtoQuase silêncio + o som característico do produto
Momento de personagemLeve tom de sala + uma fala curta + sem música por baixo

A conclusão

O som é a melhoria mais rápida e barata disponível para seus vídeos com IA — e, com o Seedance 2.0, custa apenas uma frase extra. Pare de pensar como um editor caçando faixas e comece a pensar como um diretor dando indicações: nomeie a ambiência, fixe o foley na ação e decida sobre a música de propósito.

Tem um plano em mente? Gere-o com som no Seedance 2.0 → e ouça a diferença.

Equipe Seedance 2.0

Equipe Seedance 2.0

Como dirigir o som em vídeo com IA: o guia completo de áudio do Seedance 2.0 (2026)