Há uma coisa sobre vídeo com IA que quase ninguém te conta: a imagem é só metade.
Você pode gerar um clipe de 8 segundos deslumbrante, perfeitamente iluminado e cinematográfico — e, se ele toca em silêncio absoluto, ainda parece uma demo técnica. O som é o que faz o cérebro acreditar que uma imagem em movimento é real. Passos sobre o cascalho, o tom de uma sala, uma fala caindo no quadro certo — essa é a diferença entre "um clipe de IA" e "um plano de um filme".
A maioria dos geradores de vídeo com IA ignora isso. Eles entregam um MP4 mudo e deixam você procurar música livre de direitos, adicionar foley e sincronizar tudo num editor. O Seedance 2.0 gera o áudio junto com o vídeo, numa única passagem, já sincronizado com a ação. Isso muda a forma como você deve escrever os prompts — e é disso que trata este guia.
Por que áudio nativo vence "adicionar música na pós"
O fluxo de sempre era: gerar vídeo → exportar → abrir um editor → caçar uma faixa → empilhar efeitos → ajustar tudo até encaixar. Funciona, mas é lento, e a sincronização nunca é perfeita porque o áudio não estava ciente das imagens.
A geração nativa inverte isso. Como o Seedance 2.0 produz som e imagem do mesmo modelo ao mesmo tempo:
- O foley cai no quadro certo. O passo soa quando o pé toca o chão, não 4 quadros depois.
- A ambiência combina com a cena. Um beco chuvoso soa molhado. Uma catedral tem reverberação. Você não escolhe isso — o modelo infere das imagens e do seu prompt.
- É uma única renderização. Sem idas e vindas ao editor para um primeiro corte. O que sai já dá para assistir.
Você não é mais um editor de som. Você é um diretor dando indicações de som. É um trabalho muito menor e mais rápido — se você souber o que pedir.
As três camadas do som em vídeo
Toda boa trilha — em Hollywood ou no Seedance — é construída a partir de três camadas. Nomeá-las é o truque mais útil para escrever prompts de áudio, porque impede você de escrever vaguezas como "adicione um som legal".
| Camada | O que é | Exemplos |
|---|---|---|
| Ambiência | A base contínua do ambiente | Tom de sala, vento, zumbido do trânsito, chuva, oceano, floresta |
| Foley / Efeitos | Sons de eventos ligados à ação | Passos, uma porta, um copo sendo pousado, um motor dando partida, uma espada sendo desembainhada |
| Voz / Música | Áudio intencional, em primeiro plano | Uma fala, um grito de multidão, uma entrada musical, um batimento cardíaco |
Ao fazer prompts de som, percorra a lista. Ambiência primeiro (sempre presente), foley em segundo (ligado ao que se move), música ou voz por último (só se a cena pedir). Pule uma camada de propósito, não por descuido.
Como escrever um prompt de áudio
O Seedance 2.0 lê seu prompt completo — imagem e áudio — como uma única instrução. O padrão mais limpo é descrever o plano e então terminar com uma linha de áudio curta e explícita.
O padrão:
[Seu prompt normal de imagem + movimento]. Audio: [ambiência], [foley/efeitos ligados à ação], [música ou voz, se houver].
Exemplo:
Um caminhante solitário alcança uma crista enevoada ao amanhecer e contempla o vale. Lenta aproximação. Audio: vento baixo sobre a crista, canto de pássaros ao longe, cascalho estalando suavemente sob as botas dela ao dar um passo. Sem música.
Repare no que essa linha de áudio faz: define a ambiência (vento, pássaros), o foley (cascalho sob os pés, sincronizado com o passo dela) e exclui explicitamente a música. Três decisões, uma frase.
Cinco regras que fazem os prompts de áudio funcionarem
1. Sempre nomeie a ambiência. Até "silêncio" é uma escolha — diga "quase silêncio, leve tom de sala" em vez de deixar em branco. O vazio convida o modelo a adivinhar, e ele costuma adivinhar música.
2. Ligue o foley a uma ação visível. "Passos" é fraco. "Passos no pavimento molhado enquanto ele caminha em direção à câmera" é forte — agora o modelo sabe qual som e quando acontece.
3. Decida sobre a música de forma explícita — geralmente contra. Para planos curtos e realistas, "sem música" quase sempre fica mais cinematográfico. Adicione uma entrada musical só quando o clipe for uma montagem, um teaser ou uma peça de atmosfera.
4. Um ou dois sons, não dez. Um clipe de 6 segundos não aguenta uma mixagem completa. Escolha os dois sons que vendem a cena e deixe o modelo preencher o resto.
5. Ajuste o som à distância da câmera. Um plano aéreo aberto pede som distante e suave. Um close macro pede som íntimo e detalhado (o borbulhar de uma bebida servida, o clique de um obturador). Diga qual.
Modelos de prompts de áudio por tipo de cena
Copie, troque o sujeito, publique o clipe.
Natureza / paisagem
Audio: ambiência natural em camadas — [vento / água / pássaros / insetos], sem sons humanos, sem música. Calmo e imersivo.
Urbano / rua
Audio: ambiência de cidade — trânsito ao longe, conversa tênue, o zumbido da rua. [Foley específico: um carro passando, uma porta, passos]. Sem música.
Close de produto
Audio: tom de sala silencioso e íntimo. [O som característico do produto: o clique de um fecho, o despejar de um líquido, um suave clique mecânico]. Sem música, ou um único pad ambiente suave.
Diálogo / personagem
Audio: um interior tranquilo com leve tom de sala. Ela diz, com calma: "[sua fala aqui]". Sem música sob a fala.
Ação / dramático
Audio: um ronco grave e tenso crescendo por baixo. [Foley de impacto sincronizado com a ação: uma batida, um whoosh, um rugido de motor]. Um breve golpe musical ascendente no último tempo.
Aconchegante / lifestyle (estilo ASMR)
Audio: quente, próximo, detalhado. [Fogo crepitando / chuva na janela / um café sendo servido / páginas virando]. Sem música — deixe as texturas conduzirem.
Três exemplos resolvidos
1. O café da janela chuvosa
Prompt:
Uma xícara de café fumegante sobre uma mesa de madeira ao lado de uma janela riscada pela chuva, luz suave da tarde. Plano fixo, vapor subindo devagar. Audio: chuva constante contra o vidro, leve e quente tom de sala, o tilintar discreto de uma colher pousada no pires. Sem música.
Por que funciona: uma ambiência (chuva), um foley (a colher), sem música. Vai parecer um loop lo-fi aconchegante sem uma única nota de fundo.
2. O lançamento de produto
Prompt:
Um relógio mecânico sobre veludo preto, um único holofote, uma órbita lenta de 4 segundos terminando onde começou (em loop). Audio: quase silêncio, tom de sala profundo, o delicado tique-taque do mecanismo, um suave som metálico quando a luz toca a caixa. Sem música.
Por que funciona: o tique-taque é o marketing. O áudio nativo o coloca bem no centro do silêncio, onde uma cama musical de pós-produção o teria soterrado.
3. O teaser de ficção científica
Prompt:
Uma jovem piloto com um traje espacial desgastado em pé numa planície desértica vermelha enquanto duas luas surgem. Lenta aproximação em travelling, poeira à deriva. Audio: vento desolado e grave, areia fina sibilando pelo chão, um ronco de subgraves profundos inchando sob o plano, uma nota de sintetizador ascendente no último quadro.
Por que funciona: este pede música. O vento e a areia são ambiência e foley; o ronco e a nota de sintetizador são uma entrada musical intencional colocada no último tempo para um fecho de teaser.
Erros comuns (e a correção)
"Adicionou música que eu não queria." → Você deixou a música sem especificar. Termine o prompt com "Sem música." (No music.) São as duas palavras mais poderosas do prompting de áudio.
"O som parece genérico." → Você nomeou uma categoria ("sons de cidade") em vez de um evento ("um único carro passando da esquerda para a direita, uma sirene ao longe"). O específico vence o genérico, sempre.
"O diálogo soa estranho." → Mantenha as falas curtas (uma frase), indique a interpretação ("com calma", "sussurrando", "gritando por cima do ruído") e remova sons concorrentes com "sem música sob a fala".
"Tudo está alto / carregado demais." → Você empilhou camadas demais. Corte para dois sons. O silêncio é uma ferramenta — um clipe que é 70% silêncio e 30% um som perfeito passa a sensação de caro.
"A sincronização está um pouco fora." → Ligue o som a uma ação específica e visível na mesma frase, para que o modelo o ancore àquele movimento ("a porta bate ao fechar", não apenas "uma batida de porta").
Referência rápida
| Objetivo | Adicione isto ao seu prompt |
|---|---|
| Realista, cinematográfico | Nomeie ambiência + um foley, depois "Sem música." |
| Loop aconchegante / ASMR | Texturas próximas e detalhadas, sem música |
| Teaser / hype | Ambiência + foley + um golpe musical ascendente no último tempo |
| Herói de produto | Quase silêncio + o som característico do produto |
| Momento de personagem | Leve tom de sala + uma fala curta + sem música por baixo |
A conclusão
O som é a melhoria mais rápida e barata disponível para seus vídeos com IA — e, com o Seedance 2.0, custa apenas uma frase extra. Pare de pensar como um editor caçando faixas e comece a pensar como um diretor dando indicações: nomeie a ambiência, fixe o foley na ação e decida sobre a música de propósito.
Tem um plano em mente? Gere-o com som no Seedance 2.0 → e ouça a diferença.

