ACE Step 1.5 + WAN2.2 など ローカルAI と ChatGPT で 爆速MV作成 #生成AI

Screenshot

先日、ACE Step 1.5を使った楽曲生成を行いましたが、このときはACE Step 1.5に簡単な概要だけ入れて後はサンプル生成されたものを使いました。もう少し複雑な指示をしてみたらどうなるだろうと試してみました。

と言ってもどう詳しく書いたら良いのか良くわからないので、Suno用と言って、ChatGPTと相談しながら書いてもらいました。

概要はこんな感じで。Japanese pentatonicとかHemiolaとか入れてみました。

Modern Japanese Dance City Pop with traditional Japanese pentatonic (Yo scale) influence.
Upbeat 120 BPM four-on-the-floor groove. Hemiola.
Bright major key using Japanese pentatonic melodies (C–D–E–G–A style).
Funky clean guitar, punchy disco bassline, analog synth leads. 
Add subtle Japanese elements like taiko-style percussion accents and airy koto-like plucks blended with synth.
Anthemic, chantable chorus with call-and-response energy.
Youth-driven optimism, collaboration over criticism.
Empowering, confident, uplifting Reiwa-era vibe.
Polished and danceable.

生成された歌詞をACE Step 1.5でEnhanceしたもの。

[Intro - Funky Guitar & Bass Groove]

[Verse 1]
スクロール止まらない midnight
タイムラインはざわめくけど
言い訳よりも up grade
僕らのターンでしょ

[Pre-Chorus]
曖昧な未来予想図
誰かの分析より
この足で step 踏めば
景色は変わる

[Pre-Chorus]
ため息を beat に変えて
迷いも groove にして
君と今 synchronize
街が動き出す

[Chorus]
Hey! Hey!
Neon Sunrise
僕ら次第で tomorrow is bright
No more blame, just create
この瞬間がスタートライン

[Post-Chorus]
Hey! Hey!
Hands up high
止まってた夢を redrive
一人じゃない we unite
未来はここから始まる

[Verse 2]
ショーウィンドウの reflection
比べるだけの yesterday
完璧なんていらない
動き出せばいい

[Pre-Chorus]
遠回りした distance
全部 fuel に変えて
ネガティブはオフにして
前だけ見ればいい

[Pre-Chorus]
夜明け前が deepest
でもそれは signal
次のステージへ
加速する合図

[Chorus]
Hey! Hey!
Neon Sunrise
僕ら次第で tomorrow is bright
No more blame, just create
笑顔で塗り替えていこう

[Post-Chorus]
Hey! Hey!
Hands up high
止まってた夢を redrive
重なり合う heartbeat
新しい時代を鳴らせ

[Bridge - Call and Response]
(Dansei break action) / (Turn it up, turn it up)
(恐れは fade out) / (Turn it up, turn it up)
(光を take back) / (光を take back)

[Breakdown]
批判より action
孤独より session
今ここで起こそう
Reiwa revolution

[Final Chorus – もう intensified]
Hey! Hey!
Neon Sunrise
僕ら次第で future is bright
No more blame, just create
この街から照らそう

[Outro]
Hey! Hey!
Hands up high
止まってた時代を redrive
We don’t wait, we ignite
未来は自分で創る

[Spoken]
Neon Sunrise

これらからACE Step 1.5で生成したものから比較的良いものを1曲選んだものがこちら。(一部歌詞間違って読んでいますが)
1曲の生成時間が短いので、どんどん生成できますね。

さらにそれをRemixしてみたものの。(まだ歌詞間違って読んでいますが)

さらにこれらでMVを作ってみました。今度はリップシンク動画でなく、イメージ動画です。

ChatGPTに歌詞のブロックごとのイメージのプロンプトを書いてもらいます。基本部分とブロックごとの部分を書いてくれました。
Z Image Turboでそれぞれ画像生成。その画像からWAN2.2 I2Vで同じプロンプトを使って動画化、Flimoraで動画編集しました。
短時間で作成するために低解像度の短い動画をスローにして繋いでいます。(一部変になってしまったものは使いませんでした)

全ブロック共通

young Japanese woman, early 20s, short black bob hair, expressive eyes, minimal makeup, modern street fashion (oversized jacket + crop top + wide pants + sneakers), confident yet emotionally sensitive, cinematic close-ups, natural acting, consistent face and outfit, neon city pop aesthetic, magenta and cyan lighting gradually shifting to golden sunrise tones, 4K, shallow depth of field

【Verse 1】
young Japanese woman alone in a small apartment at midnight, scrolling smartphone in dark room lit by neon blue light from window, city skyline outside, timeline reflections in her eyes, subtle frustration turning into determination, cinematic close-up, shallow depth of field, moody night atmosphere

【Pre-Chorus ①】
the same woman stepping outside into neon-lit Tokyo street, camera following from behind then circling to front, confident walk through wet asphalt reflecting magenta and cyan lights, wind moving her jacket, determined expression

【Pre-Chorus ②】
female protagonist starting to move to the beat, subtle dance steps on empty street, city lights pulsing in sync with her movement, street environment reacting to her rhythm, cinematic slow motion, empowering energy

【Chorus ①】
rooftop overlooking Tokyo skyline at night, female protagonist leading a small group of diverse young people, she raises her hand first, neon sunrise glow starting on horizon, drone orbit shot, confident smile, hair moving in wind, energetic city pop music video style

【Post-Chorus ①】
close-up of her laughing freely, surrounded by friends but clearly the emotional center, slow motion jump, glowing particles in air, sense of unity but camera always returning to her face

【Verse 2】
female protagonist standing in front of a shop window, reflection showing a hesitant past version of herself, reflection dissolves into confident present self, emotional transformation moment, soft neon reflections on glass

【Pre-Chorus ③】
long urban road at night, she walks alone under streetlights, each step subtly lighting up the ground in warm glow, symbolic visual of turning distance into fuel, camera low angle tracking shot

【Pre-Chorus ④】
deep blue pre-dawn sky, she stands on pedestrian bridge looking at horizon, slight wind, thoughtful yet fearless expression, orange light slowly appearing, cinematic tilt up

【Chorus ②】
sunrise emerging behind skyscrapers, golden light mixing with fading neon, she starts dancing freely on rooftop, friends join behind her but framing keeps her center, wide cinematic drone shot, joyful powerful energy

【Post-Chorus ②】
close-up of her heartbeat moment, hand over chest, smiling confidently, then reaching hands with friends in circle, camera spins upward from her face

【Bridge – Call & Response】
female protagonist performing powerful freestyle dance solo under street spotlight, strong footwork, intense expression, confident body language, dramatic shadows, urban performance energy

she reaches upward and pulls down glowing beam of light into her chest, symbolic reclaiming of power, golden energy radiating outward

【Breakdown】
underground warehouse scene, female protagonist at center leading chant-like movement, graffiti wall reading "Reiwa Revolution", raw industrial lighting, intense close-ups of her eyes, sweat, determination

【Final Chorus – Intensified】
massive sunrise flooding Tokyo skyline, she stands at rooftop edge looking over city, turns back toward camera with confident smile, then runs forward into group dance, epic drone pullback revealing glowing city

【Outro】
full daylight rooftop, natural warm sunlight, she stands calmly alone now, peaceful smile, subtle nod to camera, hands relaxed at side, hopeful tone, clean clear sky

【Spoken – Neon Sunrise】
close-up of female protagonist facing camera, sunrise halo behind her hair, soft lens flare, whispering “Neon Sunrise”, fade to white

画像・動画は再作成などしていないので、超手抜きですが、なんかそれっぽく見えますね。楽曲作成から動画編集まで全部で数時間くらいしかかかっていないと思います。

もう一つのバージョンも(映像は同じです)

saya: