
HP OMEN 35LでのNVIDIA GeForce RTX5070Tiを使ったテストの続きです。今回は、nvfp4対応での高速画像生成や、ACE Step v1での作曲、Wan2.2 14B S2V でのリップシンク動画生成などを試してみました。
Z Image Turbo nvfp4
NVFP4(NVIDIA Floating-Point 4-bit)は、NVIDIAのBlackwellアーキテクチャで導入された4ビット浮動小数点形式で、VRAM使用量を大幅に削減し、演算効率を飛躍的に向上させるための技術。RTX50シリーズは対応なので、試してみました。
現状のComfyUIでは、デフォルトではnvfp4に対応しておらず、起動時に下記のワーニングが出ていました。
WARNING: You need pytorch with cu130 or higher to use optimized CUDA operations.
cu130対応のpytorchをインストールすれば使えるようなので、下記を実施して対応。
pip uninstall torch torchvision torchaudio -y
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu130
また、このようなエラーも出ていたので、
module for custom nodes: DLL load failed while importing flash_attn_2_cuda: 指定されたプロシージャが見つかりません。
ChatGPTに聞きながら、下記で解消しました。
pip uninstall flash-attn -y
Z-Image-Turbo テキストから動画へのテンプレートで動作確認しました。

z_image_turbo_nvfp4.safetensorsをダウンロードして、models/diffusion_modelsに配置。テンプレートを展開して、モデルを差し替えます。


1024×1024の画像生成は、1秒ほどで生成できます(2回目以降)。とっても速いし、クオリティも結構良いです。


1600×2048でも、10秒もかかりませんでした。
爆速で生成されるのは、ガチャを引くのには良いですね。

Flux.2 [Klein] 9Bにもnvfp4モデルがありますが、蒸留モデルの方が速くてクオリティは高そうでした。
ITX-2 19Bのfp4モデルは、ちょっとクオリティが低い感じ。
ACE Step v1

ACE Step v1での楽曲生成も試してみました。雰囲気や楽器の指定と、歌詞を指定すれば楽曲を生成してくれます。
まずは、英語の歌詞で生成してみました。3分の楽曲生成に20秒ほどしかかからないので、こちらもガチャを試しやすいですね。
日本語歌詞は少し変になりますね。(歌詞は日本語でなくローマ字で書いた方が歌ってくれます)
ちなみに歌詞はChatGPTで作成したものです。
Wan2.2 14B S2V

WAN2.2 14B S2Vでは、音声と画像から音声に合った動画を生成することができます。上記のAIで生成した画像とAIで生成した楽曲で動画を作成してみました。
デフォルトでは10秒の動画の生成になっていますが、Video S2V Extendモジュールを追加するごとに5秒延長できます。
35秒動画を作成してみましたが、10分ほどで生成できました。
英語版楽曲から生成。結構それっぽくリップシンクしています。
口だけでなく、体や背景も動きます。
日本語版も試してみました。作詞/作曲/画像/動画すべてAI生成で、短時間でこの程度までできるのですね。
WEBサービスの方が高度なことはできますが、ローカルPCでもかなりできるようになってきました。課金を気にせずにガンガン試したり、ガチャを引いたりできるのは楽しいですね。



