info@mevius.blog

【制作秘話】AIで描く叙事詩『Evermore』- Sora/Veo/Wan/Sunoが生んだダークファンタジーの世界

こんにちは、Meviusです。
ここの更新も一か月開いてしまいました。
今回は、AIで制作したYouTube動画「Evermore」について、いろいろと書いていこうと思います。

Sunoが生んだシンフォニックメタル

この動画、すべての始まりは、音楽生成AI「Suno」で作った一曲のシンフォニックメタルでした。
私Meviusは、Sunoではちょくちょくmetalも作っているのですが、初期と違って、Sunoでメタルのサブジャンルも以前よりしっかり生成してくれるようになり、思った通りに作りやすくなっています。シンバルのシャリシャリノイズ音も以前のSunoようなひどいものではなくなったのが嬉しいですね。

そんななか出来上がった「Evermore」

シンフォニックメタル、オーケストラ要素、楽器のチェロも入れ好きなドラムのテンポも無理やりねじ込み!プログレ要素やアンビエント要素は無視されたものの、ボーカルはほぼ思った通りになっていました。そんなわけで、これは中世ヨーロッパを舞台にした動画で作って行くしかないな!漠然と「いつか作りたい」と思っていたダークファンタジーの世界観で行くことにしました。
動画の内容が内容なだけに、命の扱いが軽いです。
ちなみに最初はフルで英語歌詞の曲でしたが、SunoのCoverを使い動画の曲は一部歌詞を日本語にしました。

当初はローカル環境のWan2.2でのんびり作ろうかと思っていたのですが…ご存知の通り、AIの世界は日進月歩。気づけば「Sora2」や「Wan2.5」といった、とんでもない動画生成AIが次々と登場してしまい。急遽それらのサービスを使って作ることにしました。

特にWan2.5はどんな表現でも受け付けるので、これがなかったらあの戦闘描写は作れませんでした。

メインツール紹介:higgsfieldとGensparkという選択

今回の制作で中心となったのが、複数の動画生成AIを統合的に利用できるプラットフォーム「higgsfield」です。

今ならこのサービス、作り手にとっておそらく今ならメリットが多いです。

higgsfieldのUltimateプラン!

YouTubeで紹介されてましたがhiggsfieldのUltimateプラン(※期間限定の可能性あり)に加入すると、なんとSora2やWan2.5のクレジットを消費せずに動画を生成できるようになります。さらに、通常なら入ってしまうSora2のウォーターマーク(透かしロゴ)なしで動画を書き出せるのも、欠かせないポイントでした。
ただ、最大秒数、最高画質だとクレジットを消費します。

本格的にAI動画制作を始めたい方には、ぜひチェックしてみてほしいサービスです。

キャラクターに命を吹き込む「呪文」- プロンプトの重要性

AIで物語を作る上で最も重要なのが、キャラクターの一貫性です。シーンごとに顔が変わってしまっては、視聴者は物語に没入できないと思います。

1. 同一キャラクターを生成する基本プロンプト

今回、主人公の「セラフィナ」を生成するために、私は全てのプロンプトに以下の「基本呪文」を組み込みました。過去作の「リワインドシティ」で同じキャラを作る方法と変わってません。おそらく私のやり方はかなりアナログ、原始的です。
SNSではツールの使いこなして、一貫性のあるキャラを毎回登場させるなど情報があふれているはずです。妥協を許さない人はそっちを取り入れるといいと思います。
私は…あっちこっち毎月サブスクでお金が吸われていくのが嫌でリサーチをさぼってしまいました。

セラフィナ・アッシュヴェイン (Seraphina Ashvane)の基本プロンプト

Seraphina Ashvein, a female warrior in her mid-twenties. She has long, black hair styled in intricate braids with silver threads, partially obscuring one eye. She wears detailed dark leather armor with gold filigree.

この「キャラクターの設計図」となるテキストを共通で使うことで、様々なシーンで一貫した姿を描いてくれるようになります。

2. 複数キャラクターを同時に登場させる方法

では、セラフィナと別の主要キャラを同じシーンに登場させるには? 今回はリワインドシティの時と違い、他のキャラは実はプロンプトからしっかり作りこまずに、セラフィナとミスティア以外は偶然誕生したキャラの流用が多かったため、セラフィナ以外を画像内で同時に描いてはくれませんでした。
ここで活躍するのが、画像と言語の両方を理解するマルチモーダルAI「nano banana」です。

今回は、AIアグリゲーター(統合サービス)である「Genspark」経由でnano bananaを利用しました。Gensparkを使うメリットは、ウォーターマークなしで画像を生成できる点です。

しかし、nano bananaは非常に繊細で、プロンプトの書き方一つで結果が大きく変わります。
男女が同じシーンにいるだけだと、すぐにカップルみたいな描写になるので、戦うために向かい合ってるとか、関係性を伝えるといいと思います。ただし、伝えすぎるとハルシネーションを起こすので注意が必要です。
セラフィナはドレッドヘアのなので、セラフィナの事をドレッドヘアの女性、と伝えてしまうと黒人にされたり。

成功のコツ:

  • 的確かつシンプルに: 「女性が男性と戦うために向かい合う」のように、誰が何をしているのかを簡潔に書く。
  • 余分な情報は削る: シーンの説明など、関係ない文章が入るとAIが混乱し、全く違う結果になることが多い。

AIも、「送られてきた画像でわかっとるわい!」となっていて、そこに余分な指示があると、「ん、そこは画像から違うものにしてほしいん?」って判断するのかも。

nano bananaでは複数の画像で1枚の画像を作る時、最後にアップロードした画像次第でアスペクト比が変わってしまう。そうでなくても変わってしまう事があった。それはnano banana上でも直させることが出来るらしいですが、ほとんどの場合上手くいかなかったので、私はCanvaを使っています。

WEBクリエイターもモックアップ作成に使っている人がいる「Canva」

白色がかったピンクの髪に変更して、と指示したことでようやく成功。

「Evermore」に登場する人物たち

今回の物語を彩る主要な登場人物たちを、改めて紹介。
1つの音楽動画に複数の人物を登場させるのは初めてで苦労しました。

  • 主人公: セラフィナ・アッシュヴェイン (Seraphina Ashvane)
    王家に仕える護衛騎士。リゼット女王の幼馴染であり、彼女の剣として、そして友として戦場を駆け抜けます。主人公だけど、歌詞をAIに突っ込んで、この曲を動画にするときどんな人物がいいと思うー?で出来上がった人。
    誕生の経緯は正直このような産まれですが、主人公として大切なキャラです。
  • 王女: リゼット・ソレイユ・ヴァレリア (Lisette Soleil Valeria)
    若きヴァレリア王国の女王。民を愛するあまり、敵の挑発に乗り、城を出て戦うという苦渋の決断を下します。出番が少ないけど前線で戦ってるすごい人。
    もともとは、セラフィナの設定を入れ忘れて生成された、お城のシーンに描かれて名もない背景人物でした。
  • 敵将: ヴァルガス・“黒鉄”・ドラクーン (Valgas “The Black Iron” Dracone)
    北の帝国ドラクーンを率いる冷酷非情な将軍。民を救うという大義の裏で、大陸統一の野望を燃やす。リゼットに籠城戦をさせないためにいろんな策略をした。
    もともとは兵士のシーンを作った時に、やたらかっこよく描写されていたので、将軍という主要人物になりました。
    ヴァルガスもこれで終わるにはもったいない存在感があります。
  • 魔法使い: ミスティア (Mystia)
    そして、私の作品の看板キャラクターでもある魔法使いのミスティア。今回は絵の世界から飛び出し、物語の重要な局面で登場するカメオ出演という形で実写化を果たしました。
    魔法使いが混ざったことで、ヴァレリア王国はかつて魔法大国で、現在は衰退した設定になりました。動画に他の魔法使い出てこないしね…。ほんとは魔法部隊のシーンがありましたが上手くいきませんでした。
    キャラの結末はあのようなシーンにする必要は無かったのですが、挑戦、そして動画でやっておきたい表現として入れました。

【裏話】「Evermore」と「いらずら雲」- 表裏一体の姉妹作

実は「Evermore」には、もう一つの顔があります。それは、以前公開した「いらずら雲」という曲との関係性です。

「え、全然違うじゃん!」

なのですが、真逆な事をしたい性分でして…。
ダークファンタジーの壮大な叙事詩「Evermora」と、メルヘンチックで可愛らしい「いらずら雲」。ジャンルも映像の雰囲気も似ても似つきませんが、驚くべきことに、言い回しは変えていますが両者の歌詞、言ってること、テーマは全く同じなんです。

メタル好きって言いながら、普段作っているものが全く違うので、先に先にと言っておくスタイル(‘ω’)
血みどろ好きなのに、お花畑でいつも笑顔でいるような二面性。
そういう曲も多いです。

というわけで、ぜひ「Evermore」を聴いた後に「いらずら雲」も聴いて、この違いすぎる不思議な姉妹作を楽しんでみてほしいなーって思います。

もう少し楽にこだわりたい人にComfy UI VFI(フレーム補間)

ComfyUI】VFI(フレーム補間)
Comfy UI VFI

Veo3やSora2、Wan2.5の音声付き動画をやってしまうと音声が消えてしまいますが(動画編集ソフトを使えば音は引っ張ってくれば問題ないけど)その他の動画生成AIでつくった映像のフレームレートを上げることが出来ます。生成された動画は24フレームなので、Evermoraではほとんどのシーンを倍の48フレームにしてあります。60フレームにすると完全にぬるぬるに!

Comfy UIで導入が簡単だったことと、動画生成よりもスペックが必要ないので、今の3Dゲームが動くGPUを積んでいたら問題なく動くと思います。

それぞれの項目は、画面をキャプチャーして、Geminiに貼っちゃえば教えてくれるので操作も簡単でした。

最後に – AIは。

AI生成技術と手作りの価値について

この議論には立ち入るつもりはなかったのですが、少しだけ自分の考えを書かせてください。

私はイラストや漫画の世界と以前は縁がありまして、音楽も一番の趣味としてきました。オーディオ機器にもミドルクラスの投資をして良質な音を追求してきましたし、楽器演奏もしますし、ライブにも頻繁に足を運んでいます。

手描きイラストの価値について

絵師の方々に伝えたいのは、AI画像生成技術が普及している今だからこそ、手描きの絵に最も価値が出るチャンスではないかということです。これは本気でそう思っています。ただ、AI生成ツールに実際に触れてみないと、何がチャンスなのか実感しにくいでしょうし、私自身も言語化が得意ではないので、もどかしく感じています。

なお、AI学習における著作権問題は別の議論です。
この点については私も、AI開発元にはしっかりしてほしいと考えています。

音楽業界での状況

音楽分野では、AIに対して否定的な発言をするアーティストを個人的には見かけません。AI音楽制作に携わる私が言うのも矛盾しているかもしれませんが、人間が演奏する生の音、電子音ではない楽器の響き、感情のこもった演奏やボーカルと比較すると、生成AIの音楽は確かに素晴らしいものの、まだ大きな差があります。

この価値の差は、現在の全世代が高齢者になるまで変わらないでしょう。ただし、人間のアーティストが埋もれてしまわないよう、近い将来「AI音楽」という独立したジャンルとして市場で区分けされるようになると予想しています。
AI以前からサブスク登場で大多数のアーティストが利益を出せていない、という問題とはまた別で受け取ってもらえると助かります。

悲しい事に最近はライブチケットの高騰もありますし、自宅で良質な音楽を楽しむためのオーディオ機材も以前から「沼」と呼ばれるほど高額になりがちで積極的には勧められませんが、一方で音質にこだわる人は以前より少なくなったのかなと感じます。

軽く触れるつもりが長くなりましたが、以上です。

他の記事も読む