info@mevius.blog

「AWAKENING – Beyond the Silence」と、便利な動画生成AI、制作に役立つ検索AI

数年ぶりの年末年始の休暇を活用して、創作活動に没頭する貴重な時間を過ごしました。

今年最初の曲と動画制作は迷走からのスタート

きっかけは、10月から遊んでいるゲーム「メタファー:リファンタジオ」です。今や『FF』や『ドラクエ』に続く国民的RPGの域に達するともいわれるペルソナシリーズの開発スタッフが手掛け、エヴァンゲリオンやニーアオートマタのデザイナーも参加した注目作です。

ゲーム音楽にインスパイア…されたはずだった

この「メタファー:リファンタジオ」で流れる音楽がとても魅力的で、特に「自由の翼」と「猛き者たちよ」という曲がお気に入りです。
特に「猛き者たちよ」は、実際の僧侶による読経をボーカルに採用し、エスペランド語の歌詞とオーケストラ、賛美歌的コーラスを組み合わせた独特の楽曲です。「こんな威厳のある楽曲を作ってみたい!」と思い立ち、主要な部分をサンスクリット語や仏教用語で歌詞に取り入れようと試行錯誤したり、Sunoで近い演奏になるようプロンプトを考えたりしましたが、難易度が高すぎて断念。
最終的には歌詞を一部ストレートに分かりやすく修正し、いつも聴いている馴染みのあるジャンルで完成させました。

最終的な作品
メタファーっぽい曲、と最終的にまったく関係がなくなってしまいましたが、
前作の感傷的な三部作とは対照的な方向性で仕上げました。

アニメソングバージョンは、サンスクリット語部分はそのままでちょっとだけ名残があります。

またリベンジしたいですし、チャンネル登録なんてしてもらえたらうれしいです。

最近のAI活用:Perplexity AIが制作の強力な相棒に

最近あまり触れていなかったAI関連の話題ですが、制作活動において欠かせないツールとなっているのがPerplexity AIです。国内やローカル情報を調べる場合には、Felo AIが優れています。特に日本語での検索精度や要約機能に強みがあり、学術論文の検索や情報整理にも便利です。しかし、Feloは検索結果の要約に特化しており、対話型で最新情報をもとに作業をサポートする用途には向いていません。
一方、Perplexity AIは、リアルタイムで最新の情報を取得しながら対話形式でサポートを提供できる点が大きな強みです。PCソフトや国際的な情報が必要な場合でも、Perplexityは迅速かつ正確な回答を提供します。また、大規模言語モデル(LLM)であるChatGPTやGemini、Claudeなどを別途利用する必要がなく、検索と対話を一つのプラットフォームで完結できるため非常に効率的です。

最新情報からプロンプト生成や問題解決も可能

Perplexity AIは、単なる検索ツールではなく、最新の情報をもとにプロンプト生成や問題解決をサポートする強力なツールです。例えば、画像生成AIや動画生成AIをローカル環境で使用している際に発生するエラーについても、最新の知識から解決策を提案してくれます。このようなリアルタイム対応は、頻繁にバージョンアップや仕様変更が行われるAIツールでは特に重要です。

対照的に、Felo Chat(Feloの提供する対話型機能)はリアルタイム検索機能を持たず、学習済みデータから回答を生成するため、新しい技術や仕様変更への対応には限界があります。そのため、AI分野の最新動向に追いつきながら効率的に作業を進めたい場合には、Perplexity AIが最適です。

しばらくはまだ、Perplexity を相棒として引き続き音楽や動画制作に励んでいきたいと思います。
※Perplexity Pro会員は、現在OpenAIのO1推論型モデルを1日10回、週70回まで利用可能になっています。(2025/01/05 現在)

動画生成AIの活用について

ローカル環境での動画生成AIは、性能向上が見られるものの、GPUを限界まで使用し、生成時間や画質の面で実用性に課題があります。そこで、現在活用している動画生成サービスを3つ、KLING、Vidu、Lumaをご紹介します。

①KLING AI

KLING AI 料金プラン(2025/1/5現在)

プラン価格(月額)クレジット数/月主な特徴
無料プラン無料66/日基本機能のみ、透かし付き
スタンダード$10660透かし除去、商用利用可
プロ$373,000高品質生成、優先処理
プレミア$928,000最高品質、最優先処理

以前はRunwayを主に使用していましたが、高額な料金が難点でした。それに対してKLING AIは、以下の特徴を持っています。(最初は割引ですごく安い)

KLING(クリング)は中国の快手科技(Kuaishou Technology)が開発した最先端の動画生成AIサービスです。2024年12月にバージョン1.6がリリースされ、さらなる性能向上を実現しています

高品質な動画生成

  • 1080p、30fpsの高解像度動画を最大2分まで生成可能
  • 物理法則に忠実な動きの表現が可能
  • 3D空間時間アテンションシステムによる自然な動作表現

バージョン1.6の改善点

  • 前バージョン1.5と比較して全体的な性能が195%向上
  • プロンプトの解釈精度が向上
  • 視覚的美観の強化
  • より自然な物理的動作の表現

提供機能

テキストから動画生成

  • プロンプトに基づいた動画の自動生成
  • フィクション題材も含む幅広い表現が可能

画像から動画生成

  • 静止画からの3Dモデル生成
  • リアルな動きの付加が可能

最新の評価

KLINGは現在、OpenAIのSoraに匹敵する、もしくはそれを超える性能を持つと評価されています。特に物理法則の表現や3D空間の理解において優れた性能を発揮し、より自然で破綻のない動画生成が可能となっています。

②Vidu

Viduは中国の生数科技(Shengshu Technology)と清華大学が共同開発した最新の動画生成AIプラットフォームです。独自のU-ViT技術を採用し、高品質な動画生成を実現しています。
アニメーション動画を手軽に作るのに私はViduを使っています。
他にはPikaKLING AIも安定性が高い。

Vidu 料金プラン(2025/1/5現在)

プラン価格(月額)クレジット数/月主な特徴
無料プラン無料80約20本の動画生成、透かし付き
スタンダード$9.99320透かし除去、商用利用可
アドバンス$29.99880高品質生成、同時3タスク
プレミアム$99.992,360最高品質、同時4タスク

主な特徴と機能

基本性能

  • 1080p、30fpsの高解像度動画生成が可能
  • 4秒の動画を約30秒で高速生成
  • 最大16秒までの動画長に対応

生成モード

  • テキストから動画生成(Text to Video)
  • 画像から動画生成(Image to Video)
  • 参照画像からの動画生成(Reference to Video)

特筆すべき機能

  • キャラクターの一貫性を保った動画生成が可能
  • アニメ風やリアル風など複数のスタイルに対応
  • 3D空間時間アテンションシステムによる自然な動作表現

③Luma AI(Dream Machine

Luma AIは、アメリカ・サンフランシスコ発のAI企業で、a16zを筆頭に4,300万ドルを調達し、約3,000台のNVIDIA A100 GPUを活用して最新のAIモデルを開発しています。
ループ動画を作りたいときに私はDream Machineを利用しています。
クレジット消費が1でわかりやすく、他のサービスより圧倒的に多く動画を作れる。

料金プラン(2025/1/5現在)

プラン価格月あたりの動画生成数
無料プラン無料30回
標準プラン29.99ドル120回
プロプラン99.99ドル400回
プレミアプラン499.99ドル2000回

主要サービス

Dream Machine

  • 最大4K解像度の高品質動画生成が可能
  • 5秒間の動画を高速生成
  • 120フレームの滑らかな動画表現
  • テキストや画像からの生成に対応

Photon

  • 2024年11月に発表された最新の画像生成AI
  • Dream Machineをベースとした高速な画像生成
  • デザイナーや映画制作者向けに最適化

最新の技術革新

性能向上

  • 2024年10月のアップデートで推論速度が10倍に向上
  • フル品質の動画生成が20秒以下で可能に
  • 品質を損なわない高速化を実現

独自技術

  • マルチモーダルTransformerモデルの採用
  • AWSとNVIDIA最新GPUによる高速処理
  • Neural Radiance Fields技術による高品質な3D表現

活用シーン

  • チェックボックスを押すだけでお手軽にループ動画を作れる
    (※ループ動画にはなっているけど、微妙な結果になることもある)

以上です。
これからやってみようと思う人に、ちょっとでもスタートの役に立てる内容があったらうれしいです。

他の記事も読む