info@mevius.blog

Ai曲 シンパティアインハビリスとリップシンクアニメーション Halloについて[※一部修正]

※この記事には訂正箇所があります10/27

この曲は、ざっくり言ってしまえば、センシティブな内容を歌っているのですが、傍から見たら空回りな不器用な人物に見えてしまう人の歌です。YouTubeに上げるまでに歌詞を3回は書き直し、演奏も3パターン、割と難産だった曲です。 私はメロディックスピードメタルが好きなのですが、チャンネルのほかの曲とは雰囲気が異なるため、少し浮いている印象です(笑) メタル好き、他にいないかなぁ。

動画にする時には、すでにサイバーパンクで行こう!と構想していましたが、直前で「Runway」で動画を作る予定だったものを、「Vidu」という新しい動画生成AIで作りました。 結果は動画の通りちょっと画質が荒かったです。「Vidu」はもともとアニメ特化のAIらしいので、若干絵柄が畑違いだったのが原因かもしれませんね。 また、曲を歌っているアイドルっぽいサイバーパンクの登場人物がアップで映るシーンが多いのですが、リップシンクさせたいと思ったきっかけの曲です。

リップシンクアニメーションを作れるHallo AI

そこで先日発見した、リップシンクアニメーション生成専用のAiがこちら(動画音量注意)

なんと、自分のパソコン、ローカル環境上でリップシンクアニメーションを作れる「Hallo」というオープンソースのAIを発見したので、これを導入することにしました。

オープンソースについて

オープンソースとは、ソフトウェアのソースコード (プログラムの設計図のようなもの) が公開されていて、誰でも自由に利用、改変、再配布できるソフトウェアのことです。オープンソースソフトウェアは、多くの開発者によって改良が重ねられ、高品質で安全なソフトウェアに成長していくというメリットがあります。「Hallo AI」 もオープンソースソフトウェアであり、誰でも自由に利用することができます。

Hallo AI導入までの道のり

「Hallo AI」を導入するにあたって、いくつかのソフトウェアや環境設定が必要となります。※訂正10/27

  • Docker Desktopのインストール: Dockerは、アプリケーションの実行環境をコンテナと呼ばれる単位で管理するツールです。「Hallo AI」はDockerコンテナとして提供されているため、Docker Desktopをインストールする必要があります。
    Pinokioは多くの依存関係を自動的に管理しますが、Docker DesktopやCUDA Toolkitなどの基本的なツールは事前に自分でインストールする必要があります。
  • Pinokioのインストール:AIアプリケーションを簡単にインストール、実行、制御できるブラウザベースのプラットフォームです
  • CUDA ToolkitとcuDNNのインストール (NVIDIA GPUの場合): 「Hallo AI」はGPUを利用して高速に処理を行います。NVIDIA GPUをお使いの場合は、CUDA ToolkitとcuDNNというライブラリをインストールする必要があります。
    • CUDA Toolkit: NVIDIA GPUで並列処理を行うための開発環境です。
    • cuDNN: ディープラーニングの処理を高速化するためのライブラリです。

Hallo AI導入の壁

「オープンソースのソフトウェア」の導入は、プログラミングやPC環境に詳しくない方にとっては少しハードルが高いかもしれません。

  • 聞きなれない用語: CUDA、cuDNN、Python、Dockerコマンドプロンプトなど、普段耳慣れない用語が登場します。
  • 環境構築の複雑さ: Python、Docker、CUDA Toolkit、cuDNNなど、複数のソフトウェアをインストールし、連携させる必要があります。それぞれバージョンを合わせる必要がある。
  • 高いPCスペック:Hallo AI」は、AI処理を行うため、高性能なCPUとGPUが必要です。RTX 4070 Tiとi9-13900KFというスペックのPCを使っている私でも生成がやっとです。この点は多くの人が苦労するポイントかもしれません。
    重要:Hallo AIはNVIDIA GPUでのみ動作します。他のGPUではこのツールを使用することができません。

一番簡単な導入手順:

本来はDocker Desktopをインストールし、そこからコマンドプロンプトで導入していくのですが、ちょっとこれは難しい。なので、Pinokioという便利なものを使います。
Dockerは、アプリケーションの実行環境をコンテナと呼ばれる単位で管理するツールです。「Hallo AI」はDockerコンテナとして提供されているため。
Pinokioは、AIツールの導入と管理を大幅に簡略化するプラットフォームです。

  1. Docker Desktopをインストール(必須):docs.dockeからwindousならwindous用のDocker Desktopをダウンロードし、インストールします。
    https://docs.docker.jp/desktop/install/windows-install.html
  2. CUDA ToolkitとcuDNNをインストール(NVIDIA GPU用、必須)
    CUDA ToolkitとcuDNNは、NVIDIA GPUを使って高速な AI 処理を行うために必要な専門的なソフトウェアです。これらは一般的なアプリケーションとは異なり、AI や機械学習の分野で使用される特殊なツールです。
    https://www.nvidia.com/ja-jp/
  3. pinokioのインストール: pinokio公式サイトからダウンロードし、インストールします。
    https://pinokio.computer/
  4. Pinokioを使用してHallo AIをダウンロードと設定
  5. Hallo AIを実行: pinokioがすべて必要なものをそろえるので、インストールが完了したら勝手に起動する、もしくはStartをクリックするかHalloのところをクリックするだけ。

    注意:高性能なPC(例:RTX 4070 TiとIntel i9-13900KF)を使用しても、Hallo AIの処理速度は予想以上に遅い可能性があります。9秒の動画生成に10分以上かかることもあるため、時間に余裕を持って作業することをおすすめします。

Hallo AIを使ってみた感想:

実際に「Hallo AI」を使ってみて、感じたことを率直に書きます。(動画音量注意)

生成速度: 高いスペックのPCを使っているにもかかわらず、生成速度は遅いと感じました。初期設定で9秒の動画を生成するのに10分かかりました。生成する動画の設定を上げたりもっと長い動画になると、さらに長時間かかります。また、連続で動画を生成しようとすると、エラーになってしまうこともありました。

精度の高さ: 生成されたリップシンクアニメーションの精度は、アニメやイラストに最適化されているとは言えません。特に、アジア人の顔の特徴を捉えるのが苦手なようで、口や顔を大きく動かそうとすると、外国人風の顔になってしまうことがありました

操作性: 「Hallo AI」自体は、コマンドラインで操作するため、初心者には難しいと感じました。しかし、有志の方がGUI (グラフィカルユーザーインターフェース) を作成してくれていたので、現在的簡単に操作することができます。

音調注意

まとめ:

「Hallo AI」は、ローカル環境でリップシンクアニメーションを制作できる革新的なツールです。しかし、導入にはある程度の知識と PC スペックが必要となります。この記事が、「Hallo AI」導入を目指す方の参考になれば幸いです。

今後の展望:

まだ、「Hallo AI」で生成したリップシンクアニメーションは、動画に組み込めるほどのクオリティではありません。しかし、ほんの少しでもいいので、動画内の人物が曲を歌っている描写を描けるのは魅力的です。今後の開発に期待したいです。


	        
他の記事も読む