info@mevius.blog

Archive 記事一覧

開いた絵本は My Little Universe という歌「制作秘話」

一風変わったタイトルの曲ですよね。
これは、サビから始まる自身初の曲なんです。SunoAiで曲名を付けずに曲を生成すると、歌詞の一行目がタイトル(仮)になるんですよ。その後、この曲のタイトルをどうしようか…と悩んだ結果、少しだけ変更して採用しました。

ちょっとサイコな世界観?

今回、かわいらしいアニソンのエンディングをイメージして映像を作っていったのですが、プロンプトに歌詞をそのままのっけて、あとはStable Diffusionに任せた!というやり方で生成していたら、かなりサイコな世界観の絵を描いてくれて… 生成された絵の半分も使っていません。
あ、それから今回リップシンクを本格導入しました。オープンソースで取り入れたHalloAIでは、生成時間と作れる動画サイズに問題があったため、Runwayのリップシンクに頼りました。

比喩表現満載の歌詞

歌詞は、ほんのりと前向きなメッセージを込めつつ、少しだけ哲学的なことも描きつつ、いつも通り比喩表現を多く用いているので、少しクセのある曲調になっています。プロの作詞家がやるとかっこいいのですが、私がやってもただの照れ隠しみたいなもんで、共感は得られにくいでしょうね…。

歌詞を書いているときはいいのですが、実際Sunoに演奏に乗っけてもらうときに、そのフレーズそこでこう歌っちゃう!?ってのがあるので、完成後に聴くと意味不明な歌になっていたりします。

それから、今回の曲や他の曲にも“あの人”や“大切な人”といったフレーズが登場しますが、今のところ恋愛をテーマにした曲は一曲も制作していないので、次は挑戦してみたいです。

アニソン制作のきっかけ

アニソンっぽい曲を目指して制作したきっかけは、キャッチーでサビの盛り上がりが気持ち良いという特有の魅力に惹かれたからです。子供の頃から親しみのあるものなので、自分が制作したらどうなるのかという好奇心もありました。最近、アニソンを歌っていたアーティストさんが亡くなられたことも、制作のきっかけの一つです。

ウォークマンやヘッドホンにこだわっていたころに、たまたま音の良質なアーティスト、とどこかの記事で紹介されていたのが聴き出したきっかけですが、ほかの曲もいろいろ聞いてみようかなという矢先にこのニュースだったのでショックでした。
アーティストや漫画家は、短命ですよね。


Ai曲 シンパティアインハビリスとリップシンクアニメーション Halloについて[※一部修正]

※この記事には訂正箇所があります10/27

この曲は、ざっくり言ってしまえば、センシティブな内容を歌っているのですが、傍から見たら空回りな不器用な人物に見えてしまう人の歌です。YouTubeに上げるまでに歌詞を3回は書き直し、演奏も3パターン、割と難産だった曲です。 私はメロディックスピードメタルが好きなのですが、チャンネルのほかの曲とは雰囲気が異なるため、少し浮いている印象です(笑) メタル好き、他にいないかなぁ。

動画にする時には、すでにサイバーパンクで行こう!と構想していましたが、直前で「Runway」で動画を作る予定だったものを、「Vidu」という新しい動画生成AIで作りました。 結果は動画の通りちょっと画質が荒かったです。「Vidu」はもともとアニメ特化のAIらしいので、若干絵柄が畑違いだったのが原因かもしれませんね。 また、曲を歌っているアイドルっぽいサイバーパンクの登場人物がアップで映るシーンが多いのですが、リップシンクさせたいと思ったきっかけの曲です。

リップシンクアニメーションを作れるHallo AI

そこで先日発見した、リップシンクアニメーション生成専用のAiがこちら(動画音量注意)

なんと、自分のパソコン、ローカル環境上でリップシンクアニメーションを作れる「Hallo」というオープンソースのAIを発見したので、これを導入することにしました。

オープンソースについて

オープンソースとは、ソフトウェアのソースコード (プログラムの設計図のようなもの) が公開されていて、誰でも自由に利用、改変、再配布できるソフトウェアのことです。オープンソースソフトウェアは、多くの開発者によって改良が重ねられ、高品質で安全なソフトウェアに成長していくというメリットがあります。「Hallo AI」 もオープンソースソフトウェアであり、誰でも自由に利用することができます。

Hallo AI導入までの道のり

「Hallo AI」を導入するにあたって、いくつかのソフトウェアや環境設定が必要となります。※訂正10/27

  • Docker Desktopのインストール: Dockerは、アプリケーションの実行環境をコンテナと呼ばれる単位で管理するツールです。「Hallo AI」はDockerコンテナとして提供されているため、Docker Desktopをインストールする必要があります。
    Pinokioは多くの依存関係を自動的に管理しますが、Docker DesktopやCUDA Toolkitなどの基本的なツールは事前に自分でインストールする必要があります。
  • Pinokioのインストール:AIアプリケーションを簡単にインストール、実行、制御できるブラウザベースのプラットフォームです
  • CUDA ToolkitとcuDNNのインストール (NVIDIA GPUの場合): 「Hallo AI」はGPUを利用して高速に処理を行います。NVIDIA GPUをお使いの場合は、CUDA ToolkitとcuDNNというライブラリをインストールする必要があります。
    • CUDA Toolkit: NVIDIA GPUで並列処理を行うための開発環境です。
    • cuDNN: ディープラーニングの処理を高速化するためのライブラリです。

Hallo AI導入の壁

「オープンソースのソフトウェア」の導入は、プログラミングやPC環境に詳しくない方にとっては少しハードルが高いかもしれません。

  • 聞きなれない用語: CUDA、cuDNN、Python、Dockerコマンドプロンプトなど、普段耳慣れない用語が登場します。
  • 環境構築の複雑さ: Python、Docker、CUDA Toolkit、cuDNNなど、複数のソフトウェアをインストールし、連携させる必要があります。それぞれバージョンを合わせる必要がある。
  • 高いPCスペック:Hallo AI」は、AI処理を行うため、高性能なCPUとGPUが必要です。RTX 4070 Tiとi9-13900KFというスペックのPCを使っている私でも生成がやっとです。この点は多くの人が苦労するポイントかもしれません。
    重要:Hallo AIはNVIDIA GPUでのみ動作します。他のGPUではこのツールを使用することができません。

一番簡単な導入手順:

本来はDocker Desktopをインストールし、そこからコマンドプロンプトで導入していくのですが、ちょっとこれは難しい。なので、Pinokioという便利なものを使います。
Dockerは、アプリケーションの実行環境をコンテナと呼ばれる単位で管理するツールです。「Hallo AI」はDockerコンテナとして提供されているため。
Pinokioは、AIツールの導入と管理を大幅に簡略化するプラットフォームです。

  1. Docker Desktopをインストール(必須):docs.dockeからwindousならwindous用のDocker Desktopをダウンロードし、インストールします。
    https://docs.docker.jp/desktop/install/windows-install.html
  2. CUDA ToolkitとcuDNNをインストール(NVIDIA GPU用、必須)
    CUDA ToolkitとcuDNNは、NVIDIA GPUを使って高速な AI 処理を行うために必要な専門的なソフトウェアです。これらは一般的なアプリケーションとは異なり、AI や機械学習の分野で使用される特殊なツールです。
    https://www.nvidia.com/ja-jp/
  3. pinokioのインストール: pinokio公式サイトからダウンロードし、インストールします。
    https://pinokio.computer/
  4. Pinokioを使用してHallo AIをダウンロードと設定
  5. Hallo AIを実行: pinokioがすべて必要なものをそろえるので、インストールが完了したら勝手に起動する、もしくはStartをクリックするかHalloのところをクリックするだけ。

    注意:高性能なPC(例:RTX 4070 TiとIntel i9-13900KF)を使用しても、Hallo AIの処理速度は予想以上に遅い可能性があります。9秒の動画生成に10分以上かかることもあるため、時間に余裕を持って作業することをおすすめします。

Hallo AIを使ってみた感想:

実際に「Hallo AI」を使ってみて、感じたことを率直に書きます。(動画音量注意)

生成速度: 高いスペックのPCを使っているにもかかわらず、生成速度は遅いと感じました。初期設定で9秒の動画を生成するのに10分かかりました。生成する動画の設定を上げたりもっと長い動画になると、さらに長時間かかります。また、連続で動画を生成しようとすると、エラーになってしまうこともありました。

精度の高さ: 生成されたリップシンクアニメーションの精度は、アニメやイラストに最適化されているとは言えません。特に、アジア人の顔の特徴を捉えるのが苦手なようで、口や顔を大きく動かそうとすると、外国人風の顔になってしまうことがありました

操作性: 「Hallo AI」自体は、コマンドラインで操作するため、初心者には難しいと感じました。しかし、有志の方がGUI (グラフィカルユーザーインターフェース) を作成してくれていたので、現在的簡単に操作することができます。

音調注意

まとめ:

「Hallo AI」は、ローカル環境でリップシンクアニメーションを制作できる革新的なツールです。しかし、導入にはある程度の知識と PC スペックが必要となります。この記事が、「Hallo AI」導入を目指す方の参考になれば幸いです。

今後の展望:

まだ、「Hallo AI」で生成したリップシンクアニメーションは、動画に組み込めるほどのクオリティではありません。しかし、ほんの少しでもいいので、動画内の人物が曲を歌っている描写を描けるのは魅力的です。今後の開発に期待したいです。


            

国産のAI駆動の検索エンジンのFeloにPerplexity、Gensparkを比較してもらった。

個人的にはFeloとGensparkはどっこいどっこい、好みによるところがあるかもしれませんが、Preplexityが一番欲しかった情報をわかりやすく反映してくれるという感想。
なんせ、以前プログラムのエラーやツールの操作に躓いたときに、ChatGPTやGeminiにどんなに聴いても解決しなかった問題が、Preplexityに聴いたら一発解決!という実体験がある。


Feloはいかにも日本人!という回答をくれるし(この感じ…伝わるかな?)、Gensparkは複数のAiが各自の視点で一つの情報を調べてくるというゴージャスさを持ちながら、生成される結果はシンプル(調べる内容やネットにある情報にもよるかも)。


以下Feloの回答

Felo、Perplexity、Gensparkはそれぞれ異なる強みと弱みを持つAI駆動の検索エンジンです。以下に、それぞれの特徴と使用用途について詳しく説明します。

Felo

強み

  1. 多言語対応: Feloは複数の言語で情報を検索し、ユーザーの希望する言語で回答を提供する能力があります。これにより、言語の壁を越えて情報にアクセスできる点が大きな強みです。
  2. 学術論文検索: 世界中のリポジトリから学術論文にアクセスするための強力なツールを提供しており、研究者や学生にとって非常に有用です。
  3. プレゼン資料の自動生成: 検索結果を基にパワーポイント形式のプレゼン資料を自動生成する機能を持っており、ビジネスや学術プレゼンの準備を大幅に効率化します。
  4. SNSからの情報取得: 最新のトレンドやリアルタイムの情報収集に強みがあります。
  5. インテリジェントな要約機能: 検索結果を関連性の高い順に要約し、情報源や関連する質問も提示して、ユーザーの情報収集をサポートします。

弱み

  1. クリエイティブな生成: 情報収集や整理に強みがありますが、クリエイティブな文章生成や画像生成に関しては他のAIツールに劣る可能性があります。
  2. 特定の言語での自然な表現: 多言語対応が強みである一方で、特定の言語での自然な表現や文法に関してはまだ改善の余地がある場合があります。

使用用途

  • 研究・学術: 学術論文の検索や要約、プレゼン資料の作成に最適。
  • ビジネス: プレゼン資料の自動生成やSNSからのトレンド情報収集に強み。

Perplexity

強み

  1. 詳細な要約と出典の引用: 検索結果を詳細に要約し、出典を明確に示すことで信頼性の高い情報を提供します。
  2. 会話型検索: 会話型検索に焦点を当てており、ユーザーの質問に対して適切な回答を生成する能力があります。
  3. リアルタイムの情報反映: 最新の情報をリアルタイムで検索し、回答に反映する能力があります。

弱み

  1. 日本語対応の限界: 日本語対応が完全ではなく、日本語での質問に対して英語で返答されることがあるなど、言語に関する特性に課題があります。
  2. クリエイティブな生成: クリエイティブな文章生成や画像生成に関しては他のAIツールに劣ることがあります。

使用用途

  • 一般的な情報検索: 詳細な要約と出典の引用が必要な場合に最適。
  • 会話型インターフェース: ユーザーとの対話を通じて情報を提供するシナリオに適している。

Genspark

強み

  1. 検索結果の解説ブログ生成: 検索結果を解説ブログのような形で生成し、広告なしで欲しい情報だけをすっきりと閲覧できる。
  2. AI Parallel Search機能: 様々な視点から情報を収集し、一つのまとまった形に整理する機能があり、深い洞察や複雑なトピックの理解を手助けします。
  3. 時間の節約: 検索結果を迅速に提供し、情報収集にかかる時間を大幅に短縮します。

弱み

  1. 特定の専門分野における情報の深さ: 一般的な情報収集には優れていますが、特定の専門分野における情報の深さや精度に関しては他のツールに劣る場合があります。
  2. 多言語対応の限界: 多言語対応はしているものの、Feloほどの多言語対応能力は持っていない可能性があります。

使用用途

  • 一般的な情報収集: 解説ブログ形式での情報提供が必要な場合に最適。
  • 迅速な情報収集: 時間を節約しながら情報を収集したい場合に適している。

大きな違いと使用用途の比較

特徴/ツールFeloPerplexityGenspark
多言語対応高い中程度低い
学術論文検索高い低い低い
プレゼン資料生成高い低い低い
SNS情報収集高い低い中程度
詳細な要約と出典中程度高い中程度
会話型検索低い高い低い
検索結果の解説ブログ生成低い低い高い
時間の節約高い中程度高い

以上がFeloの回答そのままですが、なんとプレゼン資料まで作れる。

個人的には現在、作業にはPerplexity Proを使っており、調べものついでに問題解決、コード生成も同時に行うことが出来き重宝している。
何せ指示すればブログ記事ですら生成、訂正、加筆なんでもござれで便利な時代になった。
Aiごとの回答の違いを見比べて、どれを採用するか選ぶのも楽しい。

純粋な調べものにはGensparkに勝るものは無いというレベルでこちらを利用。
が、そこにこのFelo Aiというものが登場し、毛利元就の三本の矢状態である。

(あんまりにも自信満々に文章を作ってくれるので、いやいや自分はそこまでできないよ!という感じで、最終的に文章を直すのだけど。)

https://felo.ai/ja/search


AIで音楽制作に挑戦

みなさん、こんにちは!今日は「Tints of the Heart」という新曲をアップしたんです。ぜひ聴いてみてくださいね!実は最近、AIを使った音楽制作にハマってしまって…その経緯や使っているツールについて、ちょっとお話ししたいと思います。

AIツールの比較:SunoAIとUdioAI

SunoAI:キャッチーだけど音質に難あり

SunoAIって知ってますか?これがすごいんです。アップテンポでキャッチーなメロディーを作ってくれるんですよ。しかも、どんな歌詞でも曲にしてくれるんです。

SunoAIの特徴:

  • 演奏が巧みで自然な感じ
  • 理想的なボーカルを生成しやすい
  • 日本語もきれいに対応で和楽器の演奏まで可能
  • ただし、音質はイマイチ

正直、多くの人にとっては「ちょっと遊べるおもちゃ」程度で終わってしまうかもしれません。でも、私はこれにどハマりしました。

UdioAI:高音質だけど日本語が苦手

そんな中で出会ったのがUdioAIです。これには本当にビックリ!音質がめちゃくちゃクリアなんです。

UdioAIの特徴:

  • 演奏とボーカルの音質が高い
  • プロンプトの長文対応や細かい指示が可能
  • 「リミックス」機能あり(後で詳しく説明します)
  • ただし、アップテンポな曲が苦手
  • 日本語の歌詞対応が弱い

AIツールを組み合わせた私の挑戦

SunoAI + UdioAIのリミックス機能で音質アップ!

「SunoAIの曲をUdioAIでリミックスすれば最強じゃ?」って思いついたんです。でも、そう簡単じゃなく

課題:

  1. 日本語の歌詞がうまく歌えない
  2. リミックスできる曲の長さが2分10秒まで
  3. 生成するたびに演奏が変わっちゃう

解決策:

  1. プロンプトに「原曲を忠実に守って」と指示
  2. 「日本語発音で」「英語歌詞は英語発音で」とおまじない
  3. 前半と後半を別々に生成して、音楽ソフトでつなぐ

ただ、リミックスすると音質は良くなるものの、ギターやドラムの音が昔のカラオケボックスの音みたいになるんですよね。

最後の仕上げ

私の場合は、UdioAIでリミックスした後、Reaperという音楽ソフトを使って最終的な編曲をしています。これで何とか聴けるレベルの曲になります!AIを使った音楽制作、まだまだ発展途上ですが、すごく楽しいです。みなさんも興味があれば、ぜひチャレンジしてみてください!



: 感性の色彩 〜Tints of the Heart〜 – Mevius
動画をアップロードし始めてまだ一か月のchannelですが何卒よろしくお願いします。

https://www.suno.ai/
https://www.suno.ai/features
https://udio.com/

FLUX
Perplexityが描いた謎の生物

はじめまして、Meviusです!デジタルアトリエへようこそ

AIが音楽を作曲し、絵を描き、動画を制作する時代。

私はYouTubeチャンネルでAI生成の音楽を公開していますが、その過程で感じた驚きや発見、そして疑問を共有したいと思い、このブログを始めました。AIツールは日々進化し、クリエイティブの領域に革命をもたらしています。その渦中にいる者として、この変化を記録し、考察を深めていく場所が必要だと感じました。

このブログでは、AIの前線を皆さんと探求していきます。具体的には、こんなテーマを取り上げます。

  • AI音楽生成ツール(SunoAI、UdioAIなど)の使用体験と考察
  • Stable DiffusionをはじめとするAI画像生成技術の探求
  • 最新のAI動画生成サービスのレビューと可能性
  • AIツールの進化が芸術や表現にもたらす影響
  • AIと人間の共創の可能性
  • AIに関する最新ニュースと、それが創造性に与える影響の分析

私の目標は、単なる技術解説ブログではなく、AIと人間の創造性が交差する地点を探求し、そこから生まれる新しい表現の可能性を皆さんと一緒に発見していくことです。

これからの展望

今後は定期的に、私のYouTube動画制作の裏側や、新しいAIツールの実験結果、そしてAIクリエイティブに関する思索を投稿していく予定です。また、読者の皆さんとの対話を通じて、新しいアイデアや視点を得られることを楽しみにしています。

AIの進化は日々加速しています。その中で、人間の創造性はどのように変化し、どのような新しい表現が生まれるのか。この問いに対する答えを、このブログを通じて一緒に探っていけたら嬉しいです。

最後に

このブログは、AIに興味を持つ全ての人々のための少しでも役に、参考になることを目指しています。コメント、質問、そしてご自身の体験や考えをぜひ共有してください。