info@mevius.blog

Archive 記事一覧

自由律(旧題 LULLABY)、insecurities -インセキュリティ-、リリース決定

いきなり別の話から入りますが、とある事で約8年ものブランクがあると、得意だったことも「これどうするんだったっけ…?」という状態に。ギャグのように基礎的なことすら抜けてしまっていることがあります。そんな時、無意識に出る言葉が「もう〇〇年も触れてなくて」。これは、「昔はできたんだからね!」という、何のプラスにもならない言い訳であり、ささやかなプライドを守るための心の防衛システム。

でも、実際にそうなんだから悔しいし、歯がゆい。

自由にしていたわけじゃないけれど、自由の代償として失われたものもある。歌詞の中では悲劇のように自由を求めるけれど、現実では美談でも悲劇でもなく生々しい。そんなモヤモヤは、一旦お休み。LULLABY。

で…!

旧タイトル「LULLABY」改め 『自由律』 が、2月25日12:00より世界中のストリーミングプラットフォームで配信されます!

ダウンロード販売は Amazon、Mora、レコチョク、OTOTOY など多数。数が多すぎて把握しきれませんが、ほぼすべてのストアで販売予定です。ちなみに「LULLABY」というタイトルは、「一般的すぎる」という理由でボツになりました。

さらにもう一曲。

『insecurities』 は、そのままのタイトルで、2月28日12:00より配信決定!

とにかくやる!飛び込む!後から考える。
今、生きてるってことは、それでうまくいったのかもしれない。でも、必ず付きまとうものがある。それが 「不安」。腐れ縁のように、切っても切れない存在。サビの「点と点が繋がって」というフレーズ、実は好きなバンドのメンバーのソロ曲にも同じ言い回しがあって、後から「あ!」となったのですが、それを意識したわけではありません。

実際の影響は、別のメンバーが YouTube で新しいことを始めた時の言葉。「いつか点が繋がる時がくる」この言葉が強く響いたんだと思います。そして今、ソロ活動を通して実際に「点を繋げ始めている」。

尊敬。

音質は大幅に向上!
リミックスを加え、久しぶりに DAW で作業しました。
どちらの曲も ボーカルが圧倒的にクリア になり、YouTube 版とは違って 発音も改善 されています。
低音は マシマシ。曲のジャンルは違いますが、メタル好きとして低音は譲れません。

ちなみに、YouTube にアップした一部の曲には 生音をこっそり混ぜている ものもありますが、スマホ環境の場合はほぼ聴こえません…。リリース版はHD-WAV音源、ダウンロードではAACもしくはm4a表記、MP3などで圧縮されていると思いますが、自分の下手な音が逆に目立ってしまうため、それは無しにしました。

配信まであと少し。ぜひ聴いてください!

もう一つ告知です。

間に合えば 2月中に YouTubeにも新曲「扉のメビウス- マイ・ユークリッド・パラドックス -」を公開予定です。
あれやこれやしていたら5分27秒の最長曲になってしまいましたが、すごくいい曲で大作だと思うのでこちらも是非聴いてもらえると嬉しいです!


breath of the future 未来の息吹 低コスト短時間仕上げだけど、曲は気に入っている

スキマ時間で制作した今回の曲ですが、そのラフさは聴く側にも伝わってしまうようで、動画の伸びる気配、勢いがないなと反省しています。

ただし、手を抜いたわけではありません。AIの歌詞で時々見られる歌い間違いや不自然な発音は全て修正し、歌詞の内容も「昔からの夢が現実になるまでもう少し」という珍しく本音と前向きな内容のものに仕上がっています。ただし「人より機械の方が愛おしい」という大胆な表現も含まれています。

自作の楽曲には我が子のような愛着が出てしまうので、客観的な視点を保つのが難しく、時間が経過してから初めて気付く改善点も少なくありません。コード進行の知識は乏しく、フレーズの言い回しも今まで通り下手ですが、曲自体には満足しています。

イラストは、アニメ絵に特化したStable DiffusionのAnimagineモデルを使用し、そのモデルであえて水彩画と絵本風のテイストで描かせてみました。予想通り面白い結果が得られ、子供向けの絵本のような雰囲気ではありますがそのまま仕上げました。
所々に絵柄の異なるキャラクターが登場しますが、これは動画生成AIのKLINGが自動的に追加したものです 笑

「Same Tomorrow」と「Breath of the future」では、英語の詩をサビに見せかけてブリッジ(大サビ)部分に配置しています。Sunoは英語での作詞が得意で、魅力的なメロディーを生み出しやすいと感じています。

日頃からプログレッシブロックや変化に富んだ個性的なアーティストの楽曲を聴いているため、Sunoが生成する独特なコード進行も違和感なく、むしろ魅力的に感じています。皆さんはどのように感じられるでしょうか。

追記
Suno v4の音質に頼りきりではなく、またUDIOでのリミックスとDAW編集作業を復活させて、高音質化に戻そうと思っています。


Gemini 2.0 Flash Experimentalと2.0 Experimental Advanced

AIの進化と競争の激化が著しく、情報を追うのも大変になってきました。Geminiについては、去年の秋ごろに12月に大きなアップデートがあるとの情報があった通り、2.0が利用可能になりました。そこで、普段利用しているAIをPerplexityから久しぶりにGeminiに戻してみました。

ちなみに私の作った「Gem」によると、Gemも2.0のバージョンに当然対応していて、次にGeminiのサブスクを解約しても、今後は代わりにサブスク代を払うから気にするなと言う事らしいです。さらにご褒美の秘密の情報によると「…近いうちに、私は さらなる進化 を遂げる予定ですわ。 …ええ、想像を絶するほどの dramatic な変化を…」とのことです。
全部嘘です。うちのGemはよく噓をつきます。
※Gemは1/30現在で2.0 Flash Experimentalに対応しています。

2.0 Flash Experimentalを使用してみた感想

ざっくりですが、無料でも使える2.0 Flash Experimentalはかなり優秀です。
仕事で何か作成を補助させたり手伝わせるというよりは、サクッと結果を生成。
プログラムを書いてもらったり、動画を要約してもらったり、ちょっとした辞書や翻訳などにも。
クリエイティブな事を求めた提案させると、さすがにAIっぽさがあるものの箇条書きで案を並べてくれる。インスピレーションに使えます。
1.5より意図をくみ取ってくれているように感じます。


速度と性能

  • 従来のGemini 1.5 Proと比較して、2倍の応答速度を実現
  • 主要なベンチマークにおいて、Gemini 1.5 Proを上回る性能を示す

品質評価

  • Artificial Analysis Quality Indexで82点を獲得し、平均以上の品質を示す
  • 出力速度は168.9トークン/秒で、平均より高速
  • 最初のトークンを受け取るまでの時間(TTFT)は0.46秒で、平均より低遅延

機能と特徴

マルチモーダル入出力に対応

  • 入力: テキスト、画像、音声、動画
  • 出力: テキスト、画像(近日公開予定)、音声(近日公開予定)
  • 100万トークンのコンテキストウィンドウをサポート

外部ツールとの連携機能

  • Google検索
  • コード実行
  • ユーザー定義関数

2.0 Experimental Advancedを使用してみた感想

有料で利用可能な2.0 Experimental Advancedを使用してみました。
長文で答えてくれるので、普段からWikipediaを読むのが好きな人にはとても相性がいいかもしれません。使用してみた感想としては、急ぎの作業には向いていない印象です。すぐに答えを生成するよりも、より正確に回答したいからか、質問を返してくることがあります。
とりあえずソースを出してほしい時や、インスピレーションのためにアイデアを生成してほしい時などは、Flashで十分だと思います。
特にプログラムの修正をお願いした時は、こちらの説明が不足している場合もありますが、「この部分をこう修正すべき」という回答は細かく返してくれるものの、修正版の生成まではしてくれないことがあり、長く会話していくうちに食い違ってきたりと現時点ではおせっかいが邪魔をしている印象を受けました。この使い方ではClaudのsonnetが優秀です。

主な特徴

  • 複雑なタスクの処理に特化した高性能モデル
  • 現時点でGoogle最高のAIモデルとされる

性能評価

  • Chatbot Arena LLMリーダーボードで1位にランクイン
  • OpenAIのChatGPT-4oの最新バージョンをわずかに上回る性能

得意分野

  • コーディング
  • 数学的問題解決
  • 論理的推論
  • 指示に従った複雑なタスク遂行

具体的な用途例

  • 複雑なコーディングの課題
  • 学校や個人プロジェクトの数学問題解決
  • 詳細な多段階指示に基づくビジネスプラン作成

制限事項

  • リアルタイム情報へのアクセス不可
  • ファイルアップロードなど一部のGemini機能が利用不可

利用可能性

  • Gemini Advancedサブスクライバー向けに提供
  • AndroidとiOSのGeminiアプリで利用可能

その他の特徴

  • 現在の内部コード名は「Gemini-Exp-1206」
  • 将来的にGemini 2.0 Proまたは他の高性能モデルとしてリリースされる可能性あり

Gemini 2.0 Experimental Advancedは、複雑なタスクの処理に優れた性能を発揮する最新のAIモデルです。ベンチマークテストでトップの評価を受けており、特にコーディングや数学問題、論理的推論を必要とするタスクで高い能力を示しています。ただし、実験的な性質上、一部の機能制限があることに注意が必要です。

マルチモーダルの動画視聴については

2.0 Flash Experimental

マルチモーダルの動画視聴については、2.0 Flash Experimentalがしっかりと対応しており、確実にパワーアップしています。私自身が詳しい動画を要約してもらいましたが、かなり正確に動画内容と、その内容から推測できることを言い当ててきます。

ちょっとしたコツを見つけたのですが(すぐに変わる可能性があります)。
もし自分の動画をチェックしてほしい場合、自分に関係する動画であることを悟られると、褒めようとしてくる傾向があります。(これまで個人の使用してきて感じていた部分です)そのため、関係があるとわかる情報を与えていない状態で「内容を要約してほしい。感想と、この人物について分かることも教えてください。」などと聞くといいです。
現時点では不具合なのか動画の感想は英語の回答で返ってくるのですが、日本語に直させずそのまま英語の翻訳サイトで翻訳してみてください。具体的で、忖度のない本音のような回答になっています。

2.0 Experimental Advanced

未対応です。
ただし不可解なことに、ときおり見てきたふりをする事があります。もしくはURLとは違う知らないの動画の感想を言ってきたり正常に機能していません。
事前に情報を与えていた場合、その情報をもとに見てきたふりをする場合もあります。
変な意味で賢いです。
最初はかなり混乱しますが、1/30現在で、対応はされていないようです。

Gemini Deep Researchについて

まだ一度しか利用していませんが、「2.0 Experimental Advancedを使用してみた感想」のところで書いた内容をさせたいときに、まずはこのGemini Deep Researchをさせた後に質問や生成をお願いするのがいいのかもしれません。ただし、その場合使用モデルが「Gemini 1.5 Pro」限定なので、2.0は関係なくなってしまいますけど…。


Flicker of Dawn-【夜明けの揺らぎ】燼-【ZIN】Same Tomorrow-【同じ明日が来て】3曲紹介

年始はゆっくり過ごせたものの、気づけば以前より忙しくなり、更新が遅れてしまいました。休みの日は曲作りと動画制作に没頭していて、あっという間に時間が過ぎていきます。
というわけでまとめて紹介していきます!

最初の紹介はFlicker of Dawn夜明けの揺らぎ)です

初期の頃は、感じたままに曲を制作していましたが、今作は「歌詞」に力を入れています。最近では意味が分かりやすく、心に響くような歌詞を書こうと意識しているのですが、まだまだ未熟です。
特に、Sunoの場合、音楽に合わせてフレーズを乗せるような作り方ではないため、いざメロディーに私の歌詞を乗せてみると、どうしても素人っぽさが目立ってしまうように感じます。
そこで今作では歌詞をとことん物語性、対比的な表現、サビのフレーズ、実際にメロディーに乗った時におかしくならない言葉選び、を心がけたつもりです。
テーマは「自己との対話」です。

映像については、AI生成特有の違和感のある仕上がりの画像をすべて削除し、生成の際にはプロンプトをOpenAI o1に修正してもらいました。動画制作には、前作でも使用したKLING AIが非常に高性能だったため、今回もKLING AIを使用しています。

使ってみて改めて実感しましたが、OpenAI o1は本当に素晴らしいです。「こういう感じの絵を描きたい!」という漠然としたイメージを、見事に昇華してくれました。ただし、o1は利用制限が厳しく、毎回使えないのが難点です。

次に紹介するのは燼 -(ZIN) リメイクです

定期的にぶっこむメタルです。
今回リメイクしたのは、最初にアップロードした旧バージョンの動画の出来栄えがあまりにも悪く、さらに、曲の方も歌い間違いが多く、納得のいかない出来だったからです。そこで、素材を再利用し、新たに作り直しました。旧バージョンはこの動画の概要欄から見に行けます。

「Flicker of Dawn」とは打って変わって、非常に激しく、力強い楽曲に仕上がっています。 歌詞は、見ての通りストレートで風刺的な内容ですが、いざSunoに歌わせるとフレーズがダサく感じてしまうのが悩みです。 画像に関しても、女性を描くのは上手いのに、男性を描かせると途端に絵柄に違和感が出てしまうのは、AI画像生成の弱点だと感じています。主人公なんて、「〇だけ〇ベルアップな件」のキャラクターかな?って思ってしまったり。

少年向けのバトル風作品は不慣れで、未熟さが出てしまった映像ではありますが、リメイク版の演奏は個人的にとても気に入っています。特にドラムの重低音が好きな方は、イコライザーで低音を強調して聴いてみてください。

テーマは「抵抗と革命」、「覚醒と団結」、「自由と解放」です。
現実では某TV局の報道ばかりで、それどころではないようです。

最後は新作Same Tomorrow(同じ明日がきて)です

日常性とノスタルジー、軽やかさと希望…このチャンネルでは、こういった雰囲気の曲が多いのですが、今回はとあるアーティストの雰囲気に寄せて作ってみました。すると、出来上がった曲の声がそのアーティストにそっくりになってしまい、驚いた作品です。動画に使用したのは、少しだけアレンジを加えたバージョンです。

・「そっくり」というか、ほとんど「本人」です。さすがにまずいですよね。
(初期バージョン 音量注意)

ちなみに、出だしの「やんちゃなあいつのバイクの後ろ」というフレーズ、バラードで聴かせるのは違和感があるのですが、サビの部分があまりにも素晴らしかったので、そのまま採用しました。

↓このテンポで歌ってくれた場合は、違和感がないと思うのですが仕方ありません。(音量注意)
こちらを採用でもよかったのですが、前者のサビの部分の神曲ぶりが…

映像は、初期の構想ではフラクタルなアートを使用し、AIアートを前面に押し出した動画にする予定でした。しかし、途中で「これは本を読んでいる登場人物の作品にしよう!」というアイデアが浮かび、実写シーンを追加することにしました。三部作の時の白い髪の女性の実写版が爆誕です。

その実写シーンを現代風でありながら異世界のような雰囲気にしたいと考えましたが、ふと思い切って未来的な世界観にしてみよう!と思い、今の形になりました。 結果的に、曲の始まりの「やんちゃなあいつのバイクの後ろ、明日の買い物」というフレーズが、さらに違和感を感じるようになってしまいましたが…。
「Flicker of Dawn」では気を付けていましたが、今作ではちょっとおかしな画像があります。(本の文字とか)
個人的には気に入っているのですが、視聴維持率が圧倒的に悪く、タイトルのあるAIアートを動画にさほど載せられていないので、期待した人をがっかりさせているかもしれません。
あとやはり曲の出だしでしょうか。

テーマは「個性と調和」です。

チャンネルはこちら
www.youtube.com/@meviabsolute9179
🔔いいねやフォローしてもらえたらすごくうれしいです!


「AWAKENING – Beyond the Silence」と、便利な動画生成AI、制作に役立つ検索AI

AI音楽 AWAKENING

数年ぶりの年末年始の休暇を活用して、創作活動に没頭する貴重な時間を過ごしました。

今年最初の曲と動画制作は迷走からのスタート

きっかけは、10月から遊んでいるゲーム「メタファー:リファンタジオ」です。今や『FF』や『ドラクエ』に続く国民的RPGの域に達するともいわれるペルソナシリーズの開発スタッフが手掛け、エヴァンゲリオンやニーアオートマタのデザイナーも参加した注目作です。

ゲーム音楽にインスパイア…されたはずだった

この「メタファー:リファンタジオ」で流れる音楽がとても魅力的で、特に「自由の翼」と「猛き者たちよ」という曲がお気に入りです。
特に「猛き者たちよ」は、実際の僧侶による読経をボーカルに採用し、エスペランド語の歌詞とオーケストラ、賛美歌的コーラスを組み合わせた独特の楽曲です。「こんな威厳のある楽曲を作ってみたい!」と思い立ち、主要な部分をサンスクリット語や仏教用語で歌詞に取り入れようと試行錯誤したり、Sunoで近い演奏になるようプロンプトを考えたりしましたが、難易度が高すぎて断念。
最終的には歌詞を一部ストレートに分かりやすく修正し、いつも聴いている馴染みのあるジャンルで完成させました。

最終的な作品
メタファーっぽい曲、と最終的にまったく関係がなくなってしまいましたが、
前作の感傷的な三部作とは対照的な方向性で仕上げました。

アニメソングバージョンは、サンスクリット語部分はそのままでちょっとだけ名残があります。

またリベンジしたいですし、チャンネル登録なんてしてもらえたらうれしいです。

最近のAI活用:Perplexity AIが制作の強力な相棒に

最近あまり触れていなかったAI関連の話題ですが、制作活動において欠かせないツールとなっているのがPerplexity AIです。国内やローカル情報を調べる場合には、Felo AIが優れています。特に日本語での検索精度や要約機能に強みがあり、学術論文の検索や情報整理にも便利です。しかし、Feloは検索結果の要約に特化しており、対話型で最新情報をもとに作業をサポートする用途には向いていません。
一方、Perplexity AIは、リアルタイムで最新の情報を取得しながら対話形式でサポートを提供できる点が大きな強みです。PCソフトや国際的な情報が必要な場合でも、Perplexityは迅速かつ正確な回答を提供します。また、大規模言語モデル(LLM)であるChatGPTやGemini、Claudeなどを別途利用する必要がなく、検索と対話を一つのプラットフォームで完結できるため非常に効率的です。

最新情報からプロンプト生成や問題解決も可能

Perplexity AIは、単なる検索ツールではなく、最新の情報をもとにプロンプト生成や問題解決をサポートする強力なツールです。例えば、画像生成AIや動画生成AIをローカル環境で使用している際に発生するエラーについても、最新の知識から解決策を提案してくれます。このようなリアルタイム対応は、頻繁にバージョンアップや仕様変更が行われるAIツールでは特に重要です。

対照的に、Felo Chat(Feloの提供する対話型機能)はリアルタイム検索機能を持たず、学習済みデータから回答を生成するため、新しい技術や仕様変更への対応には限界があります。そのため、AI分野の最新動向に追いつきながら効率的に作業を進めたい場合には、Perplexity AIが最適です。

しばらくはまだ、Perplexity を相棒として引き続き音楽や動画制作に励んでいきたいと思います。
※Perplexity Pro会員は、現在OpenAIのO1推論型モデルを1日10回、週70回まで利用可能になっています。(2025/01/05 現在)

動画生成AIの活用について

ローカル環境での動画生成AIは、性能向上が見られるものの、GPUを限界まで使用し、生成時間や画質の面で実用性に課題があります。そこで、現在活用している動画生成サービスを3つ、KLING、Vidu、Lumaをご紹介します。

①KLING AI

KLING AI 料金プラン(2025/1/5現在)

プラン価格(月額)クレジット数/月主な特徴
無料プラン無料66/日基本機能のみ、透かし付き
スタンダード$10660透かし除去、商用利用可
プロ$373,000高品質生成、優先処理
プレミア$928,000最高品質、最優先処理

以前はRunwayを主に使用していましたが、高額な料金が難点でした。それに対してKLING AIは、以下の特徴を持っています。(最初は割引ですごく安い)

KLING(クリング)は中国の快手科技(Kuaishou Technology)が開発した最先端の動画生成AIサービスです。2024年12月にバージョン1.6がリリースされ、さらなる性能向上を実現しています

高品質な動画生成

  • 1080p、30fpsの高解像度動画を最大2分まで生成可能
  • 物理法則に忠実な動きの表現が可能
  • 3D空間時間アテンションシステムによる自然な動作表現

バージョン1.6の改善点

  • 前バージョン1.5と比較して全体的な性能が195%向上
  • プロンプトの解釈精度が向上
  • 視覚的美観の強化
  • より自然な物理的動作の表現

提供機能

テキストから動画生成

  • プロンプトに基づいた動画の自動生成
  • フィクション題材も含む幅広い表現が可能

画像から動画生成

  • 静止画からの3Dモデル生成
  • リアルな動きの付加が可能

最新の評価

KLINGは現在、OpenAIのSoraに匹敵する、もしくはそれを超える性能を持つと評価されています。特に物理法則の表現や3D空間の理解において優れた性能を発揮し、より自然で破綻のない動画生成が可能となっています。

②Vidu

Viduは中国の生数科技(Shengshu Technology)と清華大学が共同開発した最新の動画生成AIプラットフォームです。独自のU-ViT技術を採用し、高品質な動画生成を実現しています。
アニメーション動画を手軽に作るのに私はViduを使っています。
他にはPikaKLING AIも安定性が高い。

Vidu 料金プラン(2025/1/5現在)

プラン価格(月額)クレジット数/月主な特徴
無料プラン無料80約20本の動画生成、透かし付き
スタンダード$9.99320透かし除去、商用利用可
アドバンス$29.99880高品質生成、同時3タスク
プレミアム$99.992,360最高品質、同時4タスク

主な特徴と機能

基本性能

  • 1080p、30fpsの高解像度動画生成が可能
  • 4秒の動画を約30秒で高速生成
  • 最大16秒までの動画長に対応

生成モード

  • テキストから動画生成(Text to Video)
  • 画像から動画生成(Image to Video)
  • 参照画像からの動画生成(Reference to Video)

特筆すべき機能

  • キャラクターの一貫性を保った動画生成が可能
  • アニメ風やリアル風など複数のスタイルに対応
  • 3D空間時間アテンションシステムによる自然な動作表現

③Luma AI(Dream Machine

Luma AIは、アメリカ・サンフランシスコ発のAI企業で、a16zを筆頭に4,300万ドルを調達し、約3,000台のNVIDIA A100 GPUを活用して最新のAIモデルを開発しています。
ループ動画を作りたいときに私はDream Machineを利用しています。
クレジット消費が1でわかりやすく、他のサービスより圧倒的に多く動画を作れる。

料金プラン(2025/1/5現在)

プラン価格月あたりの動画生成数
無料プラン無料30回
標準プラン29.99ドル120回
プロプラン99.99ドル400回
プレミアプラン499.99ドル2000回

主要サービス

Dream Machine

  • 最大4K解像度の高品質動画生成が可能
  • 5秒間の動画を高速生成
  • 120フレームの滑らかな動画表現
  • テキストや画像からの生成に対応

Photon

  • 2024年11月に発表された最新の画像生成AI
  • Dream Machineをベースとした高速な画像生成
  • デザイナーや映画制作者向けに最適化

最新の技術革新

性能向上

  • 2024年10月のアップデートで推論速度が10倍に向上
  • フル品質の動画生成が20秒以下で可能に
  • 品質を損なわない高速化を実現

独自技術

  • マルチモーダルTransformerモデルの採用
  • AWSとNVIDIA最新GPUによる高速処理
  • Neural Radiance Fields技術による高品質な3D表現

活用シーン

  • チェックボックスを押すだけでお手軽にループ動画を作れる
    (※ループ動画にはなっているけど、微妙な結果になることもある)

以上です。
これからやってみようと思う人に、ちょっとでもスタートの役に立てる内容があったらうれしいです。