GoogleのAIモデルが「Gemini 3.1 Pro」へとメジャーアップデートされました。
今回のアップデートでは、テキストだけでなく、画像、動画、そして「音楽」まで、あらゆる表現をひとつの画面でシームレスに行える「マルチモーダル」の機能が大幅に強化されています。 何がどう変わったのか、搭載されている各専用モデルのファクトを整理します。
目次
1. 音楽生成モデル「Lyria 3」
今回のGemini 3.1で新たに追加されたのが、音楽生成専用モデル「Lyria 3」です。 単なるBGM作成にとどまらず、本格的な楽曲制作を可能にしています。
- 多彩な生成アプローチ: テキストでの指示(Text-to-Music)だけでなく、画像や動画から音楽を生成することも可能です。
- 作詞とボーカルの自動生成: 指定したテーマに合わせて自動で作詞を行い、複数言語に対応したリアルなボーカル(歌声)を入れることができます。
- 細やかなコントロールと仕様: ジャンルやテンポ、「エネルギッシュ」「悲しげ」といった感情(ムード)の微調整ができ、30秒の高音質なトラックを生成します。(※生成されたすべての楽曲にはAI識別用のSynthID電子透かしが入ります)
2. 画像モデル「Nano Banana」と動画モデル「Veo」
視覚的な表現力も、それぞれの専用最新モデルによって向上しています。
- 画像生成・編集「Nano Banana」:
- テキストからの画像生成、画像編集、複数画像の合成やスタイル転送に対応しています。
- 対話を通じた反復的な修正や、画像内に高精度な文字(テキスト)を描画することも可能です。
- 動画生成「Veo」:
- 高精細な映像とともに、自然なオーディオも同時に生成する動画モデルです。
- テキストからの動画生成(音声キュー付き)、指定した最初と最後のフレームの間をAIが補間する機能、既存動画の延長などが可能です。
3. リアルタイム対話「Gemini Live(ライブモード)」
モバイル版(Android / iOS)では、より自然なリアルタイムの音声会話ができる「Gemini Live」が利用できます。
- 主な機能: 会話中の割り込みや、自由な流れの対話が可能です。
- 共有機能: スマートフォンのカメラ映像や画面(スクリーン)を共有しながら文脈に沿った質問をしたり、アップロードした画像・ファイル、YouTube動画について話し合ったりすることができます。
まとめ
Gemini 3.1 Proは、長文脈の処理能力に加え、視覚(Nano Banana / Veo)と聴覚(Lyria 3)の生成能力、そしてLiveモードでのリアルタイムな対話機能を統合しました。 テキストベースのやり取りを超えて、様々な形式でのアウトプットが可能なツールへと進化しています。
