【Google 最新モデル】高速なレスポンスの Gemini 1.5 Flash が発表され Vertex AI でも利用可能になりました!

ウィスキー、シガー、パイプをこよなく愛する大栗です。

現在 Google の開発者向けカンファレンスである Google I/O 2024 が開催されています。基調講演にて多数の発表がされていたのですが、特に目を引いた Gemini 1.5 Flash をご紹介します。

Gemini 1.5 Flash

最新世代の Google の基盤モデルである Gemini 1.5 では、Gemini 1.5 Pro は 2024 年の始めに発表されていました。複雑なタスクをマルチモーダルで処理し、100万トークンのコンテキストウィンドウを提供しています。今回発表された小型の Gemini 1.5 Flash は応答速度が高速になっており、限定されたタスクや高頻度のアクセスに最適化されています。コンテキストウィンドウは100万トークンとなっており大量のデータを入力することが可能になっています。

Gemini 1.5 Pro は複雑で一般的にタスクについて高品質な回答を行うモデルで、Gemini 1.5 Flash は高頻度で限定されたタスクを高速に回答するモデルという位置づけになっています。コストも Gemini 1.5 Flash は Gemini 1.5 Pro の 1/10 と発表されているので、高頻度に利用する場合には低コストな Gemini 1.5 Flash を利用すると良いと思います。

Gemini 1.5 Flash は Google Cloud Vertex AI と Google AI Studio でプレビューのステータスとして既に利用可能になっています。

料金

Gemini 1.5 Flash に関する料金の情報も出てきたので追記します。Gemini 1.5 Flash は Google AI Studio と Google Cloud の Vertex AI で利用でき、各々異なる料金体系となっています。

Google AI Studio での料金

Google AI Studio では無料版と有料版(従量課金制)があります。従量課金制は 2024 年 5 月 30 日から利用できるようになります。

プラン(Gemini 1.5 Flash) 無料 従量課金制
レート制限 15 RPM(1 分あたりのリクエスト数)
100 万 TPM(1 分あたりのトークン数)
1,500 RPD(1 日あたりのリクエスト数)
360 RPM(1 分あたりのリクエスト数)
1,000 万 TPM(1 分あたりのトークン数)
10,000 RPD(1 日あたりのリクエスト数)
価格(入力) 無料 100 万トークンあたり $0.35(最大 128,000 トークンまでのプロンプト)
100 万トークンあたり $0.70(128,000 を超えるプロンプトの場合)
価格(出力) 無料 100 万トークンあたり $0.53(最大 128,000 トークンまでのプロンプト)
100 万トークンあたり $1.05(128,000 を超えるプロンプトの場合)

なお、参考までに Gemini 1.5 Pro は以下のようになっており、Gemini 1.5 Flash は Gemini 1.5 Pro と比べて、入力トークンは 1/10 で出力トークンは 1/20 の料金となっています。

プラン(Gemini 1.5 Pro) 無料 従量課金制
レート制限 2 RPM(1 分あたりのリクエスト数)
32,000 TPM(1 分あたりのトークン数)
50 RPD(1 日あたりのリクエスト数)
360 RPM(1 分あたりのリクエスト数)
1,000 万 TPM(1 分あたりのトークン数)
10,000 RPD(1 日あたりのリクエスト数)
価格(入力) 無料 100 万トークンあたり $3.50(最大 128,000 トークンまでのプロンプト)
$7.00 / 100 万トークン(128,000 を超えるプロンプト)
コンテキスト キャッシュ 該当なし 100 万トークンあたり $1.75(128,000 トークンまでのプロンプト)
100 万トークンあたり $3.50(128,000 を超えるプロンプトの場合)
1 時間あたり $4.50 / 100 万トークン(ストレージ)
価格(出力) 無料 100 万トークンあたり $10.50(128,000 以下)
$21.00 / 100 万トークン(128K+)

Vertex AI での料金

Vertex AI では以下のようになります。ただし、Gemini 1.5 Pro のオーディオ入力の料金は 2024 年 5 月 17 日から有効で、Gemini 1.5 Flash の料金と Gemini 1.5 Pro の 128K 以内のコンテキスト ウィンドウの料金は 2024 年 6 月 14 日から有効です。Vertex AI の場合は、Gemini 1.5 Flash は Gemini 1.5 Pro と比べて 1/10 になります。

モデル 価格
(128K 以内のコンテキスト ウィンドウ)
長いコンテキストの料金
(128K より多くのコンテキスト ウィンドウ)
Gemini 1.5 Flash
マルチモーダル
画像入力 : $0.0001315 / 画像
ビデオ入力 : $0.0001315 / 秒
テキスト入力 : $0.000125 / 1,000 文字
オーディオ入力 : $0.0000125 / 秒
テキスト出力 : $0.000375 / 1,000 文字
画像入力 : $0.000263 / 画像
ビデオ入力 : $0.000263 / 秒
テキスト入力 : $0.00025 / 1,000 文字
オーディオ入力 : $0.000025 / 秒
テキスト出力 : $0.00075 / 1,000 文字
Gemini 1.5 Pro
マルチモーダル
画像入力 : $0.001315 / 画像
ビデオ入力 : $0.001315 / 秒
テキスト入力 : $0.00125 / 1,000 文字
オーディオ入力 : $0.000125 / 秒
テキスト出力 : $0.00375 / 1,000 文字
画像入力 : $0.00263 / 画像
ビデオ入力 : $0.00263 / 秒
テキスト入力 : $0.0025 / 1,000 文字
オーディオ入力 : $0.00025 / 秒
テキスト出力 : $0.0075 / 1,000 文字

やってみた

実際に Gemini 1.5 Flash を触ってみます。

ここでは Google Cloud の Vertex AI Model Garden のページを開きます。すると Gemini 1.5 Flash が表示されているのでクリックします。

OPEN IN VERTEX AI STUDIOをクリックします。

Vertex AI Studio が表示されます。モデル名はgemini-1.5-flash-preview-0514となっています。リージョンは東京も選択可能です。

「Google Gemini について詳細に教えて下さい。」と聞いてみます。以下の文章が出力されますが、Gemini 1.5 Pro と比較して体感では半分程度の時間で遜色がないレスポンスが来ているように思えます。元々 Gemini 1.5 Prio も十分な速度でレスポンスが返ってきていましたが、更に高速になっています。

## Google Gemini: 次世代AIモデルのすべて

Google Geminiは、Googleが開発中の**次世代の大規模言語モデル**です。現行のBardやLaMDAを凌駕する性能を目指し、**マルチモーダル**、**テキスト生成**、**コード生成**、**論理推論**など、様々なタスクで高度な能力を発揮することが期待されています。

**Geminiの主な特徴:**

* **マルチモーダル:** 複数の情報ソース(テキスト、画像、音声、ビデオなど)を理解し、処理することが可能。
* **高度なテキスト生成:** より自然で人間らしい文章を生成し、様々な文体や言語に対応。
* **コード生成:** 複数のプログラミング言語を理解し、高品質なコードを生成。
* **論理推論:** 複雑な問題を理解し、論理的な推論に基づいて答えを導き出す。
* **高い効率性:** 従来のモデルよりも高速で効率的に処理を実行。
* **多言語対応:** 多くの言語に対応し、グローバルな利用を可能にする。

**Geminiの期待される応用:**

* **高度なAIアシスタント:** ユーザーの要求を理解し、自然な会話を通して複雑なタスクを完了。
* **コンテンツ作成:** 論文、ブログ記事、広告などの高品質なコンテンツを自動生成。
* **コード開発:** プログラミングを支援し、効率的なコード開発を促進。
* **研究開発:** 科学研究や医療分野など、様々な分野における課題解決を支援。
* **教育:** 個別学習を支援し、より効果的な学習体験を提供。

**現段階での情報:**

* Geminiは**まだ開発段階**であり、一般公開はされていません。
* GoogleはGeminiの詳細な情報を多くは公開していませんが、**複数の大規模言語モデルを統合**して、より強力なモデルを構築していることを示唆しています。
* Geminiは**Googleの様々な製品やサービスに統合される可能性**があり、GoogleのAI戦略において重要な役割を果たすと考えられています。

**今後の展望:**

Geminiは、AI技術の進歩を象徴するモデルとして、様々な分野に大きな影響を与える可能性を秘めています。開発が進み、より多くの情報が公開されることで、Geminiがどのように私たちの生活を変化させるのか、注目が集まっています。

**補足:**

* Googleは、Geminiの発表時に「**Bardよりはるかに強力なモデル**」と説明しています。
* Geminiは、Googleの**AI研究開発の頂点**として位置付けられています。

**さらに詳しく知りたい場合は、Googleの公式発表や専門メディアの情報を確認してください。**

Gemini 1.5 Pro と Gemini 1.5 Flash を比べるために、今度は Google AI Studio で試してみます。

Google AI Studio でもモデルで Gemini 1.5 Flash を選択して「Google Gemini について詳細に教えて下さい。」というプロンプトを投げます。すると以下のようなレスポンスが 6.0 秒で返ってきました

## Google Gemini: 次世代AIモデルの詳細解説

Google Geminiは、Googleが開発中の次世代の大規模言語モデル (LLM) です。BardやChatGPTなどの既存のLLMを凌駕する性能を目指しており、様々な分野で革新的な可能性を秘めています。

### Geminiの特徴

* **マルチモーダル:** テキスト、画像、音声、動画など、様々な種類の情報を理解・生成できます。
* **高度な推論能力:** 複雑な問題を理解し、論理的な推論に基づいて解決策を見つけることができます。
* **リアルタイム情報へのアクセス:** 最新の情報を収集し、その情報に基づいて回答を生成できます。
* **コード生成:** プログラムコードを生成し、様々なプログラミング言語を理解することができます。
* **複数の言語に対応:** 複数の言語を理解・翻訳し、スムーズなコミュニケーションをサポートします。

### Geminiの潜在的な活用例

* **より自然な会話型AI:** 複雑な質問に答え、人間らしい会話のやり取りを可能にします。
* **パーソナライズされたコンテンツ作成:** 個々のニーズに合わせて、文章、画像、動画などを生成します。
* **自動翻訳の進化:** 複数の言語間のスムーズな翻訳を実現し、言語の壁を取り除きます。
* **新しい発見と創造:** 研究や開発を支援し、新たなアイデアやソリューションを生み出します。
* **効率的な作業の自動化:**  タスクの自動化、データ分析、コード生成など、様々な作業を効率化します。

### Geminiの開発状況と今後の展望

現在、Google Geminiは開発段階にあり、具体的なリリース時期は未定です。しかし、GoogleはGeminiが将来のAI技術の基盤となることを期待しており、様々な分野に大きな影響を与える可能性があります。

### Geminiに関する注意点

* **倫理的課題:** 強力なAI技術は、倫理的な課題も孕んでいます。Googleは、Geminiの開発において倫理的な責任を重視し、安全な利用を促進する取り組みを進めています。
* **プライバシー問題:** Geminiは、膨大なデータセットに基づいて学習を行います。プライバシーの保護と情報の適切な利用は重要な課題となります。

### まとめ

Google Geminiは、既存のLLMを超える次世代のAIモデルです。その革新的な性能は、様々な分野に大きな影響を与え、私たちの生活を大きく変える可能性を秘めています。今後の開発状況に注目し、倫理的な課題やプライバシー問題への対応も重要な課題となります。

Gemini 1.5 Pro を選択して、同様に「Google Gemini について詳細に教えて下さい。」というプロンプトを投げます。すると以下のような Gemini 1.5 Flash と同程度の内容のレスポンスが 12.3 秒で返ってきました

## Google Gemini について詳細

Google Gemini は、Google が開発している次世代のマルチモーダル AI システムです。まだ開発中ですが、これまでの AI モデルを大きく超える可能性を秘めています。

**Gemini の主な特徴:**

* **マルチモーダル**: テキスト、画像、音声、動画など、様々な種類のデータを理解し、処理できます。
* **高度な推論能力**: 複雑なタスクを理解し、実行するための高度な推論能力を備えています。
* **ツールとAPIの統合**: 他のツールや API とシームレスに統合し、より複雑なタスクを実行できます。

**Gemini の期待される能力:**

* **より自然な会話**: 人間のように自然な会話が可能になります。
* **複雑な問題解決**: より複雑な問題を理解し、解決策を提案できます。
* **創造的なコンテンツ生成**: 詩、コード、スクリプト、音楽作品、メール、手紙など、様々な種類の創造的なコンテンツを生成できます。
* **パーソナライズされた学習**: 個々のニーズに合わせたパーソナライズされた学習体験を提供できます。
* **様々な分野への応用**: 検索、アシスタント、広告、翻訳など、様々な分野で活用されることが期待されています。

**Gemini の開発状況:**

Gemini はまだ開発段階であり、一般公開はされていません。しかし、Google は Gemini を「これまでで最も能力の高い AI システム」と位置付けており、その登場に大きな期待が寄せられています。

**Gemini の課題:**

* **倫理的な問題**: 高度な AI システムには、倫理的な問題が伴います。Google は、責任ある AI 開発に取り組むことを表明しています。
* **バイアスと公平性**: AI システムは、学習データに含まれるバイアスを反映する可能性があります。バイアスを最小限に抑え、公平性を確保することが重要です。
* **プライバシーとセキュリティ**: AI システムは、大量の個人情報にアクセスする可能性があります。プライバシーとセキュリティの保護が不可欠です。

**Gemini の将来**:

Gemini は、AI の可能性を大きく広げる可能性を秘めています。私たちの生活、仕事、学習の方法を根本的に変えるかもしれません。今後の開発と展開に注目が集まります。

**Geminiに関する情報は限られており、新しい情報が随時公開されています。最新情報を入手するには、Google の公式発表や信頼できる情報源を参照してください。**

Gemini 1.5 Flash が Gemini 1.5 Pro と同レベルに見える回答を半分程度の時間で回答しています。Gemini 1.5 Pro と比較してコストは 1/10 なので高頻度で利用する場合にはとても有用なモデルではないかなと思います。

さいごに

Google I/O 2024 では Gemini 1.5 Flash 以外にも、オープンモデルの Gemma ファミリーでビジョン言語モデルの PaliGemma が発表/利用可能になったり、新しい画像生成モデルの Imagen 3 やオープンモデルの Gemma の最新モデルである Gemma 2 、Gemini 1.5 Pro のコンテキストウィンドウが 200 万トークンに拡張されるなど、様々な発表がありました。

この後にはデベロッパー基調講演もあるので、期待の発表が続くと思います!