多数の形式=マルチモーダルの生成AIが出揃う

 生成AIは毎日進化しています。5月14日にはOpenAIが「GPT-4o」を投入。爆速の返し、音声や動画の入力、無料版でも使えるなど大きな話題となっています。ライバルの各社もこれと戦うべく大規模言語モデルの進化と多機能化を進めるでしょう。

 大手4社OpenAI、Microsoft、Google、Anthropicは、マルチモーダル生成AIの個人向け有料サービスを提供しています。「マルチモーダル」とはテキスト・画像・動画など複数の種類のデータを処理できる技術のこと。多数の(マルチ)形式(モーダル)を扱える生成AIと考えればいいでしょう。

 生成AIでは様々なサービスが生まれていますが、マルチモーダルで一般向けサービスに力を入れているのは、OpenAI、Microsoft、Googleの3社と言っていいでしょう。さらに性能の高さで最近注目されているAnthropic(アンソロピック)の「Claude3」を加えて、各社の生成AIの価格と特徴を見てみます。

無料で普及させ月額3000~6000円の有料サービスへ

マルチモーダル生成AI主要4社のラインナップ(個人・中小企業向け)

マルチモーダル生成AI主要4社のラインナップ(個人・中小企業向け)

 OpenAI、Microsoft、Google、Anthropicの4社は、それぞれ無料と月額制の有料サービスを提供しています。

 無料版はWebサイト上でテキスト中心、かつ元となる大規模言語モデル(LLM)がやや古いバージョンか軽量バージョンになっています。無料バージョンで多くの人に使ってもらい自社の生成AIサービスを普及させるのが目的でしょう。

 それに対して有料バージョンは価格が月額三千円から五千円弱で、生成AIを自社のサービスに連携させる仕組みを作っています。有料バージョンの多くはテキストだけでなく画像の入力・出力が可能で、PDFなどのファイル読み込み・分析にも対応しています。

 あらゆるファイルを使えるという意味では、有料バージョンこそがマルチモーダル生成AIだと言えるでしょう。ChatGPTがまさにそうで、無料バージョンを数回使っただけの人は「うーん、何に使っていいのかわからない」「仕事には使えないかな」との感想をよく聞きます。しかし有料バージョンのChatGPT Plusなら画像生成から自分専用の生成AIまで面白いことが多数できて、回答・出力の質もアップするため「面白い!」「仕事の活用シーンが思い浮かぶ」という感想が多くなるはずです。

 各社の特徴を紹介しますので、ぜひ一つでいいので有料バージョンに入ってみて、マルチモーダル生成AIの便利さを体験してください。

各社有料バージョン生成AIの概要と特色

■ChatGPT OpenAI

ChatGPT Plusの「GPTs」の一例。カスタマイズされたChatGPTが多数用意されている

ChatGPT Plusの「GPTs」の一例。カスタマイズされたChatGPTが多数用意されている

 生成AIの先陣を切ったOpenAI社のChatGPTは、生成AIの代名詞ともなりました。

 5月14日に登場した最新モデル「GPT-4o」は、今までのGPT-4より大きく進化してマルチモーダル化が進んでいます。音声や画像・映像の入力、音声での応答に対応しており、アプリ版の「ChatGPT」では音声での自然な会話ができるようになっています。

 iPhoneのアプリで試したところ、人と話している感覚で違和感なく会話ができるようになりました。処理が大幅に早くなり、さらに今後は声の抑揚で感情を読み取ることまで可能になります。

 この「GPT-4o」での注目は無料版でも使えること。回数の制限はあるものの、無料版で最新かつ爆速の言語モデルを使えるのは驚くべきことです。

 これとは別に今まで多くのユーザーが作り上げた「GPTs」もChatGPTの強みと言えるでしょう。自分好みの生成AIを作ったり、特定の文書を読み込んで専門の生成AIを作ることができます。またすでに他の人によって作られているGPTsを活用することが可能です。

 たとえば高画質の画像を作るためのGPTs、ロゴを作るためのGPTs、学術論文の検索ができるものなど各種の専門的なGPTsが多数あります(以前はプラグインと呼ばれていました)。

 このようにChatGPTは先行者であるゆえに、多数の活用事例・GPTsがあることが最大の魅力です。自分が使いたい用途を検索すれば、何らかの事例が見つかるので初めての企業活用に向いていると言えます。

■Copilot Microsoft

WordでCopilot Proを使った例。下のプロンプトに指示を出すと、上のような文章をWordで作成してくれる

WordでCopilot Proを使った例。下のプロンプトに指示を出すと、上のような文章をWordで作成してくれる

 Copilot(コパイロット)とは副操縦士のこと。パイロットであるあなたを助ける存在と言うネーミングです。MicrosoftのCopilotは、同社が出資しているOpenAIのChatGPTをベースに開発されています。

 Copilotの最大の特徴は、Microsoftの多彩な製品・サービスとの連携です。たとえばWindows11ではタスクバーの右側にCopilotアイコンができており、すぐに生成AIを利用できます。

 企業向けとしては、サブスクのCopilot ProによってTeamsやMicrosoft365(Excel、PowerPoint、Word)との連携が始まっています。たとえばTeamsではテレビ会議の文字起こし・要約がすぐに行えます。会議ノートを作ってタスクや課題をまとめることができる優れた機能です。

 またMicrosoft365では文書作成にCopilotを使えます。たとえばPowerPointで新製品のプレゼン資料を作るのにも、簡単な概要さえ指示すれば、イメージ画像やテキストを作成して数ページの資料をCopilotが作ってくれます。同様のことはWordでも可能です。これだけでは使い物になりませんが、資料作成の叩き台として使うのに向いているでしょう。

 私が使った感触では、現時点のMicrosoft365でのCopilotはあくまで補助的で実用性には欠ける印象があります。それに対してTeamsのテレビ会議利用はとても便利なので、今すぐ企業の会議で活用できると感じました。

 Copilot Proの料金は他社よりやや高い月額4690円ですが、これは月額のクラウドサービスであるMicrosoft365のサービスが含まれているためです。残念ながら買い切り型のMicrosoftオフィスでは使えないので注意が必要です。

■Gemini Google

Gemini有料版で使えるGoogle Workspaceの活用例。ドキュメントやスプレッドシートの作成、ホテル検索、YouTubeキャプション検索などで生成AIを利用できる

Gemini有料版で使えるGoogle Workspaceの活用例。ドキュメントやスプレッドシートの作成、ホテル検索、YouTubeキャプション検索などで生成AIを利用できる

 OpenAI+Microsoftの連合軍と真っ向勝負をしているのがGoogleの「Gemini(ジェミニ)」。ふたご座という意味ですから、双子のようにあなたと共に働く存在を目指しています。以前はBardと呼んでいましたが2024年からブランド名を変更しています。

 最大の特徴は元となる大規模言語モデル(LLM)の優秀さでしょう。2024年2月に発表された最新の「Gemini1.5 Pro」は、従来モデルよりも10倍以上の処理能力を持ち、より複雑なタスクや長文の理解が可能になっています。LLMの性能は日進月歩ですが、お金をかけているGoogleは常にトップクラスでの争いをしています。

 実用面ではGoogleの今までの資産をフル活用できることが特徴です。たとえば風景写真を読み込むとGoogleマップに登録されている写真から撮影場所を推測できたり、YouTube動画のキャプションを検索することができます。旅行ルートを作らせて、そこからホテル予約することも可能です。

 Googleのクラウド機能「Workspace」と連携するため、文書作成(Googleドキュメント)、表計算での生成AI利用(スプレッドシート)、カレンダーでの利用もできます。このようにGoogleの各種サービスで生成AIを活用できるのが一番の魅力と言っていいでしょう。

 Geminiの有料版は月額2900円で、「Google One AIプレミアム」というセットに含まれています。Googleのクラウドサービスがセットになっており、クラウドのストレージ(保存ファイル容量)が2TBに増えることも魅力的です。

■Claude3 Anthropic

Claude3のプロンプトライブラリ。Web版ではなくAPI利用のためのサンプルが用意されている

Claude3のプロンプトライブラリ。Web版ではなくAPI利用のためのサンプルが用意されている

 2024年から大きな注目を集めているのが「Claude3(クロード3)」を開発しているAnthropic(アンソロピック)社です。AnthropicはOpenAIの元幹部だったダリオ・アモデイ氏らが、OpenAIを離脱して作った生成AI企業。後発ではあるものの、人類にとって危険・有害なアウトプットを生成しない開発方針であり、OpenAIよりも公共性を重視していることもあって注目されています。

 このAnthropicにはAmazonが40億ドル(約6000億円)、Googleが最大20億ドル(約3000億円)の巨額投資を行っています。OpenAIの牙城を崩すライバルとして地位を高めており、特に企業向けのAPI利用では価格の安さなどから利用が増えている状況です。

 Claude3は2024年になってから日本での注目度が上がっています。理由は日本語が自然で人間らしい文章を作ってくれることや、コード生成でChatGPTを上回る実力があったため。生成AIに詳しい人たちがこぞって評価をしたため人気が高くなりました。

 Claude3は無料版と有料版があり、有料版は月額20ドル(約3,000円)です。Claude3には3つのモデルがあります。早さを重視した軽量版の「Haiku」、バランスの「Sonnet」、もっとも高度な知性を持つ「Opus」があり、無料版はSoonetまで、有料版はOpusを含めた全モデルが利用できます(Web版の場合)。

 Claude3は無料版でも画像認識(読み込み)ができるものの、画像生成機能は持っていません。また2024年4月現在、無料版・有料版ともにURLの読み込み(Webからの直接データ読み込み)はできません。

 Claude3の最大の特徴は「プロンプトライブラリ」を用意していることにあります。プロンプトライブラリとは、 業務でのAPI利用で使えるサンプルのようなもの。たとえば「CSVコンバータ」はJSONやXMLなどのデータをCSVに変換する、「Excel数式エキスパート」ではユーザーの指示などに合わせて数式を作成するといったプロンプトがあらかじめ提供されているのです。API利用はハードルが高いと思っている人でも、このライブラリを使えばチャレンジできるでしょう。

日進月歩の生成AI。比較よりも単機能の活用から

 ではどの生成AIがいいのでしょうか。この比較は難しくなっています。と言うのは生成AIの頭の良さ・処理能力が日進月歩の世界であるため。昨日まではClaude3が良かったが今日からはGeminiの新しいモデルのほうが賢い、みたいなことが毎週起こっているからです。

 今の評価が明日には意味がなくなっているため、比較してどちらがいいと断言できないのが難しいところです。筆者がお勧めしたいのは比較して迷うよりも、今すぐ使えそうな一つの機能で、どれでもいいから始めてみることです。

 たとえば即効性があるのは会議の議事録でしょう。Teamsでのテレビ会議では、Copilotの議事録が圧倒的に便利です。文字起こしをするだけでなく、要点をまとめて次回までのタスク一覧まで作ってくれるのです。これがあるだけで時間効率がアップします。

 実際の活用例がわからないという人には、「ChatGPT+(自分の業務)」で検索すると活用例の記事が見つかるはずです。先人たちがすでにChatGPTによるチャレンジをしていることが多いからです。またCopilotならプロンプトの提案までしくれますし、Claude3にあるプロンプトライブラリで活用事例のサンプルを試すことができます。

 いろいろ考えて迷うより、既存の情報から実際に試した方が早いと言えるでしょう。使い方や活用例がわからなければ、それこそプロンプトで聞けばいいのです。

 それでもよくわからないという人には、以下のシンプルな提案をしておきます。

  • 生成AIで何ができるか知りたい→ChatGPT Plusで多機能を試す
  • オフィスワークでの活用を試したい→Copilot ProでMicrosoft365を使ってみる
  • 長文を読み込ませて使いたい→Claude3を使う

 難しいことを考えず、ぜひ使ってみてください。

著者プロフィール

三上 洋(みかみ よう)

東京都世田谷区出身、1965年生まれ。東洋大学社会学部卒業。テレビ番組制作会社を経て、1995年からフリーライター・ITジャーナリストとして活動。専門ジャンルは、セキュリティ、ネット事件、スマートフォン、Ustreamなどのネット動画、携帯料金・クレジットカードポイント。毎週月曜よる9時に、ライブメディア情報番組「UstToday」制作・配信。Ustream配信請負、ネット動画での企業活用のコンサルタントも行う。