Gemini for Google Workspaceの実力ってどれだけあるのか?

2024年2月21日、BardからGeminiに変わり、Gemini for Google Workspace(旧Duet AI for Google Workspace)が利用可能に成りサブスクリプションにも登場するようになりました。あれから数ヶ月他の生成AI界隈も劇的進化を遂げている中、Gemini for Google Workspaceどうなのよ?という話も聞こえてくるようになりました。

Gemini Enterpriseを触る機会を得たので、今回他のサービスとの比較も含めて検証してみることにしました。本稿ではGCP側のGemini for GoogleCloudについては触れません(守備範囲対象外の為)。故に、Gemini for BigQueryなどの機能は範囲外となります。

目次

今回利用するツール

Gemini for Google Workspaceは2つのエディションに分かれており、Gemini BusinessとGemini Enterpriseでわかれます。それぞれの利用料金はGoogle Workspaceの管理コンソール上で見てみると、1ユーザあたりBusinessが1582円/月、Enterpriseが3400円/月となかなかの金額。入れるからには元を取れなければ意味がありません。

つまり、エンドユーザがこれを活用して結果を出す必要性があるわけです。まずは14日間無料体験版で試すことも出来るので、テスト導入の検証をしてみるのが良いでしょう。

基本、Google Workspaceの全エディション対応となっていますが、Business StarterのみはGemini Businessしか利用できないようです。

図:Geminiの価格表

基本情報

守備範囲

Gemini for Google Workspaceの現時点での適用範囲は以下の通り

  • Gmail
  • Googleドキュメント
  • Googleスプレッドシート
  • Googleスライド
  • Googleドライブ
  • Google Meet
  • Geminiのチャット

Geminiのチャットについては、スマートフォンに於いてGeminiアプリを入れることで、Google MessageやGoogle Assistantからも利用が可能になるみたい(自分の端末ではまだ使えない)。

それぞれのサービスに合ったものが機能として用意されているとのこと。

ポイント

各エディションの機能差

Gemini BusinessとEnterpriseのエディションの差は以下のような感じになっています。

項目 Business Enterprise
使用量上限 1ユーザ1ヶ月1000回まで 無制限
Gmail ◯ ◯
Document ◯ ◯
Slide ◯ ◯
Spreadsheet ◯ ◯
Drive △ ◯
Meet △ ◯
Gemini Chat ◯ ◯

Businessは使用量上限が設けられているため、この上限を超えて利用はできません。またスマフォのパケットと違い、回数を持ち越したり他人とシェアもできません。毎月1日に回数がリセットされます。

※また、Gemini for Google Workspaceは利用者が18歳以上でなければ利用が出来ないようです。

学習データとして流用されない

よく話題にあげられているのが「企業のデータを学習データとして利用されるのではないか?」についてですが、Gemini for Google Workspaceは各テナントで閉じた運用となっており、Geminiサービス自体の学習用データとして流用されることはないとのこと。これはGemini Chatについても同様です。トップページのよくある質問にも明文化されています。

個人のgoogleアカウントの場合については学習対象となってるようです。

図:学習に使わない旨の明文化

著作権侵害に対する対応

画像生成AIなどは代表的ですが、生成AIが出力した内容を起因とする著作権侵害に関するトラブルについては、Googleが責任を負う旨の明文化が出されています。自動運転Lv4以上だとメーカーが自動運転の事故の補償をするみたいな仕組みと同じですね。

逆に、出力結果が自身の著作権を侵害してるといった場合に対しても、訴えを起こす相手はGoogleということになります。

利用者はこれにより安心して生成AIを利用できますよということですね。

注意点

2024年5月時点では、モデルとしてはGemini Ultra 1.5Proを利用してるようです。しかしこのモデル、英語に最適化されているため、Gemini Chatなどは旧モデルを使ってる模様。また、Gemini for Google Workspaceは「日本語対応」されていません。他の生成AIであるChatGPTやClaude3などはすでに対応済みということを考えると、かなりの出遅れ感。

※2024/5/15 Google I/O 2024 より日本語でも利用が可能になったというニュースが窓の杜に出ましたが、どうやらGemini 1.5 Proが日本語対応してるだけでGemini for Google Workspaceは依然として英語UIじゃないと動かないし、Gemini ChatはGWSアカウントでは拡張機能が動作しません(Drive探索などは出来ない)。

※一方、世界に於いて生成AIを業務で活用してるか?という調査ではこの言語の差もあるのかもしれないけれど、11カ国中最下位・・・非常に由々しき事態になっているのも事実(俗に言う茹でガエル)。今から検証導入して対応できるようにしておく準備期間と思っておいたほうが良さそうです。

導入済みで日本語言語なのだけれど使えなかった時の利用手順は以下の通り。

  1. Googleアカウントを開きます。
  2. 左サイドバーの個人情報を開く
  3. 下の方にあるウェブ向けの言語の中の「言語」をクリックする
  4. 優先言語が「日本語」になってるので、鉛筆マークをクリックする
  5. Englishを選択して、United Statesを選択。保存をクリックする

但し、この結果としてGoogleサービスの全てのUIが英語となってしまうので、要注意。もとに戻す場合は上記の手順で日本語に戻せば元通り。

※Gemini Chatは日本語対応なので普通に使えます。

図:言語を英語にしなければならない

他の生成AI事情

Google Trendsの結果

過去1年間ちょっとの日本および世界でのトレンドを、ChatGPT, Claude, Gemini, Stable Diffusionで調べてみました。ChatGPTがどちらでも圧倒的。世界ではGeminiが若干上げてきてるものの、日本国内ではStable Diffusionにもキーワードレベルでは負けてる感じ。

Gemini for Google WorkspaceにキーワードチェンジするとClaudeにも負けてる状況。Duet AIも入れてみましたがカスリもしない。。。。

国別だと圧倒的に中国からの検索が多い。一部はスペインといったものもあるけれど、日本は全体的に低い。

図:日本国内でのトレンド

図:世界でのトレンド

他の生成AIの進歩

生成AIと言えばおなじみで知名度もバッチリあるOpenAIの「ChatGPT」。また、文章系ではかなりイケてるAnthropicの「Claude」。画像生成AIでは結構しられてるStability AIの「Stable Diffusion」。

ChatGPTはMicrosoftが出資しているため後ろ盾は厚い。AzureにもOpenAI Serviceとして提供しているだけじゃなく、最近はMicrosoft CopilotとしてWindowsに乗せてきたり、Microsoft365用にCopilot for Microsoft365をすでにもう提供してきている。Edgeやbingに対してもCopilot in Bingとしてすでに話題にもなっており、圧倒的に感じます。

自身もGASでこれらChatGPT APIやClaude3 APIを使ってきていくつか温めてる構想がありますが、5月13日にGoogle I/Oに先駆けてOpenAIではGPT-4oをリリース。かなりヤバいとすでにX上でも話題になっています。

Stable DiffusionのAIをGASから呼び出して画像生成をやらせるなんてこともすでにもう始まっており、界隈はこの3つで殆ど話題が埋め尽くされてる感があります。

※ちなみにGPT-4oはすでにもう通常のChatGPTにて利用可能になっています(要ログイン:課金は無しでOK)。スピード感が違うね。

図:リリース情報量多すぎて追いつけない・・・

Google Apps ScriptでClaude APIを日本語で叩いてみた【GAS】

Google ChatのBotにOpenAIのchatGPTを繋げてみた【GAS】

Geminiの出遅れ感

一方、Gemini for Google Workspaceは正直言って話題になっているとは言い難い。理由は

  1. 日本語対応していない(Copilotはリリース当初から日本語に対応済み)
  2. Vertex AIからAPIは使えるけれど事例が少ない

自分もBard時代にGASから叩けるようにしてみましたが、まぁ手順が面倒臭い。またGoogleの最近の動きというかコレまでの動きとして非常によろしくない点がいくつもあげられる。以下はその代表的な事例。嘗てのMicrosoftのポジションになっていやしないか?・・・邪悪に染まってきてるのか?

  1. AppSheetなどは3年経った現在も日本語化されていない
  2. アプリをGoogle Pixelでしか動かせないよう規制してる。ブランドに囲い込みしたいのか?(ChromOSのApp Streamingなどもその事例の1つ)。ChatGPTアプリはそのようなことは当初より無い。
  3. 一般人が利用する機会がほぼ無いので知名度が広がっていない
  4. 完全に他社に出遅れていて、悪いニュースの印象が強すぎる
  5. Googleのこれまで行ってきたサ終癖
  6. 自分たちの広告事業に影響を懸念して、積極的に展開していないような気がする(明らかにアピール弱すぎ)
  7. 現時点でGoogle Workspace Update Blog Japanが2024年4月19日で止まってる(本家は5.10まで更新済み)
  8. Google検索コアアップデートで個人ブログを蔑ろにしてる気がする。裾野広げるのは一般ユーザです。
  9. 一方で登場して相当年数経ってるのに装備されないGoogle Sites API。放置ですか・・・
  10. 何かというとリブランドと称して名称変更。リブランドは知名度構築する上では悪手。(Google Workspaceも何度名前変わったことか・・・GeminiもDuet AI登場間もないのに名前変えたし)
  11. Google Talkに始まり、HangoutやらAlloやらDuoやらMeetやらと分裂・統合を繰り返した顛末。お客様の信頼を失いかねません。
  12. GCPでテナントが誤ってに削除されるという事件が起きてしまいました。ファーストサーバの事件を思い出します(会社はもう存在しないようです)。原因はこちらに明記されています。

まず、自分たちは完全に出遅れていてOpenAIなどの背中を追わなければ行けない立場ということがあまり理解できていないのではないか?という点と、この世界の「先行者利益」という鉄のロジックを忘れてしまってるのではないか?という点。生成AIサービスもそれが覇権を握るかどうかは、どれだけ人がついていくかに掛かっています。

また、ここまでAIチャットが広まると当然Google検索の利用頻度が下がり、広告事業に多大な影響が出る。すでにWEB広告市場はレッドオーシャンであり、Microsoftと比較してもGoogleの収入依存度は広告事業に傾倒しすぎてるだけじゃなく、そのせいでGCPやGWS、そして生成AIに関して二の足踏んでる感や足引っ張ってる感が感じられる。

※2024年5月12日のニュースによるとAppleはGeminiとChatGPTのどちらを搭載するのか?について、ChatGPT採用に向けて最終調整中とのこと。

図:足元がお留守になっている感

Google Apps ScriptからBard API(Gemini)?で質問してみた【GAS】

生成AIが必要とされる理由

とは言え、現代社会に於いてとりわけ日本では生成AIはむしろ他国よりも積極的に推進していかなければ立ち行かなくなる未来が予約されている現状です。

先日のChromebook C436FAの項目でも記述したことではあるのですが

  • 超少子高齢化で人手不足はこれからも悪化する一方。
  • 雇用できないのだから当然変わりになるものが必要となる。
  • 自分たちの組織とりわけ情シスメンバーの維持ができなくなっていく。
  • Microsoftのコストはガンガン鰻登り。円安やインフレも相まってITコストが経営を圧迫していく。

これまでもWindows95降臨やスマフォ時代の幕開け、コロナによるリモートワーク時代到来といったパラダイムシフトが起きて世界が変わりました。生成AIは経った1年でここまで進化しすでにもう特定職種の人を駆逐し始めています。無視を決め込んでも周りは変わっていき、自分だけが取り残されて最終的には駆逐される運命が待っています。企業も人も。(DX推進阻害要因の事務職担当者などは先行して駆逐され始めています。スマフォ1つで日本の家電業界がどれだけ淘汰されたことか。無視を決め込むとこうなります)。

ということなので、今の時点で取り組みを始め、まずはデスクワークからということであるならば研究開始にはいい頃合いではないかと思います。セミナーなどもすでに開催が始まっているので、企業内担当者は情報収集と研究を今直ぐ開始しましょう。

ASUS Chromebook flip C436FAを業務で使ってみるテスト

Google I/O 2024発表

2024年5月15日 深夜2:00、Google I/O 2024が発表されて、Gemini for Google Workspaceに関してのいくつかの発表がありました。ここではGoogle Workspaceに関連性のあるものをピックアップしてみました。

関連性のある発表項目

多数の発表があったので、Google I/Oの中でGoogle Workspace関連となると以下の項目になります。I/Oは開発者向けのイベントですので製品発表会というスタンスではなく、一般ユーザ向けではないため難しい面も多々ありますが、今後リリースされてくる機能にも大いに関係があるので、1度目を通しておくと良いでしょう。

How to automate Google Workspace tasks with Gemini

図:関連動画だけプレイリストでまとめてみた

重要な項目

今回の発表とUpdate Blogの公開内容の中でGemini for Google Workspaceに関連のある重要なトピックは以下の通り

  • 35ヵ国の言語でGemini for Google Workspaceが利用可能になった

すぐにご利用可能ということなのですが、朝一で確認しましたが、まだ何も変わっていませんでした・・・どうやら誤報で、Gemini 1.5 Proが日本語対応ってだけでGemini for Google Workspaceは何も変わらず・・・・ひどい話だ。

図:Geminiを詰めたら日本語対応してないと白状しました

基調講演

Google Keynote (Google I/O ‘24)

Developer Keynote (Google I/O '24)

セッション別動画

Unlock the Power of Generative AI in Google Workspace: Best Practices for Effective Prompting

 

Gemini for Google Workspaceの検証

現時点では、Google FormやGoogle Sitesに関しては未対応のようです。また、プロンプト入力欄にて、吉積情報さんが2023年11月に検証時にはスライドにて何故か日本語が通ったという件、試しに日本語で入力してみましたが通りませんでした。

Gemini Chat

まだGoogle Workspace連携出来ていない

GeminiのChat自体は日本語で利用可能です。前述の通り、GWSアカウントであるならば学習のネタにされることも無いので安心して利用は可能です。5/14時点ではGemini Ultra 1.0が採用されていますが、実はすでに1.5 Proの機能を試せるようになっています(Google AI Studioという画面になりますが)。但し、Gemini Chatと違いドライブの中身は調べられないようです。

Welcome to Gemini eraというサイトから様々な情報を発信しています。

しかし2024年5月時点、Google Workspaceアカウントでは連携ができず(Comming Soonのまま)、何とGemini Chat上でGoogle Driveなどを調べたりができません。個人のアカウントでは可能です。かなりガッカリ感が凄い。

個人アカウントの場合、チャット入力欄に@を入れると対象サービスを選択できて、そのままドライブの中の資料を検索してまとめて出すといったようなことができるようになっています。

という事で、現時点では連携の検証をしようがありません。

図:個人アカウントだと利用可能

図:@で対象サービスを調べられる

図:Gemini Ultra 1.5が使えるようになる

GASのコード生成をさせてみた

試しにGASに於いて、グループアドレスをFromに指定して、他者にメールを送信するコードを生成依頼してみました。

実際に検証してみましたが、全く動かない上にオカシナ文言が書かれてるので、GASのコードを生成出来るといっても、やはり知識がない状態で使うには危ういなと。確かにFrom偽装は出来ないのですが、権限の委任でもってGmailAppにて送信は出来るのです。

生成出来るとは言え、あくまでも単発のよくある事例の関数が書けるだけで、到底全体のアプリケーション設計まで考慮して作れるレベルには至っていない感じです。自分のところのサービスなのに・・・・

グループアドレスのメアドでGoogle Apps Scriptからメールを送る手法【GAS】

デジタル校正を依頼してみた

Claude3の時にも短い短文ですが、いくつかの誤字脱字などを含めた文章をなげて文章校正をしてもらいました。

この投稿結果に対して、Claude3は非常に的確に返してきましたが、Geminiの場合は以下のような結果になりました。

  • 文章校正はClaude3と大差はない。ただClaude3のほうは終りの「ら抜き表現」を指摘していたので、Claude3に軍配が上がる
  • Claude3は的確に結果だけを箇条書きで返してくれましたが、Geminiは余計なことに修正文を付けて返してきました。プログラムからの利用を想定してるからこその命令だったのですが、理解出来なかったようです。

デジタル校正能力は確かにあるとは思います。しかし人間の命令を的確に理解する力が弱い。命令文だけを投稿するとなぜか英語に翻訳して命令文を返してきました。

実は同じ文言でChatGPTのGPT-4oにも投げていますが、こっちは期待したのですが修正した文全体を箇条書きでピックアップしてくるというオカシナ挙動を示しました。現時点で個人的感想としてはこの手の文章処理はやはりClaude3が最強では?

図:デジタル校正についてはClaude3に軍配

Gmail

メールの文章を書くのに一番パワーを要するのが書き出し。どうしようかと悩み何時間も過ぎる。というのをサポートするのがGeminiのHelp me write。

ということで使ってみましたが、もちろん英語しか使えない(キーワードじゃなく自然言語でリクエストは出来る)。文章としては友人・旅行・岐阜を元に頼んでみましたが大丈夫かこれ?と思いましたが、実際に生成されたワードが以下の通り。

Google翻訳で翻訳させたらあまりにもラフというかフランク過ぎたので、Gemini Chatで翻訳してもらいました。友人に岐阜への旅行のお誘いについてという文章としてはよく出来てるとは思います。自分は候補をあげてどこ行きたい?と聞きたかったのに。

返信に対しては何かアクションできるのか?ということで、上記の文章を別アカウントから送って返信というアクションをしてみました。この時返信をクリックして、help me writeで「Give the sender some suggestions for meetings」としてcreateをクリックしたら、受信内容を加味した状態で、リプライ内容を生成してくれました。

ここで個人的に欲しかったのが、打ち合わせ日程の候補を自分のカレンダーあたりから取ってきてくれることが出来たらいいなと思う点。行ったり来たりがかったるいので。

また、デフォルトでの解答が固い、固すぎる。修学旅行の実行委員かと・・・。こういうことがあるので修正を指定するわけですね。

さらに、gifu(岐阜)はオッケーでも、norikura(乗鞍)はこの言語はサポートしていないなどと返ってきました。

別の角度で白川郷、乗鞍高原、下呂温泉でリクエストしたら白川郷以外はスルーされました。これは頂けません。自分乗鞍高原の温泉派なので。深さが全然足りない!!メール返信時の下に勝手に出てくるワード候補よりはマシってだけで現時点では正直、力不足が否めません。

図:help me writeという機能

図:出力してみた

ドキュメント

Gmailにつづいてドキュメントではどうか?こちらもHelp me writeという機能のようです。日本の戦争の歴史に関するレポートを生成したいとリクエストを投げてみたところ、以下のような内容が返ってきました。

こちらも結果をGemini Chatに投げて翻訳をさせています。

なかなか短くよく纏まっていると思います。ここからこれらを章割りして書き始めるには良い構成ではあると思います。

ちょっと意地悪というか、よりディープな内容として日本の西南戦争(Satsuma Rebellion)に関する同様のレポートも依頼してみました。

こちらもよく纏まっていると思います。しかし、同じスタイルで戊辰戦争についてリクエストを投げてみたところ、会津藩の記述は無し。追加のワードでカッチリ指示を出せば戊辰戦争についても会津藩の記述について知ることができました。

つまり、help me writeと言っても、利用者による適切な指示を出す能力が求められるということですね。

但し、自分がドキュメントに求めてるAIな機能というのは、作成した文章を英文翻訳してくれるとか、作成した文章をデジタル校正してくれるとか一歩踏み込んだものであって、すでに現場ではClaude3などを使って実現できてる事なんですよね・・・メールと違って求められてるものに至っていない感じ。

既存の文章を範囲指定して、左側のキラキラ光るペンのボタンをクリックすると、色々再指定が出来ます。よりフォーマルにしたりフランクにしたり。

図:こちらもhelp me write

図:ドキュメントとは相性が良いかも

図:特定範囲だけちょっと書き直し依頼

スプレッドシート

GoogleスプレッドシートはGASでも最もよく利用されるものなので、どんなことが出来るのか?と期待してはいるのですが、現時点では「help me orgnize」とスマートフィルで使える、この2種類のみ。GPT-4oで発表されたような画像のOCRで領収書の表形式部分を抜き出すみたいな事は出来ないようです。

このHelp me Orgnizeなのですが、例えば「I want to create a table to manage the work and production of plant cultivation.」みたいに文言をいれると表が自動生成されるような感じのアシスタントをしてくれる。機能はInsert => Help me organizeにあるのでクリックするとサイドバーが開く。

使ってみた印象ですが、まぁ表を生成してくれるのはわかるのだけれど、全然イメージとは違うものが作られてる感。指示に悩むくらいならテンプレートから引っ張ってきたほうが早いし、例えば工数管理だのプロジェクト管理とかの表といっても全然機能足りないので、自分は多分使わない。

スマートフィルは正直これ、今までの延長でしか無いのでAIどうこうを全く感じない。

ということで、かなり期待外れでした。入力欄に入れてヒアリングもせずに一発でジェネレートしようとしてるのが非常に気になる。このあたりが足りない点なんだろうなと思う次第。また、こういう類は言語化して指示出すのって難しいのよ。なので普通の人が高度な人が使ってる表生成は指示出してどうこうってのはちょっとね・・・・

図:指示を入力する画面

図:作成された生産管理表

スライド

Googleスライドに搭載されているGeminiは、「Create image with Gemini」と呼ばれる画像生成AI。個人的には画像よりも自分の指示に従って、商品説明するスライド群を自動生成のが有り難いんですが・・・ただ、スライドに合うような商用利用可能でフリーなイメージにピッタリの素材って検索で見つけるのって結構な手間なんですよね(いらすと屋さんくらいしかない)。なので、この機能はそうした時間の削減にはつながるのではないでしょうか?

右上の小さな画像のアイコンをクリックするとサイドバーが開かれて、指示を入れると画像生成してくれるというもの。割とこの発想はStable Diffusionの頃から誰もが思いつくもの。

ワードを入力、スタイルを選択(Cyberpunkとかある)、そしてCreateをクリックするだけ。今回入力したワードは「荒廃した街の中に小さな植物の芽が芽吹いて、未来への希望の一歩となるようなイメージ」という絵面でのCyberpunkスタイル。

結構生成スピードが早く、割と自分のイメージにピッタリの画像が生成されました。同じ条件でmacOSのDiffusionBeeで作ってもらいましたが、こちらは生成まで結構な時間が掛かる。おまけに奇っ怪な植物が登場してしまった。画像生成に関しては割と良いのではないしょうか?ちなみに、removing backgroundを画像に対して実行したら植物だけきっちり切り抜いてくれました。

現在のスライドはこれで動画を作れる機能があるので、Youtube動画のインサート素材などで使ってみるといったこともできそうな気がします。ただ、まだ細かい指示も出せないのと、既存の画像を加えてのリメイクなどが出来ないのでこれからに期待といった感じです。

※ちなみにChatGPTは要約した上でスライド生成までやってくれます。3Dモデリングデータの生成もできるようで。でもどうやって指示出してるんだろう・・・

図:他にも色々な目的で使えそうではある

図:DiffusionBeeでは奇妙な植物が・・・

図:植物だけを切り抜いて見た

図:桜島は生成してくれなかった

Meet

Google Meetに対するGeminiはやや機能が多い。

背景画像生成

背景画像をアップロードや選ぶのではなくその場で生成することが可能です。

  1. Meetの下の「︙」をクリックする
  2. Apply Visual Effectsをクリックする
  3. Generate a Backgroudのボタンをクリック
  4. キーワードを入れて、Create other Samplesをクリック。
  5. 生成された候補をクリックして適用する。

気分に合わせて、背景を選べるのは遊び心ある良い機能だと思います。

図:背景画像を生成するボタン

図:ジャングルの中の机と椅子で指定してみた

音質と画質のエフェクト

部屋が暗いであったり、音質がなんかいまいち悪いという環境下の場合、Geminiの機能を利用してエフェクトを掛けることで向上させることが可能になるようです。Studio Look、Studio LightingやStudio Soundと呼ばれています。ただし、Studio Lightingについては特定のプロセッサである必要がある様子(Apple M1は対応してる)

この機能のうちStudio LookとStudio Lightingが手動で調整しますが、Studio Soundはノイズキャンセリングオンで自動で有効化されるようです。

LookとLightingは背景画像生成時のEffectsにてAppearenceのタブで設定が可能です。

図:エフェクトもAIで調整する時代

リアルタイム翻訳

もともとMeetにはリアルタイム翻訳機能があったわけなのですが、Gemini Enterpriseを利用してる場合にはこのリアルタイム翻訳機能に置き換わるようです。但し、英語⇒日本語は可能でも、日本語⇒英語は出来ない様子。双方向翻訳可能なのは、フランス・ドイツ・ポルトガル・スペインの4つのみ。

会議内容の要約

Duet AI時代より継続してるサービスで3つで構成されています。これらはまだリリースされていない可能性があります。

  • attend for me - 自分の代わりに出席し、伝えたい内容を録画しておく機能
  • summary so far - 会議内容を自動でそれまでの要約を行い表示する機能。遅れて会議に参加した人が追いつくための機能です。
  • take notes for me - 自分の代わりに議事録を取ってくれてアクションや動画の切り抜きを記録してくれる。

といった会議アプリでもってよく利用されそうな補助機能です。

ハウリング防止機能

通常会議室で多数の人が集まってノートPCを開いて会議を実行すると起きるのが「ハウリング」。誰もが一度は経験があるでしょう。故に通常はテレカン用のUSBタイプのスピーカーとマイクを使って参加し、他の人はミュートにしておくというやり方が通常です。

しかし、Google Meet + Gemini for Google Workspaceではこれを検知して、アダプティブオーディオという機能により、不快なハウリングを防止できるようになったようです。また同じ会議室参加の人はグルーピングされて会議メモなども1つに結合されるようです。

アダプティブオーディオはデフォルトでオンにされますが、設定=>音声=>アダプティブオーディオからオフにすることも出来る模様。なお、Gemini Businessでも利用可能なので、Geminiをライセンスとして導入してるアカウントであれば即時に使えるようです。5/22から段階的リリースになってるので今まだ対応していないアカウントでもそのうち使えるようになるでしょう。

図:MeetのGeminiの新機能

ドライブ

こちらの機能はユーザ向けというわけじゃなく、Google Workspaceテナント管理者向けの機能になります。Driveを探索して色々やってくれるのはGemini Chatの方になるので注意。

Google Driveのファイル類に対して、機密データの自動ラベリングをする機能がGemini Enterpriseにて提供されています(DLP機能の1つ)。Cloud Next '24にて発表された機能の1つですね。また利用できるのがBusiness Standard以上となります。自動ラベルの機能の説明についてはこちらにドキュメントが公開されています。

但しトレーニングをしてあげないと行けないようなので、他のGeminiのサービスとは異なり、すぐにでも使える便利なAIというわけにはいかないようです。

Geminiアプリ

自分のスマフォではGoogle Geminiのアプリが使えずの状態(Android13の機種なのに)であるので検証のしようがないのですが、GeminiのアプリはPCのブラウザから使うGemini Chatと違ってDrive連携であったりとかは出来ないようです。Googleのサービスの良さがまるで生かされてない単発のサービスって感じですね。

MapsやらTravelやらは連携して動くようですが、だからといってえきねっとに繋いですぐ購入みたいなことにもならないようで。これまでのウェブの検索のリソースが全然生かされてない感じ。

図:利用者制限してる場合ですかね?

雑感

Google I/Oの前にOpenAIがChatGPT-4oをぶつけて来た内容を見て、さらに自身のGASでの利用なども含めて語ってみると、正直、Gemini for Google Workspaceは時期尚早というか他のAIサービスの進化の具合からしても、利用方法の提示にしても「イノベーションを感じない後追い」でしかない印象。

確かに画像生成などやGoogle Documentのhelp me writeは良いとは思うのだけれど、OpenAIの3週遅れ感が否めない。

おまけに日本語対応がお座なりになってる点が非常に印象が悪く、日本国内企業でこれを導入して使うのにこの価格はちょっと無いというのが結論。同じ金額出してChatGPTのAPI使ってGoogle Workspaceのアドオンでも作ったほうが全然良いもの作れると思います。

これでGemini for Google Apps Scriptが出るのであればまだ期待値はあるのだけれど、GPT-4oのご披露された内容を見ると、画像OCRで表形式をバッチリ抜ける観点からしてGAS利用上もChatGPTのAPI使ったほうがマシなものが作れそう(特にインボイス対応などでは光る)。

現時点ではこれはGWSユーザに無償開放で提供すべきレベルなのではないでしょうか?

※ChatGPTはすでにコード画面見ながらメンターやってくれるようです。ChatGPTのデスクトップ版アプリですね。

生成AIのこれからの可能性

ここではGemini for Google Workspaceに限らず、現在発展中の生成AIが呼び起こす社会変動やユーザレベルでの活動などをまとめています。

図:AIが見守る時代も来るかも

ChatGPTの進化がヤバい

2024年5月13日、ChatGPTがGPT-4oを発表してからウェブ上で進化がヤバいという声が相次いでいます。実際に自分もGPT-4oを試してみました。自分の視点はプログラマブルに処理できるかどうか?実際にこちらの請求書を読み込んでみました。結果はバッチリデータを抜き出せてる。こりゃ、ChatGPT-4oだけでエントリー出来るくらいの時代の転換点来てるかもしれん。1年前にアルトマン追放劇があった会社とは思えない。

自分の視点で見た時のこのヤバさというのは、他の人の視点とは異なり、これまでのGASで実装していたものも含めて列挙すると

  • GoogleのVision APIとか必要なくなります。
  • Googleの翻訳APIもいらなくなります。
  • 同様のことがClaude APIでも可能です。

といった具合に、数々のAPIでもってそれぞれで実装していたような機能が、ChatGPT APIで1本化できちゃうって事です。他の音声文字起こし系のAPIもきっと要らなくなるでしょう。開発スタイル変わっちゃうよコレって話です。ChatGPTがコード生成してくれるとかそういうレベルすらも超えてしまってる。Geminiさん、これ追いつけそう?なんで、GeminiでBlogの記事自動翻訳して全世界同時リリースとかしないの?という心配が。

つまりGCPの数々のAPIで複雑な料金体系と難解なリクエストを組み立てて送らずとも、一発でパキーンっと答え得られてしまうので人間の職が奪われるだけじゃなく、こういったAPIにて受託開発でご飯食べてる会社も終了のお知らせということになります。逆にペッパー君にChatGPT乗っけて復活させれば、Detroit: Become Humanの時代到来です。

さらに言えば、チャットだけじゃなく画像生成も、おまけにAlexa同様喋るようになった(声質はスカヨハみたいだそうで。)のであらゆる業務をおまかせドライブ出来ちゃう結果、他の画像生成AI系サービスやAmazonの音声AIサービスも追い込まれることになります。Google AssistantやAlexaがリストラされてしまうかもしれません。

※ただ、相変わらず嘘はつくみたいです。ハルシーネーション感はGPT-4oでも健在。

図:ファイルを添付してOCR指示を出してみてる

図:バッチリ表のデータも機械的に取れそう

Google Apps Scriptで画像から文字起こしを実現する【GAS】

Google Driveで始める電子帳簿保存 & インボイス制度対応

Google Apps ScriptとCloud Speech APIで文字起こし【GAS】

将来予測

概要

正直なところ、AIには期待しつつ確かに凄いという確証を得つつも、日本という箱庭に住んでいると自分には無関係という意識が働きがちで、自分は大丈夫と思いがちなのですが、わずか1年ちょっとでここまでの進化を見せ付けられると、これは確かにパラダイムシフトであり、シンギュラリティに到達するのも時間の問題だと感じました。

自分の人生でも前述の通り、Win95とスマフォという2つの大きなパラダイム・シフトが起こり、世界のルールがガラっと変わったなと言う経験に匹敵する出来事がAIの進化だと思います。

さて、それらを踏まえて10年後の予測を2つのChatGPTに予想してもらいました。テーマは以下の通り。概ね自分の考えてる未来もこんな感じ。さっさと稼いで山奥の畑と一軒家で隠居するか?この世界で戦い続けるか?どっちかしかないんじゃないかなと。政治家・官僚のような人たちは置き換わって、火の鳥未来編のハレルヤみたいになられても困るけれど。

ただ1つ言えるのはこの未来は遠い未来のお話ではなくもうすぐ来る未来であるということ。

GPT-3.5

GPT-4o

その他

GAS Interpreter

ChatGPT研究所よりリリースされているという、ChatGPTのプロンプトを経由してリクエストを投げるとGASを後ろで実行して処理まで行ってくれるというトンデモナイものです。それがGAS Interpreter。

フリーで公開されてるわけじゃないので自分は試せていないのですが、ChatGPTやGemini for Google Workspaceがいまいちもの足りないなという点は、リクエストに対して答えを返すに終始してて、実際のアクションは自分がやらないと行けなかった点。そこまでわかってるなら、やっちゃってよが出来るのがこの仕組み。

GASで出来るあらゆることが出来るということなので、情シスの管理業務でも利用できそうですが反面怖い気もする。

AGIラボ限定のものだそうなので興味ある方は加入してみてもよいのではないでしょうか?

生成AIツール for Excel

Gemini for Google WorkspaceおよびChatGPT4の最新情報を漁っていたら見つけたのがこの生成AIツール for Excel。Gemini 1.5Pro対応のExcel用のアドインだそうで、APIキーを登録するとすぐ使えるようになってるのだとか。GPT-4 TurboやClaude3 Opusにまで対応してるので主要な生成AI系に対応してることになる。

Excel 2016以降で利用することが可能で、このアドイン自体はこちらから無料でダウンロードして使える。

機能としては各種AIの機能をExcelの関数として実装してるので、関数を入力して使える手軽さがあります。

動画

Introducing GPT-4o

Unlocking efficiency with Gemini for Google Workspace

DAY 1 基調講演(JA)

関連リンク

コメントを残す

メールアドレスが公開されることはありません。 ※ が付いている欄は必須項目です

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)