【2025年夏】これで追いつく!生成AI「Gemini」これだけ知っておけば大丈夫

2025年に入ってからの怒涛の生成AIの進化はこの業界にいる人間でも、キャッチアップしつづけるのが難しいスピードで進んでいます。そうなると、一般の業界にいる人は一体何がどう変わるのか?何が起きつつあるのか?なんて拾いきれず置いてけぼり感を感じる人も多いでしょう。

そこで、2025年夏時点でのGoogleの生成AIであるGeminiにフォーカスし、現時点での「これだけしっておけば大丈夫」というポイントをまとめました。

Geminiの総括

2025年夏の時点までのGemini周り全体の総括・概要としてまとめてみると、1年前と比較した場合に飛躍的な進化を遂げている点や、Googleの覚悟が見られました。そこで初心者向けということも踏まえて、とりあえず抑えて手を動かすだけで実感できる面が多々あるはずです。

生成AIの現状

Geminiに限らず、現時点での生成AIの現状ですが、x.comの反応や研修、様々な記事など反応を注意深く分析してみると、その実態を捉えられておらず、大きな勘違いや思い込みで「使えない」と判断してしまってる人がかなりの数いるようです。

まずは勘違いを正そう

一つ大きな勘違いポイントが「生成AIは何かを自動化してくれて楽になる為のツール」と思い込んでる人が非常に目立ちます。この思い込みの原因が直前にあったムーブメントである「RPAブーム」。自動化に特化した業務自動化の為のツールです。生成AIはその後にメジャーデビューしてるツールであるため、その延長線にあると思い込んでるわけです。

結果、黒い画面にチャット欄というターミナルみたいな画面がボンと出てるだけで、一体何をどうすればいいのかわからない・・・となり、ちょろっと使ってそのまま使わなくなるというパターンが非常に見受けられます。個人的にあのチャット形式は悪手であり高度な人向けと思ってるので、デビューとしてはあまり良いスタートとは思っていません。

本来は文章校正のようにボタンをポンで、高度な文章校正が行われ変更候補を出してくれて、一気に全文修正してくれるみたいな「機能として実装し、生成AIであることを後ろに隠す」といったAPI的手法を取っていたら、もっとスムーズに普及したと思いますが、先行していたChatGPTがチャット形式であったことから、そのまま現在に至るという現状。

生成AIは、それそのものが何かの業務を自動化してくれるツールではありません。どちらかというと自動化ツールの使い方であったり、その為の素材を作り出したり、誤りを訂正してくれたりといった実業務の前後を担うものです。ここはまず生成AIを始める前に訂正しておくべきことでしょう。

※とは言え、日本企業の大半はそのRPAの導入でも失敗してる企業が大半という現実。

RPA導入に於ける注意点

そもそも生成AIとは?

ということで、そもそも生成AIとは?を改めて捉えるとなると

  • 文章や画像といったコンテンツの生成や再編集
  • 曖昧な質問から答えにたどりつく検索エンジンの代わり
  • 課題に対して、アイデアの候補の創出や壁打ち相手になってくれる相棒
  • 自身のスキル不足に対して下駄を履かせて、高度な作業を実現してくれるコードの生成や雛形の生成
  • 1聞いて1返すような対応をせず、懇切丁寧に1聞いて10返すような応対を根気強くできる

こういった領域を担当してるまさに頭脳の部分を実現しようとしてるのがAIであり、とりわけ生成をするという部分にフォーカスしたのが生成AIなのです。

よく言われてるターミネーター的、Detroit Become Human的なAIは、AGIと呼ばれるより高度なAIであり、この延長線上にある存在です。本当の革新はこのAGIが登場した時と言われているので、その前段階が現在の生成AIです。

とりわけGeminiという生成AIだけで見た時には、現在は4つの要素で構成されています。

  • Geminiアプリ:いわゆるチャット形式で問い合わせに対して回答・生成をするスタイルのアプリ
  • NotebookLM:後述の生成AIの弱点を逆手にとって、限られたソースから簡単にチャットボットを生成するアプリ
  • Gemini for Google Workspace : Googleスライドやドキュメント、スプレッドシートといったアプリに直接連動するサイドパネル機能等
  • Gemini API : 既存のアプリから直接機能をプログラムで呼び出せ、機能強化や業務改善に貢献する手段

という構成になっています。これ以外にもGeminiを使った様々なツールなどは存在しますが、この4点を取り敢えず押さえておけば問題ありません。

Playlist: Detroit: Become Human
この再生リストを視聴 YouTube

世界の生成AI利用の現状

各社調べの数値にかなり大きくブレがあるものの、共通して言えるのが現時点での世界での生成AI利用率は非常に高いです。既にもう動き出してると言えます。一方日本国内の生成AI利用率は非常に低く、完全に出遅れと前述の国民性の結果マズイ出だしになっています。しかもその用途のほとんどが翻訳や調べ物程度に留まってる。

さらに若年層の利用率は高いものの、それ以外での利用率が低く、高学歴層での利用率は高いもののそうでない者での利用率が低いなど、デジタルデバイドが目立つ結果が出ています。加えてリスクを嫌って職場で使わせないといった強硬策を打って出る情シスまで出る始末で、結果シャドーITが非常に蔓延してる状況下にあります。

とりわけ日本国内でここまで生成AI活用が低迷している利用は、はっきり言って国民性。そしてそれは将来的な出遅れや致命的な競争における敗北が待っています。0-100思考という極端思考で10%のミスや不確実性があるというだけ「使えない、使わない」という判断を下し、そうこうしてる間に置いてけぼりを食らう。これまでもあったパターンで、過度な品質要求の結果コスト高になり居場所を失ったガラパゴス製品なども同じ国民性が原因です。

現段階で研究し活用方法を編み出し、業務に取り組んでいく姿勢の無い企業はこの先淘汰対象になるでしょう。それは労働者の側も同じです。生成AIに劣るようなスキルしか無いものは失職するほか無い未来が待っています。

我々には関係ない・・・そう思ってる会社、人間。経済はすべて繋がっていること忘れていませんか?何もしないさせないという現状維持思考が最大のリスクであることは頭に留めておくべきでしょう。

リスキリングしないと10年後どうなるのか?

出来ること

とまぁ、散々現状から恐怖を煽ってみたものの、現状出来ることは急激な進化を遂げていて業務に即時に活用できる点はまだまだ限られています。問題はこの適応領域がわずか1年で一気に拡大した点。そんな出来ることを列挙してみました。

適応領域 内容
画像生成・再編集 文章や元画像から新しい画像や、色の変更。景色の変更・装飾追加といったレタッチ作業
動画の生成 文章や写真から数秒間の動画を生成。
曖昧な検索 自然語で目的の答えにたどりつける。Google検索では高度なテクニックが必要であった。明らかに生成AI
関数の作成支援 Excelやスプレッドシートなどで用途に応じた難しい関数式の作成支援が出来ます
操作方法の調査 PDFのマニュアルや取扱説明書を読み込ませ、高度なチャットボットを簡単に作成できます。
情報リサーチ テーマに従って様々な情報収集とレポートの作成までを一気通貫で行えます。
コードの生成 まだ至らない点はあるものの、小規模なコード生成やリファクタリングなどが可能になっています。これから注目の領域でもあります。
文字起こし 動画や音声データ、PDF文書から議事録や文字起こしをし、なおかつ総括してまとめあげてくれます。非常に優秀なOCRでもあるため、外部のOCRサービスはこれで不要になります。
アイデア出し 自分の不得意な領域でも、細かな指示からプラン、ネタ出しをしてくれます。
文書雛形生成 論文やブログ、申請書の類など目的に応じた取りこぼしのない雛形を作れます
文章校正 初期から得意だった領域。タイポ、誤字脱字、言い回し、慣用表現などのデジタル文章校正を一気に行ってくれます。翻訳も専門分野を考慮して行わせることが可能です。
シフト組み 線形計画法を用いた数学的な手法を利用した労働者のシフト組みを行わせられます。グループ班分けといった応用も可能。
情報視覚化 文章データ、数値データからプレゼン資料のような視覚化したインフォグラフィックの生成が可能です。

伊藤園さんの生成AIによるCMは衝撃的でした。AIタレントなのでコストは非常に低い上に、オカシナ不祥事を起こしてCM取り下げなどということもない。タレントを使うことが既にリスクになり始めてる昨今では、自由度も低く高コストなタレント起用がなくなってしまうのでは?なんて事も言われ始めています。

また、昨今のGoogle検索はスポンサーだらけで個人ブログを冷遇、結果目的の答えにたどり着くのに莫大な時間を要する状態になっており、かつてのGoogle検索の姿はありません。そこへChatGPTが出てきてピンポイントに的確な答えを出してくるようになり、一気にこの牙城が崩れました。

近い将来大きな変動があると言われてるのはこの点。故にGoogleも覚悟を決めたというのが昨今の流れです。

今回ここに上げた内容は全体のうちのほんの一部。経理や人事といった領域や、3D CADなどありとあらゆる領域で現在、活用事例が誕生しています。身近な所から「こんな事は実現できないか?」というものが山のように眠っており、そしてその大半は現在実現可能な領域に入ってきています。

日本初!AIタレントを起用したCM第2弾! 伊藤園「お~いお茶 カテキン緑茶」新作TV-CM「食事の脂肪をスルー」篇

生成AIの弱点

一方で、生成AIには明確な弱点があります。ここ数ヶ月様々な角度から研究をした結果も踏まえると以下のような弱点があります。あくまでも現時点での弱点であり、こういった弱点はこれから僅か数年で乗り越えていくのは確実視。限界点を知っておくことで、次世代に至った時に、速やかに対処が可能になります。

弱点 内容
ハルシネーション 所謂事実に基づかない嘘や間違い。知ったかぶりとも言える。膨大な学習ソースの結果、明確に誤ってる答えが含まれてるケースがある。
バイアス 大げさ、紛らわしいなど。過大評価や逆に過小評価もある。故に本来そこまで重要ではないものを過度に重要と捉えて、それを軸に答えを返してるケースがある。
数値計算 実は2024年まではコンピュータなのに数値計算が苦手でした。現在は数理計算モデルが別途用意されてるので、高度な数値計算を徐々に担えるようになってきています。
社内情報アクセス 基本クラウド側にサービスがあるため、社内のNASや機密情報にそのままアクセスが出来ない(あくまで一般的な内容しか返せなかった)。しかしこの点は昨今解消されつつある。社内情報に特化してカスタムな応対も出来つつあります。
最新情報に疎い 学習データに基づくが故に、とりわけ最新情報に対して疎い。よって、こちらから明示的に最新ソースを提示してあげないと古い回答が出てくる(特に法改正などは対応が遅いので、リーガルチェックには向いていない事も多い)
思い込みと袋小路 特にコード生成で顕著。スマートさを求めるあまり泥臭い対応が出来ない。挙げ句正常に動いていたコードまで破壊的変更を加えて動かないことが頻繁にある。頑固で融通の効かない点が顕著で、相当厳し目に制約を加えないと生産性が落ちる可能性があります。
文化的な壁 なにゆえ、米国主導のサービスであるため、画像生成などでの日本語文字化けや、固有の文化に対する理解が低い。そのため、自国では当たり前の知識を持ち合わせていないことがままある。細かな機微やワビサビを求めるとトンチンカンなものが出てくるケースがある。
察することは出来ない 無能な管理職の指示出しのような、察しろ的な指示ではろくな結果は出てきません。よって、緻密で明示的な指示出しが求められ、その指示出しの内容次第で大きく得られる答えが変わります。
再現性 画像の生成などで同じプロンプトでも毎回異なるものが出来上がる。逆に全く同じものを求めても再現することが非常に難しい。

とりわけ、ハルシネーションは当初から言われていた事ですが、問題は人間なら完璧なのか?といったら、それは有りえない話。むしろ、人間は特定領域特化であれば強いのですが、一歩でもその外側に出れば素人同然なんてのも普通のことです。故にことさらハルシネーションを見て、0-100思考でリスクと考え、生成AIに取り組まないというのは早計。

ある意味では人間と同じことが起こるということ。コンピュータ故に完璧さと正確さを求めてしまいますが、そこが前述にも書いた生成AIに対するイメージの間違ってるポイントなのです。

Googleの覚悟

ここ数年のGoogleは完全にイノベーションのジレンマに囚われ、またその売上に占める広告部門の割合が異常に高く、Microsoftと比較してもポートフォリオとして見ても偏ってると言わざるを得ない状態でした。経営上特定の収益源に依存してる構成は非常にリスキーであり、ちょっとした変革の結果、大きく崩壊する可能性がある。

そしてその崩壊を招いたのが外でもないOpenAIによる生成AIであるChatGPTの台頭。Googleが抱えていた問題を端的に時系列で列挙すると

  • 広告部門のパワーバランスが大きくなりすぎて収益依存度合いが異常に高くなっていた。
  • 結果、検索エンジンに於いて、特定スポンサー重視、個人ブログ冷遇が目立ち、目的の情報ですらたどり着くのが難しい状況に
  • ChatGPTで直接ピンポイントに答えを得られるようになり、検索エンジンの存在に疑問符がつき始める
  • 一方で、やり過ぎた広告戦略の結果、一般人に広告ブロッカーが普及し始めるやぶ蛇をつつく結果に。
  • 既に詐欺サイトなどの蔓延がひどく、何を検索しても同じような企業がトップに出てくるようなケースも目立ち、検索エンジンとしての役割が担えず生産性を明らかに悪化させる事態に至っていた。
  • しかし、広告依存であるためそれを全否定する生成AIに軸足をおけず、Googleは完全に出遅れる
  • この状況の打破の為に広告部門含め大規模リストラ敢行。生成AIやテックに対して比重を高める措置へ。
  • 生成AI登場の結果、SEO対策が無意味になりつつあり、既にニュースサイトの一部ではクリック率や流入率が大幅激減が報告されている(QiitaやZenn、StackOverflowも昔ほど見なくなりましたねぇ)。QAサイトの多くは維持できなくなり消滅すると思われます。
  • 同時に様々なWebサービスが全て生成AI一本で片付くで、多くのWebサービスが潰れるという予測(後述のSaaS is Deadを参照)
  • 今後、多くの生成AI系以外のプログラマーについては、リストラが進行し淘汰される。

近い将来、所謂これまで数十年の間続いてきた、広告モデルというビジネスモデルは崩壊すると思われます。自身のジレンマやこれから訪れる未来の為に、大幅に舵を切った経営判断がなされてる所に、Googleの覚悟が見えたと言えます。

SaaS is Dead

そんな中言われてるのが、SaaS is Dead論。ありとあらゆるSaaSサービスは生成AIに飲み込まれて終焉を迎えるという話題。x.comでもこの件でざわついてる人が多いです。当たり前の話なのですが、どんな業種業界も時間を経て成熟すれば山のてっぺんに近づき、そこに立てる人は限られる。経済の当たり前の結論です。いよいよIT業界もその領域に入ったということ。

生成AIによってなぜSaaS is Deadと言われるのか?を端的に列挙すると

  • 思いつきレベルのWebサービスや単発のサービスなど、生成AI側が対応すればすぐに飲み込まれる
  • 生成AIでほとんどの事が片付くなら、特定の分野のSaaSなど利用する必要性も課金する理由もなくなる
  • 高度なスキルを必要とせずに人間の自然語で生成が出来るので、スキルによるアドバンテージが無くなる(特定ソフトウェアの習熟といった必要性がなくなる上に、専売特許でも何でも無くなる未来)
  • Webサービスだけでなく絵師や写真家によるストックサービスも不要となり、購入者が激減が予測されている。
  • 生成AIでほぼ成立するならば、日本独自のSIerのような仕組みは一部を除いて不要となり、事実経済産業省からもレガシー脱却の指南が出ている
  • 最終的に検索エンジンという存在が不要になる
  • QAといったようなナレッジ系のサービスも、生成AIのほうが的確で余計な人間関係トラブルも無いので廃れていく。
  • スキルのアドバンテージが無くなるということは、フリーランスの様々な仕事も激減する見込み。一部のトップオブトップだけが生き残る。関連するクラウドお仕事サービスも影響を免れない

ツールとしてのSaaSだけでなく、素材集やら受託開発といったものまで含めて、あらゆる領域にその影響は及び、そして「不要になる」という結末を迎えるというのがSaaS is Deadの本質です。

但し、エンジニアの方々の大きな勘違いは、SaaSと言っても専門分野は残るという点。他の十把一絡げのプラスアルファのSaaSと一緒くたにして論じてる点が大きな間違い。例えば、SmartHRやバクラクといったようなバックオフィス系のサービスは「法対応」であったり、「書式対応」といったものが含まれ、当然その領域の深い専門知識が要求される。組み込み分野やミドルウェアも同様に置き換えられるようなものではないので、生き残るでしょう。

こういった分野はSaaSと言っても生き残るが、それをもってして他のSaaSが生き残れるということにはならないという事。昨今は過剰なサブスク要求で異常にITコストが企業経営を圧迫するという「やり過ぎ感」が極めて目立って問題視されており、多数の高給取りなエンジニアは粛清されると思われます。

よって、基幹業務システムの中心となるようなものや、プロ仕様の一部の高額ツール以外のSaaSは死滅するであろうというのが答えになるのではないかと思います。本当にそのSaaSサービス必要ですか?ただの贅沢なのでは?断捨離して寄せるべきなのでは?

【AI エージェントとは】「今後エクセルが不要になる」とMicrosoftのCEOサティア・ナデラは予想。「Vertical AI Agents」や「SaaS is Dead」発言なども解説!

Daniel Khachab: "We Are in the Middle of a Cold War for AI Talent" | E1220

Gemini各アプリについて

Gemini for Google Workspace

かつてDuet AIと呼ばれその後リブランドし、Google Workspaceの各サービスと直結して動作するGeminiの一つの形がGemini for Google Workspace。出た当初の話題をまとめたものは以下のエントリーになりますが、当初は正直「使い物にならない」というのが率直な評価でした。

しかし、わずか1年程度でようやくその方向性が明確になったのか、今ではかなり粒よりの機能が揃ってきました。但しBusiness StarterとBusiness Standardでは出来る幅がかなり異なるので、以下はBusiness Standardでの事例になります。

  • ドキュメントやメールの要約や文章校正、ドラフト作成支援
  • スプレッドシートに対するダミーデータ生成
  • 同様にスプレッドシートに対しての複雑な関数の数式作成支援(そのまま数式をインサートや設定変更実行なども一部出来るようになってきてる)
  • テーマに従ったスライドの生成(但し1枚単位。ここはChatGPTに大きく劣ってる)
  • ドキュメントやスライドにおけるImagen4を利用した高品質な画像の生成と挿入
  • 新アプリである動画作成アプリのVidsにてVeo3を利用した動画の生成と挿入、アバターの追加などが可能に
  • Google Meetにおけるリアルタイム文字起こし(同時翻訳有り)や議事録作成機能
  • AppSheetにおけるアプリのテンプレート作成支援(Gemini in AppSheet
  • AppSheetにおけるPDFからの請求データ取り込みやラベル分類機能(AI Task

まだまだ、他のアプリからすると現場寄りのこれぞっという機能が無く、Meetの自動議事録が画期的かなぁという印象(これだけでも、他社の自動議事録サービスは完全に不要になります)。画像生成は概ね問題なくですが、動画生成は1日の生成回数も限られている為、今後の発展に期待といった感じです。

Google Vidsで楽しい動画作成方法

Gemini for Google Workspaceの実力ってどれだけあるのか?

NotebookLM

生成AIの大きな弱点であるハルシネーション。しかし、社内や組織に十分整備されたナレッジがあるならば、その内容だけを利用して専門のチャットボットを作ろうというのがNotebookLM。投下された資料のみから回答をするので実質ハルシネーションが起きません。ドキュメンテーションに力を入れて評価していた企業にとっては朗報です。

また、これまで悪質SIerによる程度の低いチャットボットに数百万円も払っていたものが一切不要になります。誰でも簡単にPDF、Youtube動画、音声データ、ドキュメントなどを追加するだけの簡単仕様ですので、あえて必要なのはプロンプトでの指示出し方法だけ。NotebookLMだけの音声概要生成機能や、マインドマップ機能など独特のものもあるので、今一番熱いと言われてるサービスになっています。

生成AI界隈でのスマッシュヒットなサービスなのではないかと思います。詳しい内容は以下のエントリーにまとめています。

Youtube動画の要約機能は衝撃的で、動画を見ずともその内容を文字起こしした上でまとめ、検索する質問することが可能となるので、Youtuberにとってはかなりの脅威となる存在です。

Notebook LMで自分だけの専用生成AIを作ろう

Geminiアプリ

概要

Google Geminiの一番の中核を担う顔と言えるアプリがGeminiアプリ(旧Gemini Advanced)。Google WorkspaceでGemini活用と言ったらこのアプリが中心となります。しかし、見ての通り、蛋白な画面に入力欄があるだけというそっけないUIであるため、初心者の多くが最初の一歩を踏み出せずに躊躇する画面でもあります。

その本質は後述の生成AI活用術にまとめていますが、明確な使い方というのが存在し、まずはそれを身につける必要性があります。

Geminiアプリでは他にも

  • Gemsと呼ばれるあらかじめ複雑な指示出しなどをまとめたテンプレートを作成可能
  • Deep Researchと呼ばれる情報収集・レポートの作成機能
  • Canvasと呼ばれるプレビューを見ながらコード生成やインフォグラフィック、音声概要を作成する機能

が備わっており、拡張機能からはGoogle Workspaceの各アプリに対してアクセスして情報をGeminiアプリ側から指示出しで操作・抽出といったことも出来るようになっています。

こちらと次項のAPIがGemini利用の本懐となるため、NotebookLMやGemini for Google Workspaceをある程度利用できるようになったら、こちらにチャレンジしてみるというのがスムーズな学習ルートになります。

 

図:Gemsを使ってる様子

図:ドキュメントからインフォグラフィック作成

図:pongを作ってもらってみた

2025年アップデート Google Geminiの新機能

Geminiの大きな特徴

GeminiはGoogleが自身の持つ巨大なインフラ基盤上で動作してるサービスであるため、他社生成AIサービスと比較して大きな特徴がいくつかあります。

  • 自社基盤のGoogle Cloud上で構築してる為、そのサーバー資源の割り振りはGoogleの匙加減でどうにでもなる(他社は外部基盤に依存するため、自身の持つ資本力や外部リソースの確保次第、外注コストと制約がつきまとう)
  • 入力トークン1,048,576、出力トークン65,536と非常に大きい為、膨大な文書やソースコードデータを丸投げして問い合わせと、結果を受け取ることが出来る。
  • 最先端のAIサービスのテストがGoogle AI Studioで利用できる(但し学習対象になるので要注意)
  • Google Workspaceとシームレスに繋がってるので認証周りで苦労することはない
  • コマンドライン版Geminiの登場によりローカル環境との連携も可能になった
  • 基本有償アカウントの場合、学習対象外となるなることが保証されている
  • また、本アプリを使ってデータ生成を行った場合の著作権上の問題についてはGoogleが責任を持つことが明記されている

Microsoft Azure同様に巨大なインフラ基盤を自前で持っているのは非常に大きいです。また、Gemini以外でも収益源を持っている為、生成AIオンリーのOpenAIとは大きくインフラ面での制約が違う。何よりもそれを活かすGoogle Workspaceという土台も持っている為、生成AI利用のシームレス差が大きい。

また、OpenAIは莫大な投資をした結果として知名度や利用度は抜群であっても、実態はマネタイズ出来ていないのが現状。自前で用意し自前でマネタイズ基盤を持ってるGoogleとこの点でも大きな差があります。このあたりの差はビジネスユースでは大きな要因となるため、Geminiが技術面で追いついた場合、形勢逆転する可能性を秘めています。

図:Gemini Cliのトップ画面

指示出し方法の基本

ポイント

Geminiアプリだけじゃなく、Gemini全般で共通して重要になるのがその指示出し方法。後述で指示出しサンプルを掲載していますが、これはAPIから利用する時でも同様に必要になります。指示出しの質の差がそのまま得られる回答の精度に大きく左右してしまうので、その流儀をきちんと身につける必要があります。

主なポイントは以下の通りです。

  • 質問内容は詳細に、的確で理路整然と行う
  • 細かい指示や要素、制約条件等に関しては箇条書きで列挙する(#や##といったMarkdown形式が望ましい)
  • 否定語をなるべく使わず、肯定表現の言い回しで指示出しをすると良い(◯◯をしてはならない等は否定語の代表例)
  • 質問冒頭で、生成AIに対して明確な役割を与える(あなたは優秀な経理マンですといった具合)
  • 何らかの出力を伴う場合には、出力事例を出してあげる(例えばJSONの構造やCSVの構造など)
  • 思考手順の指示出しをして誘導してあげる(ロジカルシンキングの演繹法と帰納法のように)
  • 指示出しの例示が得意ではない場合には、テーマだけ与えて指示出し方法自体を生成してもらうのも選択肢の1つ
  • 出来ない場合には素直に「出来ないと返してください」と指示出ししておくことで、無理やり間違った回答を防ぐことも肝要
コード生成時の注意点

一方で、プログラムコードの生成やその修正の場合には、現在のGemini 2.5 Proを使うことが推奨されています。しかし、実際にやってみるとわかるのですが、前述の弱点にもあるようにちょっと気になる問題点があります。故に事前にこれらの事象を引き起こさないように、ここでは制約要件という形で、Geminiの行動を一定範囲内で制限してあげたほうが最短の道にたどり着く可能性が高いです。

  • エラーが出た際の修正をさせる場合に、割と頻繁に破壊的変更を行い、結果動いていた他の機能まで動かなくなる
  • 破壊的変更を割と平然と行う一方で、人間的な発想の転換といったことに至らない。
  • かと思えば、全く違う公式ではないモジュールを推奨しはじめて、ちゃぶ台返しするケースがある。
  • スマートなコード生成をあまりにしよう固執した結果、袋小路に突き当たるケース
  • シンプルなコードではなく、複数の関数に分割したがり、補助関数を多数作った挙げ句動かない。
  • コードの最適化の面では実際に20%ほど速度上昇など良い点もあるものの、他の処理と整合性が失われるケースがある
  • 冗長ではあるものの現場的なテクニック(泥臭いコード作成)をなかなかやろうとしない為、いつまで経っても課題が乗り越えられない頑固さがある。
  • REST APIなどに於いてはその制約条件を把握していないケースがあり、無理のあるリクエストやハルシネーションが多い(故に参考のURLを添付しておくだけでも随分違う)。
  • 現在は単発の関数作成程度ならばかなり優秀であるものの、複数の関数にまたがっての処理や、並列で複数のリクエスト処理を実装するようなケースで破綻することがままある
  • 以前指示して於いた内容を忘れて、完全に抜けているコードを再提示するケースがある。
  • 10桁の時間ベースのUNIXTIMEと、13桁の日時ベースのUNIXTIMEが混在して混乱するケースが結構多発
  • 正しいと思い込んで猪突猛進するケースがある。

といったように、ちょっと扱いにくい部分があり、それに付き合って丸投げしてると、行ったり来たりや検証方法も冗長であったりするので、ある程度利用者側にコードが書けるスキルが求められる。

図:沼にハマった事例

指示出し事例

以下は請求書データをOCRして答えを返してもらう際の指示出しの事例です。これでかなりの精度で答えを得ることが出来ています。出力方式が今回はプログラムで使ってる為、CSVやJSONという指示出しにしていますが、Gemsなどで使う場合にはここをGoogleスプレッドシート形式という指示にしておくことで、Geminiアプリでも使いやすくなります。

あなたは経理の担当者です。アップロードされたPDFデータより数字や文字を読み取って文字起こしをしてください。

#重要事項
- 不明な項目がある場合は、正直に「N/A」と記入してください。
- 取得した値はダブルコーテーションで括ってください
- 回答は配列に格納して返してください
- 出力事例に従ったデータだけを返してください。余計な解説や説明は一切不要です。

#請求書の項目の説明
1. 請求元の会社名
2. 請求書発行日付
3. 請求金額合計
4. Tの文字からはじまる14桁の適格請求書発行事業者に発行される番号
5. 消費税8%部分の金額
6. 消費税10%部分の金額

#請求書の中の明細についての説明
請求書の中にある請求に対する明細については4つの項目を取得してください
1. 品目や品名などの請求に対する項目名を「品目」として取得
2. 数量はその数を取得
3. 単価はその品目に対する単価にあたる金額を取得
4. 金額は数量 * 単価の結果の金額を取得
5. 明細は複数行ある場合があるのでそれを考慮して配列で取得

#出力する内容
出力事例に従ったJSON形式でデータは返してください。請求書の項目についてはseikyuという中に出力し、明細についてはmeisaiという中に出力してください。

#出力事例
{
  "seikyu" : [
    ["請求元会社名","請求書発行日付","請求金額合計","インボイス番号", "消費税8%", "消費税10%"],
    ["株式会社xxxx", "2024/5/3", "45000", "T1234123412341", "2800",""3500]
  ],
  meisai : [
    ["品目","数量","単価","金額"],
    ["◯▲お品代","2","2500","5000"],
    ["付属費用","1","1000","1000"],
  ]
}

Gemini APIの活用

自身の作成しているアプリからAPIを利用してGeminiを活用し、自作アプリに対して高度な機能を追加することが可能になっています。GASやNode.jsといったプログラミング言語からの利用の他に、AppSheetでは実装できないような機能もGASを利用して増強することが出来るなど非常に利点が高いです。

特徴的なのは、Geminiアプリのようなプロンプトのインターフェースも持たせて使うのではなく、アプリの1機能の裏側で走らせて結果を得るというライブラリ的な使い方をするのが定石です。自身でも多くの現場向けのアプリを作成していますが、代表的な例は以下のエントリーにまとめています。

あくまでも一部であり、このサイトでも多数のサンプルを公開していますので、ご自由にコピーして利用してみてください

利用するに当たっては、APIキーを用意であったり、Google Cloud側での課金アカウントの準備などが必要になります。Google WorkspaceにはGeminiアプリは付帯しているので無償で一定枠利用できますが、Gemini APIはその枠外であるので課金額に注意が必要です。

Google Apps ScriptとGeminiで請求書データを全部抽出する【GAS】

AppSheetとGeminiを使ってアルバイトシフト表を生成する【GAS】

Geminiを使ってVBAからGoogle Apps Scriptに変換する仕組みを作る【GAS】

生成AIプロンプト事例

ここまででおおまかな概要や用途、そしてGeminiの各種アプリケーションについて掴めたのではないかと思います。前述にもありましたが、生成AI活用の肝は如何に「詳細で緻密な指示出し(プロンプト)を作れるかどうか」に掛かっています。API利用の場合でも同様で、プログラム全体はほとんどどのような用途でも9割は同じコードです。

いくつかのパターン例示を以下にまとめてみました。

検索エンジン代わりに利用する

概要

本来検索エンジンというものは、調べ物をするにあたりユーザーは答えがわからない、キーワードを知らないからこそ使っているものです。しかし現在のGoogle検索は前述の有り様である為、ユーザー側に相応の検索スキルが無いと、まずキーワードへの到達すら困難な状況にあります。

故にユーザーの質問は曖昧且つ部分的な情報のみがある状態であり、ここから検索するということは当然「曖昧な質問」となります。

このケースに於いて、ユーザーが生成AIで答えを得る為にするべき手順は以下の通り

  • 出来うる限り箇条書きで手元にある情報を列挙する
  • 調べる目的を明確にし、出てきた回答に対して追撃の質問をして、本来の真の目的へたどり着く

今回、昔見たテレビ番組のある植物がわからず、この植物の名前を知るという目的と、それを扱ったテレビ番組名を知るという本来の真の木体へたどり着く為のプロンプト事例をあげます。

植物の名前を調べる

指示するプロンプトは以下の通り。Gemini 2.5 Flashで十分だと思います。

写真が無い状態であり、名前もわからない植物があります。以下のような特徴があったように思えますが、植物の名前を教えて下さい。

#赤い実がなる
#この実は猛毒である
#この実は食べずとも接触している状態でも人体に強い影響がある
#TV番組ではこの実で作ったブレスレットで、装着者が猛毒に侵されるというケースを紹介していた
#和名がきちんとある

この情報だけで見事目的の赤い実の正体である「トウアズキ」という植物を特定することが出来ました(またその毒性の主成分がアブリンであることも判明。これが1聞いて10返してくれる生成AIの良いポイント)。確かにテレビ番組であつかっていたのはこの実でした。Google検索では当然このプロンプトのような指示は出せない為、絞り込み検索を駆使したり、1つずつページを開いては、中身を読んで・・・

といった情報を探す・調べるという作業に多大な時間を毎回割く必要がありました。しかもこれはあくまでもまだキーワードの特定のみです。どのテレビ番組でやっていたのか?が真の目的です。

図:見事目的の植物の名前をヒット

追撃質問でテレビ番組名を調べる

続けて、プロンプト欄に対して以下の質問を追撃します。いきなり全部の回答に辿り着こうとせず、徐々に質問を繰り返して答えにたどり着くというスタイルが生成AI活用の重要なポイントになります。

このトウアズキを扱ったテレビ番組で、なおかつブレスレットにした被害などを取り扱った番組は何ですか?

生成AIは前の質問内容を常に踏まえているので、追撃質問はシンプルでオッケー。この番組特定って実際やってみればわかりますが、Google検索ではかなり大変な作業です。しかし生成AIであれば追撃質問の一撃で特定することが出来ました。ここまで所要時間2分程度。

見事、2017年1月18日放送の「世界の何だコレ!?ミステリー 人生を狂わせた猛毒ブレスレット」という形で放送された番組を特定することが出来ました。あとはこの放送名をGoogle検索すれば該当のページが見つかる寸法です。

図:番組特定もあっという間に

デジタル文章校正

生成AI登場当初から非常に良い成績を出していたのがデジタル文章校正。Googleドキュメント等で人間の目で見て校正をするのではなく、生成AIを利用することで極めて的確な文章校正が可能です。こちらについてはよく利用する為、Gemsにして活用するほうが使い勝手が良いのと、GeminiアプリとGemini for Google Workspaceで随分結果が異なるので、Geminiアプリで利用することをオススメします。

Gemsでのプロンプトは以下の通り

あなたは、文章校正のプロです。おかしな言い回しやおかしな文字などを見つけることが得意です。
指定された文章の中で、以下の内容に対して特に注目し、文章校正を行い、校正結果をGoogleスプレッドシートに出力してください。

#チェックする内容
- タイポ
- ですます調の不統一
- 慣用表現の言い回しも誤りチェック
- 言葉の誤用((例:すべからくの使用例))
- 商品名等で間違った記述
- 句読点の使い方
- 誤字脱字
- 型と形のように使いまわし上の漢字の使用ミス
- サービス名や製品名に対しては、前後に半角スペースが入ってるかチェックして、入っていなければ追加してください(例: google workspace )
- くどい言い回しや、前後の文章と比較して連続して使われてるワード(例えば、「しかし」を連続で使ってる等は、回避すべき言い回しです)。

#Googleスプレッドシートへの出力
- 正誤表形式で出してください
- 列は2列で、元文章の間違った文字、修正候補の文字の2列でお願いします。

このGemsを利用した質問では以下のような問題を入力して添削してもらいます。

以下の文章の校正をしてください。おかしな点だけをピックアップして、訂正した結果だけを箇条書きで列挙してください。 
2020年12月31日、ついに公式にAdobe Flash Playerが終了しまそた。
ソレ以前からもChromeなどの主要ブrouzaがセキュリティ的に問題ということで、いわゆるプラグイン型式のサポートを終えて(chromeあ88で終了してる)フラッシュ文化は完全に終りを迎えました。
しかし、一部のフラッシはHTML5に変換されて復活をしていたりします。その変換用ライブラリがruffinと呼ばれるもので、安全にFlashを変換し実行することができます。

結果はGemsの指示通り、Googleスプレッドシート形式の正誤表形式で出力してくれました。あとはこれを用いて、置換を行っていけば、文章のおかしな点をすべて修正可能です。

図:Gemsでプロンプトを用意した様子

図:添削をしてもらった結果一覧

Google Apps ScriptでClaude APIを日本語で叩いてみた【GAS】

関連リンク

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)