期待と現実: 生成 AI の現実世界での検証

生成 AI は、カスタマイズされたキーボードを購入したり、新しい最高 AI 責任者を雇ったりする必要があるほど重要なのでしょうか。それとも、過熱した興奮と投資は、組織にとってまだ大きな利益を生んでいないのでしょうか。
Gen AI は、機械学習 (ML) の単一使用モデルから、多くの分野で使用できるプラットフォームとなることが期待される AI ツールへと私たちを導きますが、解決したい問題に対してそれが適切であること、そしてユーザーが Gen AI を効果的に使用する方法を知っていることを検証する必要があります。
楽観的な予測には必ず、急いで導入することに対する警告がある。複数の調査によると、多くの人が個人用と仕事用の両方で定期的にジェネレーション AI ツールを使用しており、PageDuty の最近の調査によると、フォーチュン 1000 企業の 98% がジェネレーション AI を試しているという。しかし現在、組織は公式導入に関してはより慎重なアプローチを取っているようだ。
たとえば、Foundry の 2023 年 AI 優先事項調査では、IT 意思決定者の 4 分の 1 が世代 AI テクノロジーを試験的に導入していますが、導入に移行しているのは 20% にすぎません。CCS Insight の従業員テクノロジーと職場変革調査の上級リーダーも同様の回答を示しており、2023 年末までに 18% がすでに全従業員に世代 AI を導入しており、22% が導入の準備ができているとのこと。「人々は今年中にそれが現実になるのを見たいと思っています」と、CCS Insight のエンタープライズリサーチ責任者である Bola Rotibi 氏は言います。しかし、Intel の 2023 年 ML Insider 調査の AI 専門家のような IT チームと話をしたところ、2023 年に世代 AI ソリューションを本番環境に導入する組織はわずか 10% であることが示唆されました。
世代 AI への投資、パイロット、計画を発表していない組織のリストを作成する方が短いですが、生産性の向上や ROI の詳細について話している組織は比較的少数です。しかし、それは成功の欠如についてであるのと同じくらい、競争上の優位性を守ることについてである可能性があります。
たとえば、最近の Google Cloud Next カンファレンスで、ゴールドマンサックス、IHG、メルセデスベンツなど多くの Google 顧客が同社の Gemini 世代の AI ツールを使った構築について話していましたが、まだ導入段階ではなく、パイロット段階であることが判明しました。
もちろん、パイロットは単なる実験以上の価値を提供できます。マッキンゼーの報告によると、LLM を利用したユーザー調査の要約と AI 生成画像をアイデア創出と実験に使用している工業デザインチームは、製品開発サイクルタイムが 70% 以上短縮されることがあります。しかし、これらのデザインチームは、現実的で実際に製造可能な製品を生み出すために、gen AI 出力の大幅な評価と操作を行う必要があることも強調しており、ポリシーの設定、従業員の教育、パイロットスキームの実行が依然として推奨されています。同様に、エスティローダーは、顧客インサイト、行動調査、市場動向についてトレーニングされた社内チャットボットなどのパイロットから価値を見出し、それらの分析をビジネスでより広く利用できるようにしていますが、実際にその価値を実現する方法はまだ検討中です。
ジェネレーション AI ツールをタスクや役割に特化した垂直アプリケーションに分けるか、知識労働者に広く役立つより一般的なツールに分けるかという点では、組織は後者をより迅速に導入できるようです。
予想通り、Microsoft は、自社のスタッフが、Microsoft 365 向け Copilot などの市販の AI ツールから大きな価値を得ていると主張しています。「当社の優秀なユーザーは、1 か月あたり 10 時間以上を節約しています」と、Microsoft の最新業務およびビジネスアプリケーション担当 CVP の Jared Spataro 氏は述べ、Copilot ユーザーの 70% が、生産性が向上し、作業時間が最大 3 分の 1 速くなったと述べています。
Telstra などの顧客も、早期導入者について同様の時間節約を報告していますが、Forrester の Copilot for Microsoft 365 担当主任アナリスト JP Gownder 氏は、1 か月あたり 5 時間ほどの節約がより一般的であると示唆しています。もう 1 つの疑問は、それが組織全体にどの程度拡大するかです。たとえば、日本の大手広告代理店である電通は、Copilot for Microsoft 365 に非常に熱心で、スタッフは 1 日あたり最大 30 分の作業時間を節約できると主張しています。
これまでのところ、Copilot の採用は、彼が「ポケット」と呼ぶ領域で行われる傾向があり、これは、ほとんどの世代の AI の導入がマーケティングと販売、サービスとサポート、製品開発などの特定の部門で行われているという McKinsey の報告と一致しています。
マッキンゼーが調査した通信事業者は、他の業界と同様に楽観的かつ抑制的な姿勢を示しており、大多数がジェネレーション AI でコストを削減したと主張し、コールセンターエージェントの生産性が向上し、パーソナライズされたコンテンツでマーケティングのコンバージョン率が改善された。どちらのモデルも、数か月ではなく数週間で導入された。一方、顧客サービスやマッピングネットワークインフラストラクチャ以外では、影響は小さい。
マイクロソフトの初期のテスト顧客の一部は、すでにパイロットから広範な展開に移行しています。Microsoft 365 Copilot の最も初期のトライアルの 1 つは、世界的な法律事務所 Clifford Chance で実施されましたが、同社は現在、Azure OpenAI 上に構築されたカスタム AI ツール Clifford Chance Assist とともに、これを全従業員に展開しています。同社は、gen AI からの法的出力はすべて明確にラベル付けされ、資格のある弁護士によってチェックされることに注意を払っていますが、繰り返しになりますが、主なメリットは、ライブトランスクリプト、会議の要約、会議からの暗黙のコミットメントと合意されたタスクの両方など、ナレッジワーカーの生産性向上です。
「これは生産性を高め、時間を節約し、優れた人間のアシスタントとなることができる素晴らしい技術です」とガウンダー氏は言います。「しかし、これは私たちが過去 40 年間にコンピューティング分野でリリースしてきたツールとは異なります。本当に成功するためには、この技術には学ぶべき特性があります。」
彼は、組織の AI 指数を評価するための一連の質問を提示しています。
もう 1 つの課題は、スタッフにジェネレーション AI ツールをワークフローの一部に取り入れてもらうことです。「Copilot に非常に期待していて、素晴らしい体験をしているという人もいます」と Gownder 氏は付け加えます。しかし、生産性の向上を実感しているユーザーもいますが、残りの半分はツールを使っていないという問題もあります。多くの場合、これは企業がトレーニングに桁違いに投資していないことが原因です。
Copilot for Microsoft 365 を評価しているほぼすべての大手企業は、スタッフのトレーニングを、彼が提案する 10 時間ではなく 1 時間だけ計画しています。「これはコアスキルであり、トレーニングに投資する必要があります。そうしないと、痛い目に遭うでしょう」と彼は言います。これは、gen AI の導入を成功させるため、また、Photoshop から Zoom まで、商用ソフトウェアで一般的になる gen AI 機能と自然言語インターフェイスを最大限に活用するために重要です。
ドキュメントエンジニアリングなどの分野では、gen AI の成功事例があります。Docugami は、顧客独自の複雑なドキュメントからナレッジグラフを構築するカスタムの小さな言語モデルを提供しており、ドキュメント生成とデータ抽出の両方に使用できます。
また、商業保険は、Docugami の CEO である Jean Paoli 氏が早期導入した分野であり、価値明細書、保険証書、更新日、罰金、および負債が記載された保険契約書などが含まれています。これは、個々の顧客とポートフォリオ全体のリスクを説明する重要な情報であり、新しい見積もりを生成するために、またはポートフォリオを再保険会社に提示するために手動で抽出して統合することは困難でした。「これらは、数百ドルではなく、数百万ドルを節約できる実際のシナリオです」と Paoli 氏は言います。
Docugami の大手顧客は他の顧客と同様に、2023 年に gen AI 委員会を立ち上げてパイロットを開始しましたが、多くはすでに発見から実装に移行し、少なくとも 6 か月前に実稼働環境への展開を開始して実際の利益を得ていると、最高ビジネス責任者のアランイェーツ氏は言います。ライフサイエンス分野では、ある顧客が臨床試験の文書化、コンプライアンス、およびデータ探索にこのプラットフォームを使用しています。「以前はこの作業に 6 か月かかっていましたが、今では 1 週間で済みます」と同氏は言います。
コーディングは、GitHub Copilot、Google の新しい Gemini Code Assist、AWS CodeWhisperer、または開発者専用ではない ChatGPT などのツールなど、本番環境での gen AI の採用がますます一般的になっているもう 1 つの分野です。
ただし、生産性の向上は当初ははるかに低い可能性があります。シスコが GitHub Copilot を 6,000 人の開発者に初めて導入したとき、生成されたコードが受け入れられたのは 19% だけでした。現在では、コード提案のほぼ半分が受け入れられています。Redfin によると、開発者の時間を 1 か月あたり 6 分節約するだけでコストを回収できますが、コード品質など、組織が追跡したい他の指標もあります。
しかし、専門知識の少ないシチズンデベロッパーが支援からより多くのメリットを得られるローコードプラットフォームでは、AI ジェネレーションのメリットがはるかに高くなる可能性があります。デジタル保険代理店の Nsure.com はすでに Power Automate を広範に使用していましたが、自動化フローを自然言語で記述する方が、ドラッグアンドドロップインターフェイスよりもはるかに高速です。作成と構成に 4 時間かかっていたワークフローが、Copilot for Power Automate を使用すると 40 分近くで完了します。これは 80% 以上の改善です。
また、マイクロソフトの顧客である PG&E は、Power Platform のローコード Copilot Studio gen AI ツールを使用して Peggy という IT ヘルプデスクチャットボットを構築し、従業員のリクエストの 25 ～ 40% を処理して、年間 110 万ドル以上の節約を実現していると、Microsoft Copilot AI のプリンシパルプログラムマネージャーである Noa Ghersin 氏は言います。また、従業員が SAP へのアクセスをロック解除するまで Peggy がガイドしてくれるため、ヘルプデスクチームだけで年間 840 時間の節約になります。
ローコードと RPA のために Power Platform をすでに導入している組織では、Cineplex のチケット払い戻しなど、複数のワークフローから選択できるプロセスを Copilot Studio で調整することで、自動化をさらに強化できることに気づいています。以前は、自動化されていてもエージェントは払い戻し処理に 5 ～ 15 分かかっていましたが、今では 30 ～ 60 秒で済みます。
月額サブスクリプションは高額に思えるかもしれませんが、オンデマンドの gen AI ツールのコストを正確に見積もることは難しく、一部の導入が制限される可能性があります。個々の gen AI タスクのコストはわずかですが、小さなコストでも積み重なると大きな金額になります。
「コストは、サードパーティベンダーに依頼する場合でも、社内で行う場合でも、gen AI で考慮しなければならない主な点です」と、LinkedIn の主席スタッフソフトウェアエンジニアである Juan Bottaro 氏は言います。同氏のチームは最近、プレミアムユーザー向けに、ユーザーのプロフィールを使用して、求人広告に適任かどうか、またどのようなスキルや資格があればチャンスが広がるかを提案する新しい gen AI 機能を導入しました。
「エクスペリエンスがはるかに成熟していると感じたため、もっと早く進めたかったことが何度かありましたが、十分な容量と GPU がなかったため、待たなければなりませんでした」と彼は言います。
「新しいワークフローのコストを予測するのは難しく、使用法に関する想定はおそらく間違っているだろう。なぜなら、人々がこれとやりとりする方法は大きく異なるからだ」と彼は付け加えた。代わりに、少数のユーザーに展開し、その行動から推測するのだ。
プロトタイプ作成のスピードが劇的に速く、ほとんど騙されるほど速いため、最初はコスト削減が見られるかもしれません。意図を理解するための分類器のトレーニングとテストには通常 1 ～ 2 か月かかりますが、彼のチームはわずか数日で、提供したいもののプロトタイプを作成することができました。「1 週間で、完成品のようなものができます」と Bottaro 氏は言います。「1 ～ 2 か月で、現在プレミアムエクスペリエンスで目にするものに非常に近いものを構築することができました。」
しかし、希望の 80% の状態から、展開に必要な品質レベルに到達するまでには、通常、さらに長い時間がかかります。この場合、さらに 4 か月かかります。
CCS Insight の Rotibi 氏は、gen AI パイロットにおける技術的またはコスト管理の失敗から教訓を得るにはまだ時期尚早であると述べていますが、ユーザーは他のクラウドサービスと同様に、API 管理ゲートウェイを介してクラウド AI サービスへの送信リクエストの割り当てとレート制限を検討できます。大多数は、価格設定のため、gen AI の使用を特定の役割、個人、またはチームに制限することを計画しています。「組織全体に広げるには多額の費用がかかります」と彼女は言います。
自己申告による生産性は、必ずしもジェネレーティブ AI 導入の成功を測る最良の方法ではなく、導入の成功によって重要な指標が変わる可能性もあると Gownder 氏は言います。「ティア 1 サポート全体をジェネレーティブ AI に任せ、非常に優れた自然言語処理能力があれば、成功率は上がります。そのため、人間が関わるすべての問題が難しくなります」と同氏は言います。「よりロングテールで、きめ細やかなサポートが必要であり、指標は通話時間の長さよりも顧客満足度に関するものになります。」
gen AI の結果の品質と精度を測定することは、非決定論的であるため困難です。同じ入力でも、毎回異なる結果が得られる可能性があります。正確で一貫性があれば、必ずしも欠陥ではありませんが、評価が難しくなります。そのため、比較するための既存のツールがない限り、パフォーマンスを評価するためのベンチマークを作成する必要があります。
「何かが正しいか間違っているかを定義するのは非常に主観的になり、測定が難しくなります」とボッタロ氏は言います。
ツールを評価するために、チームは適切な応答がどのようなものであるかについての共通ガイドラインを作成しました。同様に、Copilot for Azure を支える Ask Learn API 向けに、Microsoft は、テストするためのグラウンドトゥルースの参照データと、回答の品質を表す指標を含む、代表的な注釈付き質問と回答の「ゴールデンデータセット」を構築しました。
組織は、ジェネレーション AI を導入することでお金を節約できるかどうかよりも、お金を稼げるかどうかに関心があることが多いと、ロティビ氏は指摘します。「これは、従業員の生産性向上と効率向上につながると考えられます」と彼女は言います。「しかし、組織としてどこでお金を稼ぐのでしょうか?」
真の ROI の実現を実証しなければならないというプレッシャーはあるものの、まだその段階には達していないと Gownder 氏は付け加えます。Copilot for Sales のような役割に特化したツールを、コンバージョン率、取引フロー、通話解決までの平均時間の改善に結び付けるのは簡単かもしれませんが、変数が多すぎる場合は直接的な因果関係を想定するのは危険だと Gownder 氏は警告しています。
しかし、定量化が難しいメリットでも、TCO の観点からは価値がある場合があります。「たとえば、Copilot を従業員に提供することで、時間の節約になるだけでなく、面倒な作業が軽減されるとします」と Gownder 氏は言います。「これにより、従業員エクスペリエンスが向上する可能性があります。従業員エクスペリエンスのメリットにより離職率が低下し、従業員のモチベーションとエンゲージメントが高まることがわかっています。心理的な面から見て、生産性に多くのプラスの影響があります。」
しかし、ジェネレーション AI と LLM に対する熱意が状況を複雑にしていると、ボッタロ氏は言います。「私たちは、『絶対に作りたいから、価値を測定する方法を見つけよう』という問題に直面しています。これは、物事を間違った方向に見ています」。彼は、あらゆる製品に使用するのと同じ成功指標の目的関数に戻り、一部のユースケースでは従来の AI で十分である可能性を受け入れることを提案しています。
どこで gen AI を採用するのが適切なのか、ユーザーが不正確な回答を反駁の余地のない真実として受け入れないようにするにはどうすればよいのか、著作権のある素材と不適切な素材の両方がトレーニングセットに含まれていることへの懸念など、正当な疑問があります。しかし、否定的な宣伝や恐怖をあおる行為はリスクを誇張し、gen AI を責任を持って採用すればすでに実行できる有用なことを無視する可能性があります。
報告されている世代AIの失敗は、モデル自体の固有の問題だけでなく、限界を試すユーザーの無責任な行動や、十分なガードレールを設置するためのAI搭載ツールの導入を組織が怠ったことにも起因することが多い。恥ずかしいことに、2023年のある時点で、OpenAI自身の1億7500万ドルのVCファンドが偽の身元によって管理されていたが、これはAI搭載ツールを古き良きビジネス詐欺に利用した人物の単なる一例にすぎないようだ。
gen AI に関するその他の懸念としては、ディープフェイクやより単純なデジタル偽造、トレーニングセットに使用されるデータの著作権に関する潜在的な法的リスク、機密データや秘密データに gen AI を使用する場合のコンプライアンスに関する疑問などが挙げられます。
あらゆるクラウドモデルと同様に、責任の共有という概念が重要です。AI プロバイダーは安全に使用できるモデルとサービスを提供する必要がありますが、AI サービスを採用する組織はモデルカードと透明性に関する注記を読み、使用方法が適切に制限されているかどうかをテストする必要があります。
「チャットボットで顧客対応に力を入れすぎて、一貫性のない回答を得ていることに気付いた組織もあります」とガウンダー氏は言う。しかし、それは通常、プロジェクトを放棄することを意味するわけではない。「おそらく、プロジェクトを中止して、顧客にリリースする前にオフラインで繰り返し試してみるでしょう」と同氏は付け加える。
一般的に、ジェネレーション AI の組織的成熟度は AI の成熟度に追随する傾向があり、ジェネレーション AI を導入しているほとんどの企業は、それが他の分野への投資に役立っていると述べている。「企業は予測 AI、コンピュータービジョン、機械学習への投資を増やしています」と Gownder 氏は言う。独自の AI ツールを構築している企業は複数のテクノロジーを使用しており、ジェネレーション AI をソリューションではなくコンポーネントとして扱っている。
次世代 AI の誇大宣伝に対する最善の修正方法は、それを画期的な技術であると同時に、道具箱の中の単なるツールのひとつとして見ることだ、とボッタロ氏は言う。

元記事: https://www.cio.com/article/2096857/expectations-vs-reality-a-real-world-check-on-generative-ai.html

期待と現実: 生成 AI の現実世界での検証 | CIO

ByManagetech

By Managetech

Related Post

ホライゾンの俳優アシュリー・バーチは、ソニーのAIアロイのビデオを見て「ゲームパフォーマンスという芸術形式に不安を感じた」と語る – IGN

JFrogとNVIDIAが提携し、安全なAI導入を強化

Mistral AI が、わずかなパラメータで GPT-4o Mini を上回る新しいオープンソースモデルをリリース | VentureBeat

You missed

ホライゾンの俳優アシュリー・バーチは、ソニーのAIアロイのビデオを見て「ゲームパフォーマンスという芸術形式に不安を感じた」と語る – IGN

JFrogとNVIDIAが提携し、安全なAI導入を強化

Mistral AI が、わずかなパラメータで GPT-4o Mini を上回る新しいオープンソースモデルをリリース | VentureBeat

AI とヒューマノイドが 2025 年のロボットのトップトレンドに | ASSEMBLY