UCaaS LLM で生きる方法を学ぶ、パート 1 | No Jitter

No JitterはInforma PLCのInforma Tech部門の一部です。
このサイトは Informa PLC が所有する企業によって運営されており、すべての著作権は同社に帰属します。Informa PLC の登録事務所は 5 Howick Place, London SW1P 1WG です。イングランドおよびウェールズに登録されています。番号 8860726。
(著者注: この記事は、生成 AI (Gen AI) の助けを一切受けずに書かれており、グラフィックの生成にも AI は使用されていません。)
組織が使用している UCaaS ソリューションから得られる価値と生産性を最大限に高めるには、統合コミュニケーションサービス (UCaaS) プロバイダーが提供する大規模言語モデル (LLM) を活用することが必要になります。この記事では、Zoom、Cisco Webex、Google Meet、Microsoft Teams などのいくつかの UCaaS エコシステム内での LLM の使用について説明します。
この概要を作成した目的は、これらのソリューションを比較することではなく、それらが提供する興味深い機能のいくつかを強調し、それぞれのソリューションが優れている点や印象に残る点について説明することです。
この記事の内容は、著者が Enterprise Connect 2024 で行ったプレゼンテーションに基づいており、3 つの記事に分かれています。
誰もが人工知能 (AI) について語っており、すべてのベンダーが自社のソリューションに何らかの AI 機能を追加しています。この誇大宣伝を考えると、一部の進取的なベンダーが「Smartie-O's」やトイレットペーパーに AI を追加したとしても、私たちは驚かないでしょう。
冗談はさておき、Enterprise Connect 2024 で発表された 173 のセッションのうち、71 のセッションの説明で AI が少なくとも 1 回は言及されていました。これはタイムリーなトピックであり、少なくとも私たちにとって最も重要と思われることについて率直に話し合うべき時期です。
特定の LLM と、それらが UCaaS ソリューションでどのように使用されるかについて説明する前に、生成 AI (Gen AI) の仕組みと LLM のトレーニング方法について簡単に説明しておくと、そのパワーと限界を理解するのに役立ちます。わかりやすくするために、以下では Gen AI と LLM を同じ意味で使用します。
まず、Gen AI とその背後にある LLM は、機械学習 (ML) の概念に大きく依存しています。機械学習には、分類、予測分析、教師あり学習と教師なし学習、ディープラーニングなど、いくつかのサブ分野が含まれます。Generative AI はこれらの機能を活用し、自然言語処理、ビジョン、音声テキスト変換、テキスト音声変換などの他の AI テクノロジも組み込む場合があります。
ニューラルネットワークの概念は、LLM をトレーニングし、それを Gen AI に使用する上で非常に重要です。ニューラルネットワークは、脳を模倣しようとする計算モデルと考えてください。脳は、高度に相互接続されたニューロンのネットワークです。刺激や入力が提示されると、これらのニューロンは発火し、何らかの反応を引き起こすまで他のニューロンを刺激します。
計算ニューラルネットワークは、入力を受け入れ、出力が計算されるまで数学関数を介して計算ニューロンの他の層を刺激するという点で脳を模倣します。
生成 AI モデルは、データ内のパターンを認識するようにトレーニングされ、それらのパターンを使用して新しい類似のデータパターンを生成します。たとえば、生成 AI モデルが英語の単語と文でトレーニングされている場合、ある単語が別の単語に続く統計的な可能性を学習し、それらの確率を使用して、文と呼ばれる一貫した単語のシーケンスを生成します。
生成 AI は、遺伝学、新薬の開発、言語翻訳、画像生成など、さまざまな分野で使用されています。この記事では、文の作成、テキストの修正、テキストの要約、入力からのテキストベースの応答の作成など、言語の観点から生成 AI について説明します。
これまで単語と言語について議論してきましたが、コンピューターは単語ではなく数字を理解します。生成 AI モデルをトレーニングする際、単語は数字としてエンコードされます。単語を数字にエンコードするために使用される単語と単語句には、次の 3 つの重要な側面があります。
LLM は単語を数字にエンコードする際に、トークン化と呼ばれる概念を使用して語彙を作成し、LLM の基礎となるニューラルネットワークをトレーニングするときに使用する個々の単語の数を減らします。トークン化プロセスでは、頻繁に使用される単語を小さなサブワードに分割しないでください。ただし、まれな単語は意味のあるサブワードに分解する必要があります。さらに、接頭辞、接尾辞、およびよく使用される単語の部分をトークン化できます。これにより、特定の単語の形式の数が減ります。
トークン化により、モデルのトレーニングに必要な単語の総数が効果的に削減され、モデルのトレーニングの計算効率が向上します。
単語、フレーズ、文、段落を構成するトークンは、意味、位置、注目度に基づいて、ニューラルネットワークへの入力として使用される複雑な数値マトリックスセットにエンコードされます。ネットワークをトレーニングするときに、入力ノード、ニューラルネットワーク内の隠れ層、および出力ノートの間のパラメーターが計算されます。モデルをトレーニングする際、入力から出力へのこの計算は、順方向伝播と呼ばれます。
出力が計算されると、それが目的の出力またはターゲット出力と比較されます。計算された出力と目的の出力の間の「誤差」が計算され、バックプロパゲーションと呼ばれるプロセスを使用してニューラルネットワークのパラメータが調整されます。ニューラルネットワークのパラメータが調整されると、入力が再びニューラルネットワークにプッシュされ、誤差が測定され、パラメータが再び調整されます。
順方向および逆方向の伝播のプロセスは、計算された出力と目的の出力間の誤差が「小さく」なるまで、つまりニューラルネットワークがトレーニングされたとおりに適切に生成するまで継続されます。
ニューラルネットワークには、さまざまな数のパラメーターを含めることができます。たとえば、ChatGPT 3.5 の調整可能なパラメーターの数は 17 億 5,000 万です。ChatGPT 4 には 1.7 兆個のパラメーターがあり、ChatGPT 4 モデルで使用または計算されるパラメーターの数が 10 倍に増加しています。
この誤差が十分に小さくなり、モデルのパフォーマンスが適度に向上すると、計算されたこれらのパラメータを使用して、会議の要約、会議のアクション項目の決定、アウトラインに基づくテキストの生成などの興味深い作業を行うことができます。現在、Gen AI LLM ではテキストベースの入力が一般的に使用されているため、音声テキスト変換、入力、またはその他の入力メカニズムから得られるテキストの精度が非常に重要です。
Microsoft Copilot、Zoom AI Companion、Cisco AI Assistant for Webex、Google Gemini for Workspace の LLM は、お客様の会社のデータを使用してトレーニングされていないことに注意してください。これらの Gen AI ソリューションは、UCaaS プラットフォーム内で使用される場合、LLM を構築した企業が利用できるデータを使用してトレーニングされた事前トレーニング済みモデルを使用します。トレーニングされた LLM のパラメーターのみが、それぞれの UCaaS ソリューション内で使用されます。
LLM はトレーニング済みですが、特定のドメインや語彙に合わせてトレーニングされていない可能性があります。より関連性の高い応答を生成するために使用できるプロセスがありますが、トレーニング済みのパラメーターは変更されません。たとえば、Microsoft Copilot は、コンテンツ (ファイル、電子メール、チャットメッセージ、連絡先、予定表、会議など) を調べる「グラウンディング」と呼ばれるプロセスを使用します。Copilot は、Microsoft Graph にあるこの情報を使用して、LLM に提供するプロンプトを変更し、LLM への入力フレーズを改善し、LLM からの出力情報を改善します。
多くの人が、同じ入力プロンプトが与えられたときに LLM が異なる応答を返すのはなぜか疑問に思います。LLM には「温度」と呼ばれる調整可能なパラメータがあり、これは出力にどの程度のランダム性が存在するかを決定するために使用されます。まったく同じ質問をされても人がまったく同じ応答を返さないのと同じように、LLM は、応答にランダム性や変動性を持たせるようにプログラムされています。これらはすべて、トレーニングされた文やフレーズ内の単語間の確率に基づいています。
LLM の「温度」パラメータを調整することで、応答をより厳格かつ構造化したり、よりランダムかつ可変にしたりできます。ユーザーは、前述の UCaaS ソリューションの LLM へのインターフェイス内で温度パラメータを調整することはできません。
LLM は単に数字で表される確率モデルであるため、LLM と Gen AI は人間のように単語やフレーズを理解しません。その結果、モデルがトレーニングされている特定の単語やフレーズが一緒に現れたり、定期的に繰り返されたりすると、LLM は幻覚と呼ばれる現象を示すことがあります。幻覚とは、大規模な言語モデルが、事実上正しくない、またはユーザーのプロンプトとは無関係な応答を生成する現象です。
LLM は幻覚を起こす可能性があり、間違いを犯すこともあります。したがって、あなたとあなたの組織がコンテンツに対する最終的な責任を負うため、LLM の出力を確認することは非常に重要です。
この記事のパート 2 はここから、パート 3 はここからご覧いただけます。
Microsoft Teams、Zoom、Cisco Webex、Google Meet での Gen AI に関する 3 部構成の記事シリーズの最終回では、これらのプラットフォームで Gen AI を使用することに伴うリスクとメリットを評価します。
3 部構成の記事シリーズの第 2 部では、主要な UCaaS プラットフォームのそれぞれが、会議の要約とテキストの改良という 2 つの主要なユースケースでどのように機能するかについて説明します。
また、Zingtree は CX ソリューションを開始し、EnGenius はビデオ会議ツールをリリースし、Calabrio は新しいビジネスインテリジェンスツールをリリースしました。
実用的な AI 搭載ツールを考案することは難しいことではありません。難しいのは、企業内で AI に投資するためのビジネスケースを作成することです。

元記事: https://www.nojitter.com/ai-automation/learning-live-your-ucaas-llm-part-1

UCaaS LLM で生きる方法を学ぶ、パート 1 | No Jitter

ByManagetech

By Managetech

Related Post

Immerso と Everdome が提携し、AI を活用した体験を通じてメタバースのイノベーションを推進 – Intelligent CIO APAC

Google が Gemini 2.0 Pro、Flash-Lite を発表、推論モデル Flash Thinking を YouTube、マップ、検索に接続 | VentureBeat

AIニュース: DeepSeekの躍進はAIの巨人に役立つだろうとウォール街のアナリストが語る – The Economic Times

You missed

ホライゾンの俳優アシュリー・バーチは、ソニーのAIアロイのビデオを見て「ゲームパフォーマンスという芸術形式に不安を感じた」と語る – IGN

JFrogとNVIDIAが提携し、安全なAI導入を強化

Mistral AI が、わずかなパラメータで GPT-4o Mini を上回る新しいオープンソースモデルをリリース | VentureBeat

AI とヒューマノイドが 2025 年のロボットのトップトレンドに | ASSEMBLY