7月11日、Arize:Observe @ Shack15にご参加ください →
素晴らしい議論、サポート、そしてランダムな景品が待っています!
この作品はエヴァン・ジョリーとの共著である。
LLM が自然言語処理タスクに優れていることは明らかですが、時系列などの非テキスト データのパターンを分析する能力は、まだ十分に研究されていません。基本的なパターン分析の機能を徹底的にテストせずに、LLM を利用したソリューションの導入を急ぐチームが増えるにつれて、このコンテキストでこれらのモデルのパフォーマンスを評価することがますます重要になっています。
この研究では、次の質問を調査することにしました。コンテキスト ウィンドウ内に大量の時系列データがある場合、LLM はデータ内の異常や動きをどの程度正確に検出できるでしょうか。言い換えれば、株式選択を行う GPT-4 エージェントと Claude 3 エージェントのどちらに資金を託すべきでしょうか。この質問に答えるために、異常な時系列パターンを検出する際の大規模言語モデルのパフォーマンスを比較する一連の実験を実施しました。
これらの結果を再現するために必要なすべてのコードは、この GitHub リポジトリにあります。
GPT-4 と Claude 3 に、時間の経過に伴うデータ ポイントの変化を分析するタスクを与えました。使用したデータは、時間の経過に伴う世界のさまざまな都市の特定の指標を表し、モデルに入力する前に JSON 形式でフォーマットされていました。実際のシナリオをシミュレートするために、データ範囲の 20 ~ 30% の範囲でランダム ノイズを導入しました。LLM には、特定のパーセンテージしきい値を超えるこれらの動きを検出し、異常が検出された都市と日付を特定するタスクが与えられました。データは、次のプロンプト テンプレートに含まれていました。
コンテキスト ウィンドウ全体のパターンを分析し、大量の時系列で同時に異常を検出し、結果を統合して日付別にグループ化することは、LLM にとって簡単な作業ではありません。このテストでは、これらのモデルの限界を押し広げたいと考えました。さらに、モデルは時系列に対して数学的計算を実行する必要があり、これは言語モデルが一般的に苦手とする作業です。
また、異常の期間を延長したり、異常の割合を増やしたり、データセット内の異常イベントの数を変えたりするなど、さまざまな条件下でモデルのパフォーマンスを評価しました。最初のテストでは、異常をすべて同じ日に発生させて同期すると、データの移動ではなく日付に基づいてパターンを認識することで、LLM のパフォーマンスが向上するという問題が発生しました。LLM を評価するときは、モデルが結果を歪める可能性のある意図しないパターンを拾わないように、テストを慎重に設定することが非常に重要です。
結果は驚くべきものでした。Claude 3 Opus は、時系列の異常検出において GPT-4 を大幅に上回りました。この特定の評価が Claude 3 のトレーニング セットに含まれている可能性は非常に低く、その優れたパフォーマンスはさらに印象的です。Claude は、生成テストによる検索で非常に優れた結果を示し、このモデルは引き続き私たちのチームを感心させています。
最初の結果セットは、各異常がデータの 50% の急増であったデータに基づいています。
Claude 3 は、50% スパイク テストの大部分で GPT-4 を上回り、さまざまなテスト シナリオで 50%、75%、70%、60% の精度を達成しました。対照的に、元の GPT-4 のコンテキスト ウィンドウが限られているために使用した GPT-4 Turbo は、タスクに苦戦し、同じテストで 30%、30%、55%、70% の結果が出ました。
クロード 3 の優位性はデータ内で継続され、各異常はデータの 90% の急上昇でした。
Claude 3 Opus は、GPT-4 よりも一貫して時系列の異常を検出し、さまざまなテスト シナリオで 85%、70%、90%、85% の精度を達成しました。実際に言語モデルを信頼してデータを分析し、投資する株式を選択する場合、もちろん 100% に近い精度が求められます。しかし、これらの結果には感銘を受けており、Claude 3 をさらにテストしてどこまで進めることができるかを楽しみにしています。GPT-4 Turbo のパフォーマンスもこれらのテストでは期待外れで、異常検出の精度は 40~50% の範囲でした。
数学的複雑さがモデルのパフォーマンスに与える影響を評価するために、次のように標準偏差を事前に計算してデータに含める追加テストを実施しました。
現時点では、数学は大規模言語モデルの得意分野ではないため、LLM がプロセスのステップを完了できるように支援することで精度が向上するかどうかを確認したいと考えました。
実際、この変更により、完了した 4 回の Claude 3 実行のうち 3 回で精度が向上しました。このような一見小さな変更は、LLM が強みを発揮し、結果を大幅に改善するのに役立ちます。
Claude 3 はこの実験で感銘を与え、このモデルはまさに GPT-4 の競合モデルとして浮上しました。私たちの評価は、検索、分析、合成の複雑な組み合わせを必要とする領域における Claude の能力の具体的な証拠を提供し、モデルのパフォーマンスの差は、金融のようなハイステークスのアプリケーションに LLM を展開する前に包括的な評価を行う必要があることを強調しています。
この研究は、時系列分析における LLM の使用に重要な意味を持ちます。これは、これらのモデルが意思決定やデータ分析タスクで優れたパフォーマンスを発揮する可能性を示しているからです。また、データ漏洩により LLM のパフォーマンスに関する誤った結論が導かれる可能性があるため、正確で信頼性の高い結果を確保するために、慎重なテスト設計が重要であることも強調しています。
これは、今後、予測の精度と信頼性が大きな影響を及ぼす可能性がある状況で意思決定を行う責任が LLM にますます与えられるため、調査すべき重要な分野です。これらのモデルの長所と限界を理解することで、その導入に伴うリスクを軽減しながら、その潜在能力を最大限に活用することができます。
著作権 © 2024 Arize AI, Inc
Arize からの最新ニュース、専門知識、製品アップデートを受け取るには、購読してください。受信トレイは大切なものです。そのため、私たちは最高のものだけを厳選して送信します。
*当社はお客様のプライバシーを尊重します。Arize は、お客様から提供された情報を使用して、関連するコンテンツ、製品、サービスについてお客様に連絡します。これらの通信はいつでも購読解除できます。詳細については、当社のプライバシー ポリシーをご覧ください。
*当社はお客様のプライバシーを尊重します。Arize は、お客様から提供された情報を使用して、関連するコンテンツ、製品、サービスについてお客様に連絡します。これらの通信はいつでも購読解除できます。詳細については、当社のプライバシー ポリシーをご覧ください。
気に入っていただけましたか? ぜひチャットしましょう。このフォームにご記入いただければ、すぐにご連絡させていただきます。
元記事: https://arize.com/blog-course/large-language-model-performance-in-time-series-analysis/