日. 8月 2nd, 2026

AI スタートアップ Sierra の新しいベンチマークでは、ほとんどの LLM がより複雑なタスクで失敗することが判明 – SiliconANGLE

ByManagetech

6月 21, 2024

Sierra Technologies Inc.が新しいベンチマークテストを導入し、AIエージェントの実世界でのパフォーマンスを評価
Sierraの𝜏-benchは、AIチャットボットの会話能力だけでなく、複雑なタスクを完了する能力も評価
SierraのAIエージェントは、顧客の問い合わせに対応するためのコンテキストを活かしたAIチャットボットを構築
Sierraの𝜏-benchの結果、他のAI企業もこの分野で進展を図ろうとしており、競合他社のDecagon AI Inc.も35百万ドルを調達
Sierraは、AIエージェントの性能と信頼性を測定するためのより優れたベンチマークが必要と主張
Sierraの𝜏-benchは、リアルなエージェントベンチマークの要件を3つのキーポイントにまとめて設計
Sierraのエージェントは、多様な能力を持っており、開発者がエージェントの振る舞いを指定できるソフトウェア開発キットも提供
Sierraは𝜏-benchをAIコミュニティに公開し、会話型LLMの開発に役立てる予定

Sierraの新しいベンチマークテストはAIエージェントがより複雑なタスクで失敗することを示しており、Sierraのエージェントがより優れたパフォーマンスを発揮すると述べている。

元記事: https://siliconangle.com/2024/06/20/ai-startup-sierras-new-benchmark-shows-llms-fail-complex-tasks/

By Managetech

Related Post

AI とヒューマノイドが 2025 年のロボットのトップトレンドに | ASSEMBLY

3月 18, 2025 Managetech

研究者たちは現在、ロボットに AI を組み込んで物理的な作業を実行させている | ノーザンパブリックラジオ: WNIJ および WNIU

3月 18, 2025 Managetech

マイクロソフトが誤ってWindows 11から嫌われているAI機能を削除したことにユーザーが歓喜

3月 18, 2025 Managetech

You missed

AI software development

ホライゾンの俳優アシュリー・バーチは、ソニーのAIアロイのビデオを見て「ゲームパフォーマンスという芸術形式に不安を感じた」と語る – IGN

3月 18, 2025 Managetech

AI software development

JFrogとNVIDIAが提携し、安全なAI導入を強化

3月 18, 2025 Managetech

AI software development

Mistral AI が、わずかなパラメータで GPT-4o Mini を上回る新しいオープンソースモデルをリリース | VentureBeat

3月 18, 2025 Managetech

AI とヒューマノイドが 2025 年のロボットのトップトレンドに | ASSEMBLY

3月 18, 2025 Managetech