要約:
- HarveyというGen AIスタートアップが、法的な実務タスクにおける大規模言語モデルのパフォーマンスを定量的に評価するためのベンチマークフレームワークをリリースしました。
- LLM法的推論を測定する従来の作業を補完するものであり、法律家が行うタスクを評価する際の課題の1つは、複雑すぎて多肢選択や’ワンサイズフィットオール’の基準で採点することができないことです。
- Harveyは時間エントリーをモデルベースのタスクに変換し、それを実行するために必要な客観的基準を評価するための基準を開発しました。
- モデルの正確な情報ソーシングの実行可能性もベンチマーク化されており、正しい情報ソーシングに高得点が与えられ、トレーサビリティと検証の欠如に低得点が与えられます。
- Harveyは、主要な基盤モデルを上回る性能を持っていると述べています。
感想:
法的業務における大規模言語モデルのパフォーマンスを評価するためのベンチマークフレームワークの開発は、Gen AI技術の進化と法律業界の革新にとって重要な一歩であると考えます。Harveyが客観的基準を設定し、モデルの精度や有用性を定量的に評価する手法を提供していることは、業界全体の発展に貢献するものと期待されます。今後もさらなる標準化やベンチマークモデルの競争が進む中で、Gen AI技術の進化と法的サービスの向上に向けて重要な議論と取り組みが続くことでしょう。