• CEOマット・シューマーは、AIライティングスタートアップHyperWriteのReflection 70Bを「世界最高のオープンソースモデル」として位置付け
  • Reflection 70Bは、GPT-4oを上回り、Llama 3.1 405Bを圧倒すると述べられた
  • 独立した第三者評価により、CEOの主張が再現できないことが判明し、CEOは後に謝罪
  • 業界としては、信号とノイズを区別し、将来のモデルのためのベンチマークをどのように合意するかが重要視されている
  • 業界は透明性を重視し、モデルの重みを提供し、第三者の検証を求めるべきであり、ベンチマークは現実とは異なることを誤解すべきではない

私の考え:信頼性の高いAIモデルを構築するためには、透明性と検証が不可欠であり、ベンチマークはあくまで一側面を評価するものであることを認識する必要があります。科学的なテストとビジネス目標のバランスを取りながら、地道なデータ駆動の取り組みが重要であると感じます。

元記事: https://www.ibm.com/blog/llm-benchmarking-debate/