要約:
- AI4BharatとIBM Research IndiaがパートナーシップでMILU(Multi-task Indic Language Understanding Benchmark)を導入
- MILUは、11のインド言語をカバーし、8つの異なるドメインと40以上の科目を含む85,000の多肢選択問題を提供
- GPT-4は40以上のモデルの中で最高の精度72%を達成
- LLAMA 3.1やGemmaなどのオープンソースLLMがIndic言語固有のモデルよりも優れていると示す
- MILUベンチマークは、INDICGLUE(2020)やINDICNLG2(2022)などの以前のIndic言語ベンチマークに基づいて構築されている
- INDICXTREME(2023)は、22のインド公用語をカバーし、INDICGENBENCH(2024)などの新しいベンチマークが提供されている
- Adithya S. Kolavi氏は、INDICLLM-LEADERBOARDを開発し、LLMの評価をサポート
- Sanskriti Benchは、インド文化ベンチマークを導入し、Indic AIモデルの向上をテストすることを目的としている
感想:
Indic言語理解に関するMILUベンチマークの導入は、インドのAIシステム開発を推進するための重要な一歩となります。GPT-4の成功やLLMの性能向上は興味深い結果です。将来的な取り組みにより、より広範な言語の包括的な評価への取り組みが期待されます。Indic言語への文化的な理解と言語能力を持つAIシステムの開発は、14億人のインド人にとってより効果的なサービスを提供することにつながるでしょう。