南アフリカの人工知能(AI)研究および製品ラボであるLelapa AIは、5つのアフリカ言語を先駆けとして目指す大規模言語モデル(LLM)を導入しました。

  • InkubaLM(Dung Beetle Language Model)は、Swahili、Yoruba、isiXhosa、Hausa、isiZuluなどの低リソースのアフリカ言語をサポートおよび強化するために設計された自然言語処理(NLP)モデルです。
  • InkubaLMは、Inkuba-MonoとInkuba-Instructの2つのデータセットで構成されており、主にオープンソースリポジトリから収集されたデータを使用してモデルを事前トレーニングします。
  • Inkuba-Instructは翻訳、転記、自然言語処理のためのツールを提供しており、機械翻訳、感情分析、名前付きエンティティの認識、品詞タギング、質問応答、ニューストピック分類などに焦点を当てています。
  • Lelapa AIは、MicrosoftのAI For Good Labに感謝し、InkubaLMモデルのトレーニングにおける計算クレジットを取得できたと述べています。

自然言語処理ツールのリリースにより、アフリカの観客向けのこれらのAIツールの開発に関連するいくつかの障壁の解体が促進されています。

アフリカ大陸は多言語が話される melting pot であり、南アフリカなどでは12の公用語があります。しかし、インターネットを席巻する英語を家庭で話す南アフリカ人は10人に1人に過ぎません。これに対し、アラビア語、フランス語クレオール語、ショナ語、スワヒリ語、スワティ語などの言語が含まれます。

Lelapa AIにとって、Inkubaリリースはアフリカ言語の言語モデル機能を向上させることを目指しています。

  • InkubaLMは、対象言語の機能を向上させるためにさらにトレーニングおよび開発できる新しいモデルとして導入されています。
  • Inkubaデータセットは、既存のモデルのパフォーマンスを向上させるために利用可能です。
  • InkubaLMは、次のトークンを予測するためにトレーニングされた自己回帰モデルであり、テキスト生成などのさまざまなタスクに使用できます。

2022年に始まったLelapa AIは、アフリカの視点を通じてAIが解決策やアプリケーションにどのように使用されるかに対処する必要性から設立されました。

このスタートアップの創設メンバーには、Moiloa、Jade Abbott、Vukosi Marivate、Benjamin Rosman、Pravesh Ranchod、George Konidarisなどが含まれており、それぞれ学術、研究、データサイエンス、エンジニアリングのバックグラウンドを持っています。

元記事: https://www.itweb.co.za/article/local-ai-model-is-melting-pot-for-african-languages/j5alr7QABQo7pYQk