• Wikimediaのドイツ支部はDataStaxと中国のJina AIと提携し、Wikidata内の膨大なデータをセマンティックベクトルに変換することを目指す。
  • Wikidataは、Wikipediaなどで使用されるデータ、事実、参照の中心的なリポジトリであり、機械が読み取れる形式に整理されている。
  • この新しいイニシアチブは、Wikidataのエントリを機械学習アプリケーションが読み取れるセマンティックベクトルに変換することで、データ解析プロセスを簡素化することを意図している。
  • このイニシアチブにより、オープンソースモデルだけが恩恵を受けることができ、Wikidataに存在するデータはRetrieval Augmented Generation(RAG)にも利用可能になる予定。
  • DataStaxはベクトルデータベース技術を提供し、Jina AIはテキストベースのデータをベクトル化する埋め込みモデルを提供している。

このイニシアチブは、オープンソースAIが商用生成AIモデルに対する現実的な代替手段である可能性を示唆しており、2025年初頭にベータ版がリリース予定。

この記事では、Wikimediaのドイツ支部がDataStaxとJina AIと提携してWikidata内のデータをセマンティックベクトルに変換する取り組みが紹介されています。このイニシアチブにより、オープンソースAIモデルが向上し、データ解析プロセスが簡素化される可能性があります。DataStaxとJina AIが提供する技術がどのように活用されるかが明確に示されており、オープンソースAIの発展に寄与する取り組みとして注目されます。

元記事: https://www.techzine.eu/news/analytics/124498/wikidata-unlocks-its-own-knowledge-base-by-vectorizing-its-data/