• Answer.AIとLightOnがModernBERTを発表
  • ModernBERTはGoogleのBERTより速く、効率的で質が向上
  • エンコーダーのみのモデルは、以前のモデルより4倍速くテキストを処理し、メモリを少なく使用
  • ModernBERTは、Web文書、プログラミングコード、科学論文から2兆トークンでトレーニング
  • テキストを8,192トークンまで処理可能、通常の512トークン制限のエンコーダーモデルの16倍

ModernBERTは、Google Gemini Flashを含む他のオプションよりもはるかに高速かつ安価で、ローカルで実行可能

開発者は、ModernBERTがRAGシステム、コード検索、コンテンツモデレーションなど多くの実世界アプリケーションに適していると述べている

ModernBERTは139百万パラメータのベースモデルと395百万パラメータの大規模バージョンの2つのバージョンで利用可能

開発者は、新しいアプリケーションの開発を促進するためにコンペティションを開催

Googleは2018年にBERTを導入し、Google検索を主な用途として使用

BERTはHuggingFaceで最も人気のあるモデルの1つで、月間ダウンロード数は6800万を超える

現在の記事では、Answer.AIとLightOnがModernBERTと呼ばれる新しいオープンソース言語モデルを発表しました。このモデルは、GoogleのBERTよりも速く、効率的で品質が向上しています。モデルの特徴として、文字列を処理する速度が4倍速くなり、メモリ使用量が少なくなっていることが挙げられます。また、ModernBERTは、プログラミングコードで広範にトレーニングされた初めてのエンコーダーモデルでもあります。これにより、実世界のさまざまなアプリケーションに適しています。

開発者は、ModernBERTが高速でコスト効率が良く、ローカルで実行可能であることを強調しています。また、モデルはHugging Faceで利用可能であり、既存のBERTモデルの直接置き換えとして利用できます。今後、さらに大規模なバージョンもリリース予定であり、新しいアプリケーションの開発を促進するためのコンペティションも開催されています。

Googleが2018年に導入したBERTは、Google検索を主な用途として使用されており、HuggingFaceでも人気の高いモデルの1つです。

元記事: https://the-decoder.com/modernbert-is-a-workhorse-model-that-brings-faster-cheaper-text-processing-for-tasks-like-rag/