IBM が 6.48 TB の LLM トレーニングデータセット全体を公開

5月、IBMは企業向けに最適なGranite 13B LLMをオープンソース化しました。

Armand Ruiz氏、IBMのAIプラットフォームのVPは、Granite 13Bのトレーニングに使用される包括的な6.48 TBデータセットを公開しました。

データセットは厳密な前処理を経て、2.07 TBに縮小され、68%の削減が実現されました。
Ruiz氏は、このステップが企業向けの高品質で偏りのない、倫理的かつ合法的なデータセットを確保するために不可欠であると強調しました。

データセットは、以下のソースから入念にキュレーションされました：

テキスト抽出
重複排除
言語識別
文の分割
憎悪、虐待、卑猥なアノテーション
文書品質アノテーション
URLブロックリストアノテーション
フィルタリング
トークン化

これらのステップは、定義された閾値に基づいてのアノテーションとフィルタリングを含み、最終的なデータセットがモデルトレーニングに最適な品質であることを確保しました。

IBMはGraniteコードモデルの4つのバリエーションをリリースしました。これらのモデルは、3から34兆のパラメータを持ち、他の類似モデルであるCode LlamaやLlama 3を多くのタスクで上回っています。

LeetCodeは主に選択ではなく除外を意図していましたが、これがエンジニアリングにおける否定的なトレンドを生み出しています。

Cypher 2024が米国に拡大し、AI革新のギャップを埋め、企業AI導入の課題に取り組んでいる方法をご覧ください。

AIM India#280, 2nd floor, 5th Main, 15 A cross, Sector 6, HSR layout Bengaluru, Karnataka 560102

AIM Americas99 South Almaden Blvd. Suite 600 San Jose California 95113 USA

この記事では、IBMがGranite 13B LLMをオープンソース化し、そのトレーニングに使用されるデータセットの重要性について詳しく説明しています。データセットが高品質であり、企業向けに適したものであるために行われた厳密な前処理の過程や、モデルトレーニングのための最終的なデータセットの品質が確保されるための取り組みが強調されています。また、IBMがリリースしたGraniteコードモデルについても触れられており、他のモデルを上回る性能を示していることが述べられています。

元記事: https://analyticsindiamag.com/ibm-reveals-its-entire-6-48-tb-llm-training-dataset/

IBM が 6.48 TB の LLM トレーニングデータセット全体を公開

ByManagetech

By Managetech

Related Post

Immerso と Everdome が提携し、AI を活用した体験を通じてメタバースのイノベーションを推進 – Intelligent CIO APAC

Google が Gemini 2.0 Pro、Flash-Lite を発表、推論モデル Flash Thinking を YouTube、マップ、検索に接続 | VentureBeat

AIニュース: DeepSeekの躍進はAIの巨人に役立つだろうとウォール街のアナリストが語る – The Economic Times

You missed

ホライゾンの俳優アシュリー・バーチは、ソニーのAIアロイのビデオを見て「ゲームパフォーマンスという芸術形式に不安を感じた」と語る – IGN

JFrogとNVIDIAが提携し、安全なAI導入を強化

Mistral AI が、わずかなパラメータで GPT-4o Mini を上回る新しいオープンソースモデルをリリース | VentureBeat

AI とヒューマノイドが 2025 年のロボットのトップトレンドに | ASSEMBLY