現在利用可能な最高のオープンソース生成 AI モデル
企業が生成 AI を導入する際に、独自のツールではなくオープンソースを選択する理由はたくさんあります。
これは、コスト、カスタマイズと最適化の機会、透明性、または単にコミュニティが提供するサポートによるものである可能性があります。
もちろん欠点もありますが、この記事ではそれぞれの選択肢の長所と短所について詳しく説明します。
一般的にソフトウェアの場合、「オープンソース」という用語は、ソースコードが公開されており、ほぼあらゆる目的で無料で使用できることを意味します。
しかし、AI モデルに関しては、それが具体的に何を意味するのかという議論がいくつかありました。これについては、ここで取り上げる個々のモデルについて説明する際に取り上げます。それでは、詳しく見ていきましょう。
最も強力で柔軟な画像生成モデルの 1 つであり、間違いなく最も広く使用されているオープン ソース画像モデルである Stable Diffusion 3 (執筆時点での最新バージョン) は、テキストから画像への生成と画像から画像への生成をサポートしており、非常にリアルで詳細な画像を作成できることでよく知られています。
オープンソース ソフトウェアではよくあることですが、Stable Diffusion の使用は、ChatGPT などの商用の独自ツールを使用するほど簡単ではありません。独自の Web インターフェイスがあるのではなく、DreamStudio や Stable Diffusion Web などの商用組織によって構築されたサードパーティ ツールを介してアクセスします。別の方法としては、ローカルで自分でコンパイルして実行することですが、これには独自のコンピューティング リソースと技術的なノウハウを提供する必要があります。
これは、さまざまなサイズで利用できる言語モデルのファミリーであり、軽量のモバイル クライアントからフルサイズのクラウド展開まで、さまざまなアプリケーションに適しています。ソーシャル メディア プラットフォームで利用できる Meta AI アシスタントに使用されている同じモデルは、自然言語生成やコンピューター コードの作成など、さまざまな用途に誰でも展開できます。その強みの 1 つは、比較的低電力のハードウェアで実行できることです。ただし、ここで取り上げた他のモデルと同様に、Meta はトレーニング データの詳細を公開していないため、これを本当にオープン ソースと見なせるかどうかについては議論があります。
Mistral はフランスのスタートアップ企業で、オープンソース ライセンスで利用できる生成 AI モデルをいくつか開発しています。これには、軽量で低電力ハードウェアに簡単に導入できるように設計された Mistral 7B や、より強力な Mistral 8x22B が含まれます。強力なユーザー コミュニティがサポートを提供しており、非常に柔軟でカスタマイズ可能な生成言語モデルとして位置付けられています。
OpenAI は、LLM の 2 番目のバージョンをオープンソース化しました。これは基本的に、現在 ChatGPT を動かすために使用されているエンジンの以前のバージョンです。これは、後の GPT-3.5 や GPT-4 (GPT-4 の 1 兆を超えるパラメータに対して 12 億のパラメータで構築) ほど大きくも強力でも柔軟でもありませんが、テキストの生成やチャットボットの駆動など、多くの言語ベースのタスクに十分であると考えられています。GPT-2 は、一般にオープンソースの原則に準拠していると考えられている MIT ライセンスの下で OpenAI によって提供されています。
BLOOM は、1,760 億のパラメータに基づいて構築された世界最大のオープンな多言語言語モデルと言われています。開発は、BigScience と呼ばれる世界的な共同プロジェクトの一環として、1,000 人を超える研究者のチームと連携して作業しているオープンソース AI リソースのリポジトリである Hugging Face によって主導されました。その目的は、プロジェクトの Responsible AI License の条件に同意するすべての人が利用できる、真にオープンで透明性のある LLM を作成することでした。技術的には、これは完全にオープンソースではありませんが、ライセンスの条件で定義されている有害な目的で使用されない限り、自由に使用および配布できます。これは、倫理的な AI の開発と配布という極めて重要な領域における非常に興味深い実験です。
この LLM は世界最大のオープンソース モデルであると主張していますが、技術的に真のオープンソースであるための基準をすべて満たしているかどうかについては議論があります。
Grok は、イーロン・マスクが OpenAI から離脱した後に設立したスタートアップ企業 X.ai によって設計および構築されました。この離脱は、AI モデルに関して「オープン」が正確に何を意味するかについての意見の相違が原因であると報告されています。
X は、大規模言語モデルという用語を使用するのではなく、Grok を「専門家の混合」モデルとして説明しています。これは、ベース モデルがより汎用的に設計されており、たとえば ChatGPT の場合のように、対話を作成するために特別にトレーニングされていないという事実を反映しています。
Llama と同様に、Grok のオープンソース ステータスに対する懐疑論は、X.ai がモデルの重みとアーキテクチャを公開している一方で、コードやトレーニング データをすべて公開していないという事実に基づいています。
この LLM アーキテクチャの 2 つのモデルは、その開発者であり、アブダビ政府によって設立された研究機関である Technology Innovation Institute によって無料で提供されています。両モデル (よりポータブルな Falcon 40B とより強力な 180B) はオープンソースとしてリリースされており、Open Face の LLM パフォーマンス リーダーボードで GPT-4 に次ぐ 2 位であると報告されています。小型モデルは Apache 2.0 ライセンス (一般にオープンソースの定義に適合すると考えられています) に基づいてリリースされていますが、大型モデルには使用と配布にいくつかの条件が付けられています。
オープンソースの生成 AI ツールの領域を調査することで、利用可能な多様なオプションが明らかになり、透明性、コスト効率、強力なコミュニティ サポートを実現しながら AI の力を活用したいと考えている企業にとって、これらのテクノロジーが持つ変革の可能性が強調されます。