- 中国の清華大学とZhipu AIの人工知能(AI)研究チームが、画期的な大規模言語モデル(LLM)であるLongWriterを開発
- LongWriterは、最大10,000語のテキスト出力を生成可能で、既存のモデルよりも長い出力を実現
- 研究チームの成果は、arXivプレプリントサーバーで入手可能な論文に詳細に記載
- 既存のLLMは、最大100,000語の入力を処理できるものの、通常は2,000語を超える出力を生成するのに苦労している
- これは、これらのモデルが通常、短い文書で訓練されているためとされている
- 研究チームは、この制限を克服し出力長を向上させるため、変更を加え、新しいモデルの訓練により長い文書を使用
- 研究チームは、従来のデータセットを使用して90億パラメータのLLMを訓練し、2,000語以下の文書が主だったが、このモデルは2,000語までしか生成できなかった
- 性能を向上させるために、彼らはAgentWriteと呼ばれるパイプラインを使用してLLMを変更し、「LongWriter-6k」という新しいデータセットを作成
- 新しいデータセットで変更されたLLMを訓練すると、研究者は約10,000語の文書を生成できることを発見
- 研究チームはこれらの長い文書が一貫性があり、さまざまな文脈で適用可能であると見出し
- 彼らはモデルのオープンソースコードをGitHubで公開し、中国を旅行する人々のための10,000語の観光ガイドを作成することでその能力を示した
自然言語処理の分野において、出力長に関する制限を克服し、10,000語という長大なテキストを生成できるLongWriterは非常に興味深い成果であると思います。短い文書で訓練される既存のモデルの制限を乗り越えるために、長い文書を使用するアプローチが採用された点も注目に値します。このような技術の進歩は、将来的には様々な応用が期待されるでしょう。