• コンピュータビジョンと自然言語処理の分野は急速に進化しており、特定の下流タスクに適応されたモデルの需要が高まっている。
  • 異なるモデルをfine-tuneすることには複数の欠点があり、それらをマージすることが重要となる。
  • モデルのマージに注目が集まり、WebUIやMergeKitなどの公共ライブラリが開発されている。
  • モデルのマージ方法は3つの主要カテゴリに分類できる。
  • データ不要のマージ方法としては、Linear Mode Connectivity(LMC)を利用した方法があり、各モデルのパラメータを組み合わせる。
  • 一方、データが必要なマージ方法としては、Fisher Mergingなどがあり、各モデルのパラメータを最適化する。
  • 異なるアーキテクチャを持つモデルのマージには、Frankenmergingなどの手法が用いられる。
  • EvolutionaryOptimizationは、基礎モデルを自動的にマージし、最適な結合モデルを見つけるためのフレームワークを提案している。
  • これらの方法は、モデルのマージにおいて異なるアプローチを取り、それぞれの特性を活かすことができる。

マージ方法は、異なるタスクやアーキテクチャにおいても効果的な結果を生み出すため、今後の研究や開発において重要な手法となる可能性があると考えられます。

元記事: https://towardsdatascience.com/beyond-fine-tuning-merging-specialized-llms-without-the-data-burden-1c449c2060c4