• Transformersモデルは、テキストを「トークン」ベースで処理し、トークナイゼーションによりテキストを小さな部分に分割する
  • トークンは、単語や音節、文字などに分割される
  • トークナイゼーションにはバイアスが導入される可能性があり、誤った結果を生むことがある
  • 他言語ではスペースで単語を区切らないため、トークナイゼーションはさらなる問題を引き起こす
  • トークン数を増やすことで、数値や単語の関係性が失われ、数学や言語処理の問題が生じる可能性がある

トークナイゼーションによる課題があり、新しいモデルアーキテクチャが鍵となる可能性がある。

Feucht氏は、トークナイゼーションを全く使用しないMambaByteのようなモデルが将来的な解決策となり得ると指摘している。

トークナイゼーションを克服するための新しいモデルアーキテクチャに期待が寄せられている。

元記事: https://techcrunch.com/2024/07/06/tokens-are-a-big-reason-todays-generative-ai-falls-short/