- Transformersモデルは、テキストを「トークン」ベースで処理し、トークナイゼーションによりテキストを小さな部分に分割する
- トークンは、単語や音節、文字などに分割される
- トークナイゼーションにはバイアスが導入される可能性があり、誤った結果を生むことがある
- 他言語ではスペースで単語を区切らないため、トークナイゼーションはさらなる問題を引き起こす
- トークン数を増やすことで、数値や単語の関係性が失われ、数学や言語処理の問題が生じる可能性がある
トークナイゼーションによる課題があり、新しいモデルアーキテクチャが鍵となる可能性がある。
Feucht氏は、トークナイゼーションを全く使用しないMambaByteのようなモデルが将来的な解決策となり得ると指摘している。
トークナイゼーションを克服するための新しいモデルアーキテクチャに期待が寄せられている。
元記事: https://techcrunch.com/2024/07/06/tokens-are-a-big-reason-todays-generative-ai-falls-short/