- LLMを使用して大規模なデータセットをアノテーションや処理する際、入力トークンを無駄にしている可能性がある。
- LLMを繰り返し呼び出してテキスト断片や文書全体を処理すると、タスクの指示や静的なfew-shot例が各入力例ごとに繰り返される。
- 入力を一緒にまとめることで、大幅な節約が得られる。
- バッチ処理により、指示を繰り返す必要がなくなるため、入力トークンを節約できる。
- バッチ処理により、コストを削減しつつ、性能を犠牲にすることなく実現できる。
自分の考え:
LLMを複数の入力と同時にプロンプトすることでコストを大幅に削減できるのは興味深い。バッチサイズを適切に設定することで、節約が実現できることが示唆される。SAMMOを使用することで、最適な選択肢を見極めることができる点も魅力的である。
元記事: https://towardsdatascience.com/stop-wasting-llm-tokens-a5b581fb3e6e