- QCon London (4月7日-11日): エンジニアやエンジニア志望者にとっての重要なアーキテクトに関するアドバイスを得る機会。新興トレンドを採用する。
- 2024年の主要分野におけるトレンドと発展について、Daniel Bryantらが話し合う。
- Susan Shu Chang氏による、機械学習と生成AIの橋渡しに焦点を当てたインサイトを共有。
- Neeraj Mainkar氏による、医療機器ソフトウェアの安全性と使いやすさの開発課題についての話。
- Byte Latent Transformer (BLT)に関する情報。Llama 3モデルと同等の性能を持ちながら、50%少ない推論FLOPSを持つ。
- BLTはトークナイザーではなく、バイトパッチの学習動的スキームを使用したLLMアーキテクチャで、新しいスケーリング次元を開く。
BLTは生のバイトデータを直接扱い、モデルのデータ長尾に対する耐性を向上させる。トークン化に代わる堅牢かつスケーラブルなフレームワークを提供し、伝統的なトークンベースのアプローチに有望な代替手段として位置づけられている。
BLTは、トークンベースのモデルよりも大きなモデルを持ち、より良いモデル精度を実現する。その結果、ノイズの多い入力やリソースが少ない言語翻訳などの文字レベルのタスクでBLTモデルがLlama 3を上回ることが示された。ただし、Llama 3モデルをBLTに変換しようとした際には性能が著しく低下した。
元記事: https://www.infoq.com/news/2025/01/meta-byte-latent-transformer/