著者: David Pierce。編集長兼 Vergecast 共同ホスト。消費者向けテクノロジーの取材で 10 年以上の経験を持つ。以前は Protocol、The Wall Street Journal、Wired に在籍。
Apple が AI の分野で遅れをとっていると考えるのは簡単だ。ChatGPT が世界を席巻した 2022 年後半以来、Apple の競合他社のほとんどは、追いつこうと競い合ってきた。Apple は確かに AI について語り、AI を念頭に置いた製品もいくつかリリースしているが、真っ先に飛び込むというよりは、つま先を浸しているだけのようだった。
しかし、ここ数ヶ月の噂や報道によると、Apple は実際には行動を起こすのをただ待っていただけだったようだ。ここ数週間、Apple が自社の AI 機能の一部を強化するために OpenAI と Google の両社と交渉中であるとの報道があり、同社は Ajax と呼ばれる独自のモデルにも取り組んでいる。
Apple が発表した AI 研究に目を通すと、Apple の AI へのアプローチがどのように実現されるかが見えてくる。もちろん、研究論文に基づいて製品の想定を行うのは、非常に不正確な科学である。研究から店頭に並ぶまでの道のりは曲がりくねっていて、落とし穴だらけだ。しかし、少なくとも同社が何を考えているのか、そして 6 月に開催される年次開発者会議 WWDC で Apple が AI 機能について語り始めたときに、その AI 機能がどのように機能するのか、その大筋はつかめるだろう。
皆さんも私も、ここで同じことを望んでいるのではないでしょうか。それは、より優れた Siri です。そして、より優れた Siri が実現しそうな気配が漂っています。Apple の多くの研究 (そして多くのテクノロジー業界、世界、あらゆる場所) では、大規模な言語モデルによって仮想アシスタントがすぐにより優れた、よりスマートなものになるという仮定が立てられています。Apple にとって、より優れた Siri を実現するには、それらのモデルをできるだけ早く作成し、どこにでも確実に導入する必要があります。
iOS 18では、AppleはすべてのAI機能をデバイス上の完全オフラインモデルで実行することを計画していると、ブルームバーグが最近報じた。データセンターのネットワークと何千もの最先端のGPUがあっても、優れた多目的モデルを構築するのは困難だが、スマートフォンの内部だけでそれを実現するのはさらに困難だ。そのため、Appleは創意工夫を凝らさなければならない。
「LLM in a flash: 限られたメモリで効率的に大規模言語モデルを推論」という論文(これらの論文はどれも本当に退屈なタイトルですが、本当に興味深いです!)で、研究者は、通常はデバイスの RAM に保存されるモデルのデータを SSD に保存するシステムを考案しました。「SSD 上の利用可能な DRAM の最大 2 倍のサイズの LLM を実行できることを実証しました」と研究者は書いています。「CPU での従来の読み込み方法と比較して、推論速度が 4~5 倍、GPU では 20~25 倍高速化されました。」デバイスで最も安価で利用可能なストレージを利用することで、モデルをより高速かつ効率的に実行できることが分かりました。
Apple の研究者たちは、LLM を大幅に劣化させることなく、LLM をはるかに小さいサイズに圧縮できる EELBERT というシステムも開発した。Google の Bert モデルを圧縮したものは 15 分の 1 (わずか 1.2 MB) で、品質の低下はわずか 4 パーセントだった。ただし、遅延とのトレードオフはあった。
一般的に、Apple はモデルの世界における根本的な緊張関係を解決しようとしています。モデルが大きくなればなるほど、より良く、より便利になりますが、同時に扱いにくくなり、電力を大量に消費し、動作が遅くなることもあります。他の多くの企業と同様に、同社はこれらすべての要素の適切なバランスを見つけようとしながら、すべてを実現する方法を模索しています。
AI 製品について話すとき、私たちがよく話題にするのはバーチャル アシスタントです。つまり、物事を知っていて、私たちに思い出させてくれて、質問に答えてくれて、私たちに代わって物事をこなしてくれるアシスタントです。ですから、Apple の AI 研究の多くが、Siri が本当に本当に本当に優れていたらどうなるかという 1 つの疑問に集約されるのは、それほど驚くべきことではありません。
Apple の研究者グループは、ウェイクワードをまったく使わずに Siri を使用する方法に取り組んでいます。「Hey Siri」や「Siri」を聞き取る代わりに、デバイスはユーザーが自分に話しかけているかどうかを直感的に判断できるかもしれません。「この問題は、音声トリガー検出よりもはるかに困難です」と研究者は認めています。「音声コマンドの始まりを示す先導トリガーフレーズがない可能性があるためです。」別の研究者グループがウェイクワードをより正確に検出するシステムを開発したのもそのためかもしれません。別の論文では、アシスタントが十分に理解できないことが多いまれな単語をよりよく理解できるようにモデルをトレーニングしました。
どちらの場合も、LLM の魅力は、理論上ははるかに多くの情報をはるかに迅速に処理できることです。たとえば、ウェイクワードに関する論文では、研究者は、不要な音をすべて破棄するのではなく、すべてをモデルに入力して、重要なものと重要でないものを処理させることで、ウェイクワードがはるかに確実に機能することを発見しました。
Siriがあなたの話を聞くと、AppleはSiriがよりよく理解し、よりよくコミュニケーションできるようにするために多くの作業を行っています。ある論文では、STEER(Semantic Turn Extension-Expansion Recognitionの略語なので、ここではSTEERとします)と呼ばれるシステムを開発したとしています。これは、あなたがいつフォローアップの質問をしているのか、いつ新しい質問をしているのかを把握しようとすることで、アシスタントとのやり取りを改善することを目的としています。別の論文では、LLMを使用して「あいまいなクエリ」をよりよく理解し、どのように言ったとしても何を意味しているのかを理解します。「不確実な状況では、インテリジェントな会話エージェントは、積極的に適切な質問をすることで不確実性を減らすために率先して行動する必要があり、それによって問題をより効果的に解決する必要があるかもしれません」と研究者は書いています。別の論文もその手助けを目的としています。研究者はLLMを使用して、アシスタントが回答を生成する際の冗長性を減らし、理解しやすくしました。
Apple が AI について公に語るときは、生の技術力よりも、AI が実際に日常的にできることに重点を置く傾向がある。そのため、Siri に多くの注目が集まっている一方で (特に Apple が Humane AI Pin、Rabbit R1、そして Google が Android 全体に Gemini を投入し続けているようなデバイスと競争しようとしているため)、Apple は AI を有用だと考えている方法は他にもたくさんあるようだ。
Apple が注力すべき分野は明らかに健康です。LLM は、理論上は、さまざまなデバイスが収集する膨大な生体認証データを調べ、その意味を理解するのに役立ちます。そのため、Apple は、ユーザーのすべての動作データを収集して照合する方法、歩行認識とヘッドフォンを使用してユーザーを識別する方法、心拍数データを追跡して理解する方法を研究してきました。また、Apple は、複数の身体センサーを装着した 50 人の参加者からデータを収集し、「最大規模のマルチデバイス、マルチロケーション センサー ベースの人間活動データセット」を作成し、公開しました。
Apple は AI をクリエイティブ ツールとしても捉えているようだ。ある論文では、研究者が多数のアニメーター、デザイナー、エンジニアにインタビューし、Keyframer と呼ばれるシステムを構築した。このシステムは、「ユーザーが生成されたデザインを繰り返し構築および改良できるようにする」ものだ。プロンプトを入力して画像を取得し、別のプロンプトを入力して別の画像を取得するのではなく、プロンプトから始めて、ツールキットを使用して画像の一部を好みに合わせて微調整および改良する。このようなやり取りの芸術的プロセスは、Memoji クリエイターから Apple のよりプロフェッショナルな芸術的ツールまで、あらゆる場所で見られるだろう。
別の論文では、Apple は MGIE と呼ばれるツールについて説明しており、これを使うと、編集したい内容を説明するだけで画像を編集できる (「空をもっと青くする」、「顔をもっと変にしない」、「岩を追加する」など)。「簡潔だが曖昧な指示の代わりに、MGIE は視覚を意識した明確な意図を引き出し、合理的な画像編集を導きます」と研究者は書いている。最初の実験は完璧ではなかったが、印象的だった。
Apple MusicにもAIが採用されるかもしれない。「リソース制約型ステレオ歌声キャンセリング」という論文では、研究者らが歌声と楽器を分離する方法を研究している。これは、たとえばTikTokやInstagramのように曲をリミックスするツールをAppleがユーザーに提供したいと考えている場合に便利かもしれない。
いずれ、特に iOS では、Apple がこのような機能に力を入れていくだろうと私は確信しています。Apple は、その一部は自社のアプリに組み込み、一部は API としてサードパーティの開発者に提供するでしょう (最近の Journaling Suggestions 機能は、それがどのように機能するかを知るためのよいガイドになるでしょう)。Apple は、特に平均的な Android デバイスと比較して、常に自社のハードウェア機能を誇示してきました。そのすべてのパワーをデバイス上のプライバシー重視の AI と組み合わせることは、大きな差別化要因になる可能性があります。
しかし、Apple で進行中の最も大規模で野心的な AI を見たいなら、Ferret について知っておく必要があります。Ferret は、指示を受け取り、丸で囲んだり選択したりした特定のものに焦点を当て、その周囲の世界を理解できる、マルチモーダルの大規模言語モデルです。デバイスに周囲の世界について質問するという、今では一般的な AI の使用例向けに設計されていますが、画面に表示されているものも理解できる可能性があります。Ferret の論文では、研究者らが、アプリの操作、App Store の評価に関する質問への回答、見ているものの説明などに役立つ可能性があることを示しています。これは、アクセシビリティにとって非常にエキサイティングな意味合いを持ちますが、携帯電話の使用方法、そして将来的には Vision Pro やスマート グラスの使用方法も完全に変える可能性があります。
話が先走りすぎているが、これが Apple が取り組んでいる他のいくつかの機能とどのように連携するかは想像できるだろう。ユーザーの要求を理解できる Siri と、ディスプレイ上で起こっていることをすべて認識して理解できるデバイスを組み合わせれば、文字通り自分で操作できる電話が完成する。Apple はすべてのものとの深い統合を必要としない。アプリを実行して適切なボタンを自動的にタップするだけでよいのだ。
繰り返しますが、これはすべて研究段階であり、この春からすべてがうまく機能するようになれば、本当に前代未聞の技術的成果となるでしょう。(チャットボットを試したことがあれば、それほど優れているわけではないことはご存知でしょう。)しかし、WWDC で AI に関する大きな発表があるだろうと私は確信しています。Apple の CEO である Tim Cook は 2 月にそのことをほのめかし、今週の収支報告で基本的に約束しました。そして、2 つのことが非常に明確です。Apple は AI 競争に真剣に取り組んでおり、iPhone の全面的な見直しにつながる可能性があります。なんと、Siri を進んで使い始めるかもしれません。それはかなりの成果です。
/ Verge Deals に登録すると、私たちがテストした製品のお買い得情報が毎週あなたの受信箱に届きます。
The Vergeはヴォックスメディアネットワークです
元記事: https://www.theverge.com/2024/5/5/24147995/apple-siri-ai-research-chatbot-creativity