やれやれ！Microsoft Copilot はコーディングテストのすべてに不合格でした

最近、ZDNET の同僚で AI 探究者の Sabrina Ortiz が、「ChatGPT ではなく Copilot を使用する 7 つの理由」という記事を書きました。私は Copilot にそれほど感心したことはありませんでした。特に、昨年 Copilot に対して行ったいくつかのファクトチェックテストで不合格になったからです。しかし、Sabrina が Microsoft の製品の利点について非常に良い点を指摘していたので、もう一度試してみようと思いました。
また、Copilot (旧 Bing Chat) とは何ですか? 知っておくべきことはすべてここにあります
誤解のないよう申し上げますが、Microsoft はあらゆるものに Copilot という名前を付けているため、私がテストしている Copilot は汎用チャットボットです。Copilot の GitHub バージョンもありますが、これは Visual Studio Code 内の拡張機能として実行され、月額または年額の料金で利用できます。私は GitHub Copilot をテストしていません。
代わりに、4 つのテストの標準セットを読み込み、Copilot のチャットボットバージョンに入力しました。
要約すると、私が使用しているテストの説明は次のとおりです。
各テストの結果を詳しく調べて、Meta AI、Meta Code Llama、Google Gemini Advanced、ChatGPT を使用した以前のテストと比較してみましょう。
左側が Copilot の結果、右側が ChatGPT の結果です。
フィールドのスタイルを統一して表示する ChatGPT とは異なり、Copilot では、その設定はユーザーの作業として残し、「必要に応じてスタイルとエラー処理を調整することを忘れないでください」と述べています。
テストするために、名前のセットを挿入しました。「ランダム化された行」をクリックしても、結果フィールドには何も返されませんでした。
コードを見ると、興味深いプログラミングミスがいくつか見つかりました。これは、Copilot が WordPress のコードの書き方をあまり理解していないことを示しています。たとえば、フォームを処理するためのフックが admin_init アクションに割り当てられています。これはフォームを処理するものではなく、管理インターフェイスを初期化するものです。
また、ChatGPTを使用してコードを書く方法
また、ランダム化された行を実際に表示するコードもありませんでした。行は値に保存されますが、取得して表示することはありません。重複チェックは、名前を一緒に並べ替えるという点で部分的には正しかったのですが、名前同士を比較しなかったため、重複は依然として許可されていました。
Copilot は、私が ChatGPT の無料バージョン (GPT-3.5) でこれらのテストを実行した無料の大規模言語モデルよりも高度な LLM (GPT-4) を使用しているようですが、それでも ChatGPT の結果の方が優れているようです。これは少し不可解です。
今回のテストと前回のテストの集計結果は次のとおりです。
このテストは、ドルとセントの変換をテストするように設計されています。Copilot によって生成されたコードは、文字または 1 つ以上の小数点を含む値が送信された場合にエラーを適切にフラグ付けしますが、完全な検証は実行しません。
たとえば、先頭にゼロを付けることができます。また、小数点の右側に 2 桁を超える数字を入れることもできます。
また、ChatGPTを使用してカスタムJavaScriptブックマークレットを作成する方法
より重大な入力ミスに対してはエラーが適切に生成されますが、厳密なドルとセントの値を期待している場合、正しいと認められる値によって後続のルーチンが失敗する可能性があります。
学生がこれを課題として提出した場合、私は C の評価を与えるかもしれません。しかし、現実世界のプログラマーが、将来的に障害を引き起こさないコードを生成するために Copilot に依存している場合、Copilot が生成したものは十分ではありません。私はこれを不合格にしなければなりません。
今回のテストと前回のテストの集計結果は次のとおりです。
まあ、これは新しいですね。まず、少し戻って、このテストを文脈に沿って説明させてください。これは、AI がチェスの数手先まで考える能力をテストします。明らかな答えは正しい答えではありません。最終的にこのテストになった問題を最初にデバッグしていたときに、私はそれに気づきました。
当時、私が非常に驚いたことに、ChatGPT は問題の「トリック」を見抜いて、コードのどこが間違っているのか正しく特定しました。そのためには、コード自体の内容だけでなく、WordPress API の動作に基づいてコードがどのように動作するかを把握する必要がありました。前にも述べたように、ChatGPT がそれほど洗練されているとは、かなり驚きました。
また、ChatGPTが既存のコードを書き換えて改善する方法
Copilot は、まあ、それほどではありません。Copilot は、関数名と WordPress フック名のスペルを確認するように提案します。WordPress フックは公開されているものなので、私が行ったように、スペルが正しいことを確認できるはずです。また、私の関数は私の関数なので、好きなようにスペルを変更できます。コードのどこかにスペルミスがあった場合、IDE はそれをはっきりと指摘するはずです。
また、AI は喜んで問題の説明を繰り返し、解決するよう提案しました。私が AI にそうするように頼んだところ、AI はそれを私に返して、私が伝えた問題を教えてくれ、デバッグすれば解決できると教えてくれました。そして最後に、「プラグインの開発者またはコミュニティフォーラムにサポートを求めることを検討してください。😊」と締めくくりました。そう、この絵文字は AI の応答の一部でした。
今回のテストと前回のテストの集計結果は次のとおりです。
当初、このテストを AI で試すつもりはなかったのですが、ChatGPT で試してみたところ、うまくいきました。Gemini Advanced でも同じでした。
このテストの目的は、Keyboard Maestro と呼ばれるあまり知られていない Mac スクリプトツール、および Apple のスクリプト言語 AppleScript、および Chrome スクリプトの動作について質問することです。ちなみに、Keyboard Maestro は、私が日常の生産性向上のために Windows ではなく Mac を使用する最大の理由の 1 つです。これは、OS 全体とさまざまなアプリケーションを自分のニーズに合わせて再プログラムできるためです。それほど強力なツールです。
また、私はChatGPTを使用して、同じルーチンを12の主要なプログラミング言語で記述しました。結果は次の通りです。
いずれにせよ、テストに合格するには、AI は Keyboard Maestro コード、AppleScript コード、Chrome API 機能を組み合わせて問題を解決する方法を適切に説明する必要があります。Copilot は相変わらずこれを正しく実行しませんでした。Keyboard Maestro を完全に無視しました (データセットには含まれていないと思います)。
生成された AppleScript では、現在のウィンドウのみをスキャンするように指示しましたが、Copilot はすべてのウィンドウに対してプロセスを繰り返し、間違ったウィンドウ (チェーンの最後のウィンドウ) の結果を返しました。
今回のテストと前回のテストの集計結果は次のとおりです。
5 つのテストの全体的な結果は次のとおりです。
この結果には本当に驚きました。Copilot を他の AI と比較して最後にテストしてから 5 か月ほど経ちました。Microsoft がバグを修正していることは十分予想していました。Copilot は ChatGPT と同等か、あるいはそれ以上の性能を発揮するだろうと予想していました。結局のところ、Microsoft は OpenAI (ChatGPT のメーカー) に多額の投資をしており、Copilot は ChatGPT と同じ言語モデルに基づいています。
また、マイクロソフトはひっそりとCopilotの無料版をGPT-4 Turboにアップグレードしました。これが重要な理由です。
しかし、それは見事に失敗し、コーディングテストに 1 つも合格せず、私が試した AI の中で最悪のスコアを記録しました。1 つも合格しませんでした。前回 Copilot をテストしたとき、すべての AI を使用してファクトチェックを実行してみました。他のすべての AI は質問に答え、かなり使える結果を返しました。Copilot は、検証するように要求したデータを返しました。これは、上記のテスト 3 で確認した動作に似ていました。
感心しません。実際、Microsoft の主力 AI 製品の結果には少々がっかりしました。もっと改善されるべきです。まあ、Microsoft は時間をかけて製品を改良しています。来年までには改善されるかもしれません。
Copilot、Meta AI、Gemini、ChatGPT でコーディングを試したことがありますか? どのような体験をしましたか? 以下のコメント欄でお知らせください。
私の日々のプロジェクトの更新は、ソーシャルメディアでフォローできます。毎週更新されるニュースレターを購読し、Twitter/X (@DavidGewirtz)、Facebook (Facebook.com/DavidGewirtz)、Instagram (Instagram.com/DavidGewirtz)、YouTube (YouTube.com/DavidGewirtzTV) で私をフォローしてください。

元記事: https://translate.google.com/translate?sl=auto&tl=ja&hl=ja&u=https://www.zdnet.com/article/yikes-microsoft-copilot-failed-every-single-one-of-my-coding-tests/

やれやれ！Microsoft Copilot はコーディングテストのすべてに不合格でした | ZDNET

ByManagetech

By Managetech

Related Post

You missed

ホライゾンの俳優アシュリー・バーチは、ソニーのAIアロイのビデオを見て「ゲームパフォーマンスという芸術形式に不安を感じた」と語る – IGN

JFrogとNVIDIAが提携し、安全なAI導入を強化

Mistral AI が、わずかなパラメータで GPT-4o Mini を上回る新しいオープンソースモデルをリリース | VentureBeat

AI とヒューマノイドが 2025 年のロボットのトップトレンドに | ASSEMBLY

やれやれ！Microsoft Copilot はコーディング テストのすべてに不合格でした | ZDNET