建築家または建築家を目指す人が知っておくべき事柄を毎月まとめた概要です。

プロフェッショナルソフトウェア開発における知識とイノベーションの普及を促進

Git は、ソフトウェア開発におけるバージョン管理によく使われるツールです。複数の Git アカウントを使用することは珍しくありません。Git アカウントを正しく構成して切り替えることは困難です。この記事では、Git が提供するアカウント構成とその制限、およびプロジェクトの親ディレクトリの場所に基づいてアカウントを自動的に切り替えるソリューションについて説明します。
WebAssembly は、その範囲をブラウザからクラウドやエッジ コンピューティングなどの他のドメインにまで拡大しました。WebAssembly は、WebAssembly コンポーネント モデル (WCM) を使用して、Rust、Python、JavaScript などのさまざまなプログラミング言語のライブラリ間のシームレスな相互作用を可能にし、真の多言語プログラミング環境を推進します。
Jules Damji は、分散型の微調整とトレーニングにどのインフラストラクチャを使用すべきか、ML ワークロードを拡張する方法、大規模なモデルに対応する方法、CPU と GPU をどのように活用できるかについて説明します。
このポッドキャストでは、Culture & Methods の主任編集者である Shane Hastie が、開発者関係の役割とオープンソース コミュニティへの貢献について Craig Box に話を聞きました。
Ranjith Kumar は、グローバルな容量を持つサービス所有者に提示される抽象化と保証、数十の地域にわたるワークロードを管理するための設計と実装、さまざまな需要の分類とモデル化、さまざまな地域間で需要をシフトすることによるグローバルな容量管理の実現について説明します。
ソフトウェア開発の意思決定をレベルアップするための変革的な洞察を発見してください。限定オファーにはコード LIMITEDOFFERIDSBOSTON24 を使用してください。
上級開発者から実践的なアドバイスを得て、現在の開発課題を解決しましょう。限定オファーにはコード LIMITEDOFFERIDSMUNICH24 を使用してください。
注目すべき新たなトレンドを発見して、ソフトウェア スキルをレベルアップしましょう。今すぐ登録してください。
すべてのプロフェッショナルが知っておくべきすべてのトピック、テクノロジー、テクニックに関する月刊ガイド。無料で購読できます。

InfoQ ホームページ ニュース 機械学習システム構築の課題と解決策

2024年5月9日 4分読了

Camilla Montonen 氏によると、機械学習システムを構築する際の課題は、主にモデルの作成と維持に関係しています。MLOps プラットフォームとソリューションには、マシン システムの構築に必要なコンポーネントが含まれていますが、MLOps はツールに関するものではなく、文化と一連のプラクティスです。Montonen 氏は、データ サイエンスと機械学習エンジニアリングのプラクティス間の溝を埋める必要があると提案しています。
Camilla Montonen 氏は、NDC Oslo 2023 で機械学習システムの構築について講演しました。
機械学習システムを本番環境に導入する際の課題には、モデルトレーニングデータのクリーニング、キュレーション、管理方法、モデルの効率的なトレーニングと評価方法、本番環境でモデルが引き続き良好なパフォーマンスを発揮するかどうかの測定方法などがある、とモントネン氏は述べた。その他の課題としては、モデルが新しいデータに対して行う予測を計算して提供する方法、欠落したデータや破損したデータ、エッジケースの処理方法、このモデルを効率的に再トレーニングする方法とタイミング、これらの異なるバージョンをバージョン管理して保存する方法などがあると同氏は付け加えた。
モントネン氏は、機械学習システムには、通常、一連の共通コンポーネントが含まれていると説明しました。それは、機能ストア、データ サイエンティストが作成したさまざまなモデルを簡単にバージョン管理できるようにする実験追跡システム、現在どのモデルが本番環境にデプロイされているかを追跡するモデル レジストリまたはモデル バージョン管理システム、およびデータ品質に問題が発生する可能性がある場合にそれを検出するデータ品質監視システムです。これらのコンポーネントは現在、市場で入手可能な多くの MLOps プラットフォームおよびソリューションの一部になっていると、同氏は付け加えました。
モントネン氏は、ツールやコンポーネントは、それが設計されたシステムの問題を解決するが、一般的な企業では、機械学習システムの進化は、多くの場合、技術的な問題の領域をはるかに超えた要因によって左右されるという事実を考慮していないことが多いと主張した。
MLOps はツールではなく、文化に関するものだ、と Montonen 氏は主張する。モデル レジストリや機能ストアをスタックに追加するだけでなく、システムを構築および保守する人々がそれとどのようにやり取りするか、あらゆる摩擦ポイントを最小限に抑えることが重要だと、氏は説明する。
これには、ML コード リポジトリでの Git 衛生状態の検討、パイプラインの個々のコンポーネントのテスト方法の設計、データ サイエンスの実験環境と運用環境間のフィードバック ループの維持方法の検討、コード ベース全体でのエンジニアリングの高水準の維持など、あらゆることが含まれます。
堅牢な製品品質のコードよりも迅速な実験と反復を優先するデータサイエンスの実践と、バージョン管理、CI/CDパイプラインによる管理された配信と製品への展開、自動テスト、より長期間にわたって維持できるように設計されたより思慮深く作成された製品コードを優先する機械学習エンジニアリングの実践との間の溝を埋めるよう努めるべきだ、とモントネンは述べた。
問題を解決するどころか複雑化させる可能性が高い MLOps ツールをすぐに大量に導入するのではなく、Montonen 氏は基本に戻ることを提案しました。
機械学習チームが苦労している理由を正直に診断することから始めましょう。
データ サイエンティストの開発速度と生産の信頼性の面で最大の利益は、テスト、CI/CD、git 衛生管理への驚くほど基本的でシンプルな投資によって得られると Montonen 氏は結論付けました。
InfoQ は機械学習システムの構築について Camilla Montonen 氏にインタビューしました。
InfoQ: 現在利用可能な MLOps ツールとコンポーネントは、ソフトウェア エンジニアが直面している問題をどの程度解決できるのでしょうか?
Camilla Montonen: 大手 MLOps ツール プロバイダーのほとんどは、大規模な言語モデルのトレーニングやコンピューター ビジョン モデルのトレーニングに取り組むエンジニアが始めたプロジェクトから生まれたもので、こうしたユース ケースには最適です。大手テクノロジー企業ではない中小企業のほとんどでは、SOTA コンピューター ビジョン モデルをトレーニングしているのではなく、顧客離れを予測したり、ユーザーが興味のあるアイテムを見つけられるようにするモデルを構築しているという事実を考慮していません。
このような特定のケースでは、これらの既製のコンポーネントは、時間の経過とともに ML システムに蓄積される多くの特異性に対応できるほど柔軟ではないことがよくあります。
InfoQ: 機械学習システムの導入に苦労している企業へのアドバイスはありますか?
Montonen: ツールやソリューションを導入する前に、機械学習チームが何に苦労しているかを調べてください。
コード ベースは複雑ですか? データ サイエンティストがローカル マシンから ML パイプライン コードを本番環境にデプロイしているため、本番環境で実行されているコード変更を追跡することが困難になっていますか? 本番環境で発生したバグの原因となっているコード変更を特定することが困難になっていますか? おそらく、リファクタリングと適切な CI/CD プロセスおよびツールに投資する必要があるでしょう。
新しいモデルは、オンライン A/B テストで実稼働モデルと比較してパフォーマンスが低下していますが、その理由がわかりませんか? おそらく、主要な指標を追跡するシンプルなダッシュボードに投資する必要があるでしょう。
現在の問題を診断することで、実際に問題を解決するツールを特定し、トレードオフについて判断するのに役立ちます。ほとんどの MLOps ツールでは、学習、メンテナンス、統合に多少の労力が必要なので、それらを使用して解決する問題がこれらのトレードオフの価値があるかどうかを知ることは良いことです。

InfoQ の先週のコンテンツのまとめが毎週火曜日に配信されます。250,000 人以上のシニア開発者のコミュニティに参加してください。例を見る

InfoQ の先週のコンテンツのまとめが毎週火曜日に配信されます。250,000 人以上のシニア開発者のコミュニティに参加してください。例を見る

2024 年 6 月 24 日 – 25 日 | ボストン、マサチューセッツ州今日の重要な開発優先事項を明確にする実用的な洞察。InfoQ Dev Summit Boston は、InfoQ が主催する 2 日間のカンファレンスで、シニア ソフトウェア開発者が現在直面している最も重要な技術的決定に焦点を当てています。20 以上の技術講演を詳しく聞き、ジェネレーティブ AI、セキュリティ、最新の Web アプリケーションなどを扱うシニア ソフトウェア開発者から革新的な学びを得ましょう。今すぐ登録

InfoQ.com およびすべてのコンテンツの著作権は © 2006-2024 C4Media Inc. に帰属します。プライバシー通知、利用規約、Cookie ポリシー

元記事: https://www.infoq.com/news/2024/05/build-machine-learning-systems/