メインコンテンツへスキップ

忙しい方のためのカメラ関連ニュース
海外のカメラ関連ニュースを翻訳してお届け


Microsoftの新ツール、テキスト指示でAIの挙動テストを自動化。開発者が意図した動作を確認しやすく。

  • From 
    TechCrunch AI

Microsoftは、AIシステムの挙動をテストするための新しいオープンソースフレームワーク「ASSERT」(Adaptive Spec-driven Scoring for Evaluation and Regression Testing)を発表しました。このツールは、開発者が自然言語で記述したAIの目標、ポリシー、または意図した挙動に関する指示を、AIが解析して詳細かつスコアリングされたテストケースへと自動生成します。

ASSERTは、AIモデルの期待される挙動やポリシーを平易な言葉で記述すると、それを構造化された「許容される」「許容されない」挙動のセットに変換します。さらに、問題シナリオやテストケースを生成し、対象システムに対して実行して結果をスコアリングします。

これにより、開発者はAIシステムが意図した通りに動作しているかを確認しやすくなります。また、AIシステムがどのような経路をたどり、どのツールを呼び出したかといった中間アクションも記録できるため、問題発生箇所の特定も容易になります。開発者は、システムコンテキスト、ツール、制約条件などを追加して、評価の範囲をさらにカスタマイズすることも可能です。

例えば、文書リサーチAIエージェントが社外にメールを送信しない、機密情報を特定の役職者のみに限定する、過去のコンテキストを踏まえて簡潔な要約を提供する、といったルールをASSERTに与えることで、システムがこれらのルールを継続的に遵守しているかをチェックするテストケースを生成できます。

Microsoftによると、ASSERTは、AIモデルが特定のアプリケーションや製品のコンテキスト、ポリシー、ツールによって形成されるように意図されている場合に、より広範で一般的な評価では満たせないギャップを埋めるものです。Responsible AI担当のチーフプロダクトオフィサーであるSarah Bird氏は、「評価は良い意思決定に不可欠であり、AIシステムの挙動を理解しなければ、組織の基準を満たしているかを知るのは難しい。信頼できるシステムを持つためには、アプリケーション固有の多くの次元を評価すべきだ」と述べています。

ASSERTは、AIシステム開発中、デプロイ後、さらには継続的な監視にも利用できるとのことです。このリリースは、AI業界における段階的かつ広範なシフトの中で行われており、モデルの能力向上に伴い、研究者たちは再現可能なテストとリグレッションチェックに注力しており、StanfordのHELMやMLCommonsのAILuminateなどが、モデルが異なる条件下でどのように動作するかを測定するためのベンチマークを導入しています。

[custom_js_sp]

AIによる翻訳/要約をしています。正確な情報はオリジナルサイトにてご確認ください。
当サイトの記事にはプロモーションが含まれる場合があります。

最新ニュース

今週の人気ニュース

アップル関連のニュースはこちら