Microsoftの新ツール、テキスト指示でAIの挙動テストを自動化。開発者が意図した動作を確認しやすく。

From

TechCrunch AI

Microsoftは、AIシステムの挙動をテストするための新しいオープンソースフレームワーク「ASSERT」（Adaptive Spec-driven Scoring for Evaluation and Regression Testing）を発表しました。このツールは、開発者が自然言語で記述したAIの目標、ポリシー、または意図した挙動に関する指示を、AIが解析して詳細かつスコアリングされたテストケースへと自動生成します。

ASSERTは、AIモデルの期待される挙動やポリシーを平易な言葉で記述すると、それを構造化された「許容される」「許容されない」挙動のセットに変換します。さらに、問題シナリオやテストケースを生成し、対象システムに対して実行して結果をスコアリングします。

これにより、開発者はAIシステムが意図した通りに動作しているかを確認しやすくなります。また、AIシステムがどのような経路をたどり、どのツールを呼び出したかといった中間アクションも記録できるため、問題発生箇所の特定も容易になります。開発者は、システムコンテキスト、ツール、制約条件などを追加して、評価の範囲をさらにカスタマイズすることも可能です。

例えば、文書リサーチAIエージェントが社外にメールを送信しない、機密情報を特定の役職者のみに限定する、過去のコンテキストを踏まえて簡潔な要約を提供する、といったルールをASSERTに与えることで、システムがこれらのルールを継続的に遵守しているかをチェックするテストケースを生成できます。

Microsoftによると、ASSERTは、AIモデルが特定のアプリケーションや製品のコンテキスト、ポリシー、ツールによって形成されるように意図されている場合に、より広範で一般的な評価では満たせないギャップを埋めるものです。Responsible AI担当のチーフプロダクトオフィサーであるSarah Bird氏は、「評価は良い意思決定に不可欠であり、AIシステムの挙動を理解しなければ、組織の基準を満たしているかを知るのは難しい。信頼できるシステムを持つためには、アプリケーション固有の多くの次元を評価すべきだ」と述べています。

ASSERTは、AIシステム開発中、デプロイ後、さらには継続的な監視にも利用できるとのことです。このリリースは、AI業界における段階的かつ広範なシフトの中で行われており、モデルの能力向上に伴い、研究者たちは再現可能なテストとリグレッションチェックに注力しており、StanfordのHELMやMLCommonsのAILuminateなどが、モデルが異なる条件下でどのように動作するかを測定するためのベンチマークを導入しています。

オリジナルサイトへ（Google翻訳)

オリジナルサイトへ

[custom_js_sp]

AIによる翻訳/要約をしています。正確な情報はオリジナルサイトにてご確認ください。
当サイトの記事にはプロモーションが含まれる場合があります。

Microsoftの新ツール、テキスト指示でAIの挙動テストを自動化。開発者が意図した動作を確認しやすく。

関連ニュース

AI（Claude経由）搭載の「Phoenix Code」、コミュニティ版は商用利用無料、Pro版はClaudeアカウント必須

今注目のスタートアップは、スマホから離れる体験を提供

Claude Code、サンクコストの心配はもう不要に

最新ニュース

AI（Claude経由）搭載の「Phoenix Code」、コミュニティ版は商用利用無料、Pro版はClaudeアカウント必須

今注目のスタートアップは、スマホから離れる体験を提供

Claude Code、サンクコストの心配はもう不要に

AI開発の世界的な凍結を求めるAnthropic

Anthropic、AIの「一時停止ボタン」を提唱 – 人類に考察の機会を

Claude Codeでキーボードショートカットをカスタマイズする方法

HNへの質問：Claude Codeはダウンしているのか、それとも私の地域だけか？

AI開発の一時停止を世界に求めるAnthropic

AIが自らの後継機開発を支援する可能性、Anthropicが警告

GPT-5.2、Claude Opus 4.6、Gemini 3.5 Flashを無効化する特許技術を公開

インテリジェンス時代における生物防御：AIを活用した生物学的レジリエンスのための行動計画

NSA、サイバー攻撃にAnthropicのMythosを使用

AI開発の世界的一時停止をAnthropicが提唱、自己改善のリスクを指摘

Show HN: Resume – CLIでClaudeとCodexセッションを管理

ChatGPT、会話をより役立てるための新記憶システム導入へ：ユーザーの好みや文脈を記憶し、よりパーソナルな体験を提供

今週の人気ニュース

アップル関連のニュースはこちら