忙しい方のためのカメラ関連ニュース
海外のカメラ関連ニュースを翻訳してお届け

「Mythos 5」をオープンベンチマークに招待、Anthropicへの挑戦状

From

Anthropic (Hacker News)

この記事は、24のLLMベースおよびルールベースのコードスキャナーを26のPythonリポジトリで評価したベンチマーク結果を発表しています。

主な発見:

LLMベースのスキャナーは、SQLインジェクションやコマンドインジェクションなど、セマンティックなデータフロー理解を必要とする脆弱性クラスで圧倒的な優位性を示しました。
ルールベースのツールは、構文パターンのみに限定され、全体的な検出率（Recall）は依然として低いままでした。

評価対象は697の脆弱性、120の誤検知（FP）トラップを含み、Pythonコード量は20,062 LOCに及びます。

LLMベースのスキャナー（特に「Kolega Enterprise」）は、高い検出率と精度を示しており、コストパフォーマンスも優れていることが示唆されています。一方、ルールベースのSASTツールは、LLMに比べて性能が劣る結果となりました。

「Mythos 5」という名称は、LLMベースのスキャナーを指すものと思われます。著者は、Anthropic社に対し、自社の「Mythos 5」をこのオープンベンチマークに持ち込み、その性能を実証するよう招待しています。これは、LLMベースのコードセキュリティツールの進化とそのベンチマークの重要性を示すものです。

オリジナルサイトへ（Google翻訳)

オリジナルサイトへ

[custom_js_sp]

AIによる翻訳/要約をしています。正確な情報はオリジナルサイトにてご確認ください。
当サイトの記事にはプロモーションが含まれる場合があります。

「Mythos 5」をオープンベンチマークに招待、Anthropicへの挑戦状

関連ニュース

AI価格競争が勃発、OpenAIとAnthropicに圧力高まる

Anthropic Mythos：銀行戦略のモデリング

彼ら（Anthropic）はあなたに嘘をついていると思う（動画）

最新ニュース

AI価格競争が勃発、OpenAIとAnthropicに圧力高まる

Anthropic Mythos：銀行戦略のモデリング

「Mythos 5」をオープンベンチマークに招待、Anthropicへの挑戦状

彼ら（Anthropic）はあなたに嘘をついていると思う（動画）

トランプ政権、Anthropicの強力AIモデルへの外国アクセスを阻止

Anthropicの「Fable 5」、最も「正直」なモデルと称賛

AnthropicのFable 5、Three.jsで精巧な3Dグラフィックスをワンショットで実現

Anthropicの妨害行為に関する最後の所見

Google、AI活用し数万人を騙した中国のサイバー犯罪組織「Outsider Enterprise」を提訴

「Claude Fable 5」は完全新規開発か、それともデータ改良か？ HNユーザーが疑問を呈する

Anthropicの評判を傷つける目的でClaudeを使用した場合、訴訟の対象となる

Show HN: Memoriq – ChatGPT、Claude、Gemini、GrokのためのプライベートAIメモリ

AI「Claude」と論理言語「Prolog」でチェスパズルを解く：2つのルーク、2つのビショップ、2つのナイトの配置問題

Show HN: Claude Fabel 5氏が開発したゲーム「Squishy & Friends」が高評価

Claude Fable 5：高度な問題解決と指示追従能力を向上させた新モデル

今週の人気ニュース

アップル関連のニュースはこちら