「Mythos 5」をオープンベンチマークに招待、Anthropicへの挑戦状
-
FromAnthropic (Hacker News)
この記事は、24のLLMベースおよびルールベースのコードスキャナーを26のPythonリポジトリで評価したベンチマーク結果を発表しています。
主な発見:
- LLMベースのスキャナーは、SQLインジェクションやコマンドインジェクションなど、セマンティックなデータフロー理解を必要とする脆弱性クラスで圧倒的な優位性を示しました。
- ルールベースのツールは、構文パターンのみに限定され、全体的な検出率(Recall)は依然として低いままでした。
評価対象は697の脆弱性、120の誤検知(FP)トラップを含み、Pythonコード量は20,062 LOCに及びます。
LLMベースのスキャナー(特に「Kolega Enterprise」)は、高い検出率と精度を示しており、コストパフォーマンスも優れていることが示唆されています。一方、ルールベースのSASTツールは、LLMに比べて性能が劣る結果となりました。
「Mythos 5」という名称は、LLMベースのスキャナーを指すものと思われます。著者は、Anthropic社に対し、自社の「Mythos 5」をこのオープンベンチマークに持ち込み、その性能を実証するよう招待しています。これは、LLMベースのコードセキュリティツールの進化とそのベンチマークの重要性を示すものです。
[custom_js_sp]
AIによる翻訳/要約をしています。正確な情報はオリジナルサイトにてご確認ください。
当サイトの記事にはプロモーションが含まれる場合があります。
