メインコンテンツへスキップ

忙しい方のためのカメラ関連ニュース
海外のカメラ関連ニュースを翻訳してお届け


Claude Code、Opus 4.8リリース直前に性能低下か SWE-Bench-Proの追跡データが示唆

  • From 
    Claude (Hacker News)

AnthropicのClaude Codeは、AIモデルOpus 4.8がリリースされる直前の1週間にわたり、SWE-Bench-Proにおけるパフォーマンス(パス率)が統計的に有意な低下を示したことが、同社のSWE-Bench-Proトラッカーによって明らかになった。

Opus 4.7のパス率は、5日間にわたり設定されたベースライン(65%)を大幅に下回り、Opus 4.8への切り替えと同時に回復した。この期間中、他のメトリクスに大きな変化はなかったが、ツールコールはタスクあたり約60%増加し、入力トークンは減少した。

さらに、この性能低下はClaude CodeのCLIバージョン2.1.150および2.1.152へのアップデートと一致し、2.1.153で解消されたことが確認された。

これらの状況から、開発チームはモデル自体の回帰ではなく、Claude Code 2.1.150および2.1.151付近で導入されたハーネス(実行環境)に起因する問題であると結論付けている。

この問題は解決されたものの、過去にも新モデルリリース前に同様の性能低下が観測されていることから、今後もフロンティアエージェントの追跡を継続し、将来的な性能低下を検出していく方針である。

[custom_js_sp]

AIによる翻訳/要約をしています。正確な情報はオリジナルサイトにてご確認ください。
当サイトの記事にはプロモーションが含まれる場合があります。

今週の人気ニュース

アップル関連のニュースはこちら