ランク付け企業が資金提供する「操作不能」なリーダーボード
-
FromTechCrunch AI
AIモデルが急増する中、どのモデルが優れているかを決定するのが課題となっている。
「Arena」(旧LM Arena)は、最先端の大規模言語モデル(LLM)の事実上の公開リーダーボードとなり、資金調達、ローンチ、PR活動に影響を与えている。
UC Berkeleyの博士研究プロジェクトからわずか7ヶ月で、同社は17億ドルの評価額に達した。
Arenaの共同創設者であるAnastasios Angelopoulos氏とWei-Lin Chiang氏は、同プラットフォームが最先端AIモデルのデファクトスタンダードとなった経緯、そしてOpenAI、Google、Anthropicのような企業がプロジェクトを支援する中でも、どのように中立的なベンチマークを構築しようとしているのかを語る。
彼らは、Arenaの仕組み、静的なベンチマークよりも「操作しにくい」理由、 「構造的中立性」の意味、Claudeが法務・医療分野で専門家リーダーボードを現在リードしている理由、そして同社がチャットを超えて、エージェント、コーディング、実世界タスクをベンチマークする新エンタープライズ製品の展開について解説する。
[custom_js_sp]
AIによる翻訳/要約をしています。正確な情報はオリジナルサイトにてご確認ください。
当サイトの記事にはプロモーションが含まれる場合があります。
