Mistral、音声生成のための新しいオープンソースモデルを発表

フランスのAI企業Mistralは、木曜日に新しいオープンソースのテキスト音声合成（TTS）モデル「Voxtral TTS」を発表しました。

このモデルは、ボイスAIアシスタントや、カスタマーサポートなどのエンタープライズ用途での活用が想定されており、ElevenLabs、Deepgram、OpenAIといった競合他社との直接的な競争に入ります。

Voxtral TTSは、英語、フランス語、ドイツ語、スペイン語、オランダ語、ポルトガル語、イタリア語、ヒンディー語、アラビア語の9言語をサポートしています。

Mistral AIのVPオブサイエンスオペレーション、ピエール・ストック氏によると、このモデルはスマートウォッチやスマートフォン、ラップトップなどのエッジデバイスに搭載できる小型サイズでありながら、市場の他の製品と比較して非常に低コストで最先端のパフォーマンスを提供します。

また、5秒未満の音声サンプルでカスタムボイスを学習し、微妙なアクセント、抑揚、イントネーション、話し方の不規則性まで捕捉できるとのことです。Mistral 3Bをベースにしたこのモデルは、言語間での切り替えも容易で、ダビングやリアルタイム翻訳などのユースケースに役立ちます。

リアルタイム性能に重点を置いており、10秒のサンプル（500文字）に対する初回音声生成時間（TTFA）は90ms、リアルタイムファクター（RTF）は6倍（10秒のクリップを約1.6秒でレンダリング）を実現しています。

Mistralは、以前にも文字起こしモデルを発表しており、今回の音声モデルの追加により、エンタープライズ向けの音声製品スイートの提供を目指していると考えられます。

同社は、音声、テキスト、画像を扱うマルチモーダルな入出力に対応するエンドツーエンドのプラットフォームを計画しており、これによりエージェントシステムがより多くの情報を取得できるようになります。

Mistralは、オープンソースであることとカスタマイズ性の高さを強みとし、企業が競合他社よりも自社の音声モデルを採用しやすくなると位置づけています。

[custom_js_sp]

AIによる翻訳/要約をしています。正確な情報はオリジナルサイトにてご確認ください。
当サイトの記事にはプロモーションが含まれる場合があります。

関連ニュース