
Vocapia (ボカピア)とは
VocapiaのVoxSigma Speech-to-Textソフトウェアスイートは、複数の言語で大語彙の連続音声認識を提供する先進的な音声処理技術であり、さまざまなオーディオデータタイプに対応しています。
このソフトウェアを使用することで、放送データなどの大量の音声およびビデオドキュメントをバッチモードまたはリアルタイムで転写することができます。
また、オーディオのセグメンテーションや分割、スピーカー識別、言語識別も可能です。
これらの機能は、REST Speech-to-Text APIを介してWebサービスとして提供されており、HTTPS経由でREST APIを通じて音声転写、オーディオインデックス、音声テキストアラインメント機能を提供しています。
さらに、言語識別やスピーカー分離などの進んだ言語技術を提供し、生のオーディオデータを構造化され、検索可能なXMLドキュメントに変換することができます。
これにより、ビデオドキュメント内のコンテンツにアクセスできます。
この音声認識ソフトウェアは82以上の言語に対応しており、クライアントは自分たちの言語セットのためのモデルを作成することができます。
このソフトウェアは、放送や電話データマイニング、音声分析、メディアモニタリング、メディア資産管理、音声転写、字幕などのアプリケーションに使用されています。