昨今、AI普及により音声認識の精度は上がっています。
音声テキスト化のためにどのようなツールを取り入れればよいのでしょうか。
今回は、AIによりぐっと精度を上げた音声認識サービスを7つご紹介します。
優れた音声認識サービス7選
Google Cloud Speech API
https://cloud.google.com/speech-to-text?hl=ja
提供元:Google
- 120種類の言語や方言を自動的に認識し、即座に音声データをテキスト化
- 自然な話し言葉に強い
- 複数人数での電話やビデオ会議の録音をチャンネル別に文字変換可能(2018年11月現在ベータ版)
- この記事中で最も低コスト
弊社では、Google Cloud Speech APIを利用活用した、Zendesk Talk(クラウド型のコールセンターソフトウェア)のソリューションを提供しております。
顧客の通話録音データをGoogle Cloud Speech APIでテキスト化し、問い合わせ履歴に自動で書き込むというサービスです。
オペレーターの通話後の後処理が軽減されます。
詳細はこちらからお問い合わせください。
IBM Watson Speech to Text
https://www.ibm.com/jp-ja/cloud/watson-speech-to-text
提供元:IBM
- ブラジルポルトガル語、フランス語、日本語、中国語(標準)、アラビア語、スペイン語、イギリス英語、アメリカ英語に対応
- 専門用語等の語彙拡張が可能
- 話し手の言いよどみ/ためらい、確信的かどうかといった、より感情に近い部分もテキストへ出力される
- 音声データから引き出したキーワードを、他のWatson APIへの入力に使用可能
AmiVoice
https://www.advanced-media.co.jp/lp/scribeassist/
提供元:株式会社アドバンスト・メディア
- 日本語の認識精度が高い
- 音響分析データを下敷きにし、音響モデル(声の周波数や発音時間の統計データ)、言語モデル(あらゆる文書から、文字や単語の並びを集めた統計データ)、発音辞書(哀れ=a・wa・reのように、最小音素をモデル化) といった各種辞書、さらには医療や金融などの専門辞書をも活用
- これらの辞書/モデルをディープラーニングさせる
Bing Speech API
https://azure.microsoft.com/ja-jp/products/cognitive-services/speech-services/
提供元:Microsoft
- 話し手の言葉をテキストに起こすに留まらず、コマンドとしても利用可能
- 返答が必要なシーンは、クライアントライブラリ活用で対応可能
クライアントライブラリ活用でできること
- 15秒以下の音声をコマンド利用
- 15秒以上の音声をテキストに変換
- 音声のストリーミング
- 音声からテキスト化されたものの意味を解釈
- JavaやJavaScript、C#、objectiveCなどの幅広いプログラミング言語に対応しており、多くのシステムに導入しやすい
VoiceRex
https://www.rd.ntt/research/JN20190709_h.html
提供元:NTTメディアインテリジェンス研究所
- VoiceRexを搭載したSpeechRecは、サーバクライアント型のサービス
- 海外からの来訪者ニーズに応えるため、英語はもちろんのこと、アジア系10言語に対応
- 日本語の認識率が92%
参照:https://www.ntt-tx.co.jp/whatsnew/2017/170622.html
VContact
https://vcontact.hmcom.co.jp/
提供元:Hmcomm株式会社
- 音声認識装置及び方法ならびにプログラム/音声データ検索用WEBサイトシステム
- 音声認識システム及び音声認識システム用プログラム特許取得
- インタビュー音源から自動で書き起こし
- 動画データ内音声のテキスト化(編集も可能)
- オペレーターと顧客/見込み客の会話を自動テキスト化、FAQ自動表示が可能
OPTiM AI Voice Recorder
https://www.optim.cloud/services/ai-voice-recorder/
提供元:
- 特別な機器やプログラミングの必要がなく、WEBベースでの利用ができるため、どのようなシーンでも利便性が高い
- 顧客の声のトーンを判別し、感情を記録できる
コールセンターでの活用法棒
- 顧客/見込み客の声をAIが解析、オペレーター向け関連FAQを表示
- 通話テキスト化で、通話後ログ取得
- AIチャットボットが24時間対応、通話可能時間外でも回答を提示
まとめ
コールセンターで日々飛び交う貴重な情報を蓄積するために、テキスト化は欠かせません。
AIを活用した音声認識サービスであれば、会話のほとんどを自動でテキスト化できます。
また、サービスによっては、オペレーター向けFAQの自動生成や、顧客の感情を読み取るサービスも存在します。
音声認識サービスの導入によってコールセンター業務は更に改善されるでしょう。