【記事】雑音の中でも…AIが複数の人の会話聞き分けて書き起こし

雑音の中でも…AIが複数の人の会話聞き分けて書き起こし リアルタイムで議事録作成OK NTTが開発

Ai20160911 01

元記事はこちら。

NTTは、大きな雑音の中でも必要な音声を認識して正確に書き起こすことができる人工知能(AI)技術を開発した。複数の人の会話を発言者ごとに聞き分けることも可能で、会議の議事録をほぼリアルタイムで作成することができるようになるという。1~2年後の実用化を目指す。

人の言葉を理解して学習するAIにとって音声認識は重要な技術で、雑音はその“大敵”となっている。雑音を除去しようとすると、必要な音声も変質してしまい正確に認識できなくなるという課題があった。

 NTTは、音の大きさや方向などから認識すべき音声と雑音を自動的に推定し高精度で識別するアルゴリズム(手順)を開発。必要な音声をひずませることなく、雑音だけを低減させる技術を確立した。必要な音声が聞き取りにくいほどの雑音にも対応できる。

会議などでの複数の人の会話でも、この技術を使い音の方向など空間的情報から発言者の位置を特定。6人程度のやり取りを聞き分けることができる。数人が同時に話しても問題なく認識できるという。100時間分の音声データを使ったAIによる深層学習(ディープラーニング)で認識精度を向上させ、国際的に高い技術評価を得たという。

NTTグループは独自のAI技術を「corevo(コレボ)」と総称し開発に力を入れている。今回の音声認識技術について「世界一の水準」と自負しており、議事録の即時作成のほか、雑踏の中でも対応できる通訳システムや音声で操作する家電、店舗窓口での客とのやり取りの記録などさまざまな分野への応用が考えられる。担当者は「すでに実用化に近いレベルにある。1、2年後には世に出したい」と話している。

スポンサーリンク

シェアする

  • このエントリーをはてなブックマークに追加

フォローする

スポンサーリンク
%d人のブロガーが「いいね」をつけました。