CLOSE

当社にご興味をお持ちいただきましてありがとうございます。
以下メニューより選択いただきお進みください。
Thank you for your interest in NTT laboratories. Please select from the menu below and proceed.

Click here for new registration
on My Page for new graduates

2022年3月までに四年制大学・大学院修士課程・大学院博士課程を卒業(修了)見込みもしくは卒業(修了)済みの方が対象となります。
This entrance is for those who are graduated from a four-year university or completed a master’s/doctor’s program by March 2022.

Click here if you have already registered
for the Career Education Event My Page

すでにキャリア教育イベントマイページへご登録済みの方は、キャリア教育イベントマイページへログインいただき、新卒採用マイページへの移行をお願いいたします。
If you have already registered for Career Education Event My Page, please log in to Career Education Event My Page and move from Career Education Event My Page to New Graduate Recruitment My Page.

音声言語メディアプロジェクト

機械の耳と人間の耳
高精度の音声認識技術確立を
めざして

NTTでは古くから音声認識技術の研究に力を入れてきた。今日でも「音声言語メディアプロジェクト」と題するプロジェクトを有し、多様なアプローチからより精度の高い音声認識技術の確立に向けて努力が積み重ねられている。
機械の耳を人間の耳に近づけるというのは一体どういうことなのだろうか。

人間の耳は果たしてどのように聞いているのか

人間が音を聞く際には、雑多な音の中から求める対象の音をクリアに認識したり、あるいは音の大きさや抑揚などさまざまな情報から話者の感情などを読み解く努力をしている。メディアインテリジェンス研究所の「音声言語メディアプロジェクト」で音声処理、音声認識に関する研究を行っている入社10年目の齊藤翔一郎と9年目の福冨隆朗。二人はそれぞれ音をクリアにする研究、多様な情報からリッチな音声認識を導き出す研究に従事している。
齊藤が研究しているのは、「機械の耳を人間の耳に近づける」研究だ。
「ノイズを取り除いたり、右と左で聞き分けたりと人間の耳が無意識にやっていることを機械でも再現できるような研究をしています」
例えばマイクが口元にあれば音声はクリアに認識することができる。しかし、少し距離が離れて雑音や周囲の声が入るような環境になると音声の認識は難しくなってしまう。人間の耳は無意識のうちに、余分な音と求める声を分離して、特定の声だけを認識しようという力が備わっている。齊藤がめざしているのは、そのように、特定の人の声や音を分離して聞くことができるマイクロホンの開発だ。
「人間の耳はどうやって音を聞いているのかということを研究していますが、これは耳だけではなく認識する脳の問題でもあるので、奥が深いですね」

より人間らしい音声認識の実現へ

齊藤がクリーンで聞きやすい音をつくり出す研究をしているのに対し、入社9年目の福冨隆朗は音声以外のさまざまな情報も正しく認識する音声認識技術の研究を行っている。
「人間が言葉を認識する際には、発話者の位置や属性など、さまざまな情報も利用しています。私は、そういった音以外の情報も活用して従来よりも高精度の音声認識を実現したいと考えています」
これまでの音声認識を人間の聞き方に例えると、まるで目をつぶって片耳だけで聞いているような状態だった。しかし真に言葉を認識するには、「どこで」「誰が」「どんな文脈で」話しているかということが非常に重要な情報となる。そこで音だけではなく、人間が音声を認識する際に何を重要視して、どのように活用しているのか、そういった情報まで機械学習によりモデル化し、より人間らしい音声認識に近づけることに挑戦している。
齊藤の研究と福冨の研究は、どちらも人間の音声理解の仕組みを捉えるためのアプローチだ。齊藤はその違いについてこう語る。
「私の研究はどういうところを人間は聞きやすいと思っているのかを調べるもので、福冨さんの研究は精度の高い音声認識には何が必要なのかを判断するための研究です。これらはどちらが正解とか主流だということではなく、音声言語メディア技術の精度を高めていくためには両方必要なアプローチなのです」

ニーズが急速に高まる音声認識

現代社会では、会議の議事録を文字化したり、コンピュータやロボットと音声で会話したいという音声認識技術のニーズが急速に高まっている。福冨は、聞く耳を持ったロボットが人間のパートナーになる日も遠くないのではないかと考えている。
「現在でも音声認識機能を持ったロボットは存在していますが、今後、さらに認識能力が向上し、単語ではなく文章の文脈まで認識できるようになったり、音声に含まれる感情やニュアンスを感じ取れるようになれば、ロボットが本格的に仕事や生活のパートナーになる日が来るかもしれません」
現在の音声認識では機械側はひとかたまりの単語や文を認識して返答するという仕組みが取られている。ロボットが不要だと判断した区間に含まれない音や言葉に必要な情報が含まれていることもあり、的を射ない会話になってしまうことも多い。より人間らしい対話をロボットが実現するためには、聞く力(認識する力)を伸ばしてやる必要がある。
「そのためには音声全般に対する技術力が何より大事だ」と齊藤は話す。
「ロボットとの対話に代表されるような音声認識技術にブレイクスルーをもたらすためには、人間の耳で聞いている仕組みをより精緻にモデル化する必要があります。しかし現状は人間の音声認識・理解のメカニズムがまだまだ未知な部分も多く、音声認識システムも発展途上だと言えるでしょう。人間が聞いている状況にどうやって限りなく近づけるかということをこれからさらに検討していかないといけません」
機械が人間の耳を持ち、円滑にコミュニケーションを取れる未来に向けて。二人には今後、さらなる高精度な音声認識技術をめざしつつ、社会的ニーズに応えるため堅実な研究成果を積み上げていくことが期待される。

Profile

齊藤 翔一郎
2007年入社。
仕事において大切にしているのは「頼まれたことは最後までやる」という責任感の持ち主だ。

Profile

福冨 隆朗
2008年入社。
実験結果は数値を見るだけではなく、自分の目で見て、耳で聞く、実フィールドでの性能評価を大切にしている。

※社員の所属組織などは取材時のものです。

PAGE TOP