研究室公開

OPEN LABORATORY

先進マルチメディア情報知能システム
情報工学コース

02

音でつながる人と機械

豊かなコミュニケーションのための音声言語処理

伊藤(彰)・能勢研究室

EXHIBIT

オープンキャンパスでの展示

豊かなコミュニケーションのための音声・画像情報処理技術

マンガや映画の世界と同様に、将来私たちの身近にある機械やロボットには人間と音声でコミュニケーションする機能が必須となるでしょう。今回はこれらの実現に必要な最先端の音声認識・合成技術とそれらを利用した音声対話システムの展示を行います。これ以外にも、音声合成+Live2Dによる研究室紹介風ノベルゲーム、まるで本物の人に近いフォトリアリスティック発話動画像生成技術、名探偵コナンのようなボイスチェンジャー技術、カラオケでの熱唱度の採点技術など盛りだくさんな内容でお待ちしています!

展示内容(予定)

・青葉山子さんとおしゃべりできる音声対話システム ・いろんなキャラクターによる音声合成 ・名探偵コナンのようなボイスチェンジャー ・人間のような歌声合成デモ ・ディープラーニングで人間の顔画像を生成 「フォトリアリスティック発話動画像生成」 ・声で動く機械

スマホアプリが研究室をナビゲート

SmartCampusへ

音声認識・音声合成

 音声認識とは,簡単に言うと人間の喋った言葉を文字列にする技術です.この音声認識を使うと,映画やニュースに自動で字幕をつける,喋ったり歌ったりしている内容から映像や音楽を検索する,人間の言葉を理解するロボット, 音声の自動翻訳などを実現することができます.
 音声認識では,音声の音響的特徴を表す音響モデルと,音声の言語的特徴を表す言語モデルを使用します.我々の研究室では,音声認識技術のさらなる高精度化や音声認識技術の応用などの様々な研究を行っています.
 
 音声合成とは,テキスト(文字列)から音声を生成する技術です.音声合成はカーナビの案内音声,バスや地下鉄などの公共情報案内など様々な場面で利用されています.従来の抑揚のないナレーションのような声ではなく,抑揚や,感情を込めたより人間らしい自然な音声を合成するための研究をしています.また,最近では音声合成の技術が初音ミクのような歌声の合成にも応用されています.表情豊かでより人間に近い歌声を合成するための研究も行っています.

音声およびマルチモーダル対話システム

 音声認識を応用した対話型システムの研究を行っています. この研究分野では単純に機械への入力を人間の声で行えるようにするだけではなく,SF映画に登場する機械のように, 人間の話すことを理解し適切な応対ができるシステムの実現を究極の目標としています.最近では音声認識を利用したアプリケーションを目にする機会も多くなりましたが, 残念ながら現状のシステムはまだ多くの人に受け入れられている状況にあるとはいえません. 今後音声アプリケーションの普及が進むためには,より柔軟で自然な対話ができることはもちろん, ユーザが使いやすい,使いたいと思うような音声対話システムを実現する必要があります.
 そのため,本研究室ではどのようにユーザとの対話を進行するかという対話の制御方法に加えて, 入力発話から得られた特徴をどのように利用するのか,システムの知識にあたるデータベースをどのように構築するのか, そもそもどのようにデータを用意するのか,といったことを中心として研究を行っています.また,より円滑な機械とのインタラクションを実現するため,マルチモーダルな情報(人の表情やジェスチャー等)を用いた対話や, エージェントを用いた対話の研究も行っています.

音声言語処理を応用した外国語教育システム

 近年の国際化とともに,英語を習得したいと考える人が増えてきています.さらに学校教育において,2011年度から小学校5,6年で英語の必修授業が始まるなど, 国としても早い段階からの英語学習を必要不可欠なものとしていることが伺えます.従来の英語学習では「読む」,「書く」能力に重点が置かれていましたが, 海外旅行やビジネスのような場面での英語を用いたコミュニケーションの機会は確実に増えてきており, それに伴って「聞く」,「話す」といった会話能力の重要性も高まってきています.これらの能力のうち,「聞く」能力に関しては,テレビやラジオの教育番組,CDやDVD教材の普及, インターネットなどによって,比較的簡単に訓練することができると言えます. しかし,「話す」能力については,例えば音読やシャドーイングといった方法にはフィードバックがなく, また,語学留学や英会話学校に通うといった方法も,時間や費用がかかるという問題があることから,気軽にできるとは言えません.
 このような背景により,コンピュータを利用して外国語を学習するCALL (Computer Assisted Language Learning) システムに期待が高まってきており,様々な研究がされています.本研究室では,CALLシステムに音声認識の技術を用いることによって,コンピュータとの対話形式で実践的な 「話す」訓練ができるようなシステムの研究を行っています. 学習者が発話した英文の中から文法的な誤りや発音の誤りを自動的に検出することによって, 効率的な英語の学習ができるようにすることを目指します.