コラム~音声合成と音声認識

Top>Topics>コラム>音声合成と音声認識

Topics

 

 

森村 久美子

東京大学非常勤講師

 

 昨年頃からGoogle homeやAmazon echoなどのスピーカーフォンのようなものが登場し、 これらのスマートスピーカーに向かって「OK, Google、電気を消して」とか「Alexa, ワインを注文して」などと言うとそれを実行してくれるという様子がCMなどで映し出され、 1) 意外にお手頃な価格で提供されたので思わず入手してしまったという人も少なくないのではないでしょうか。


 実際に使っている人はその便利さを楽しんでいるようですが、こんな執事や召使いのようなことをクラウドがやってくれるというのは、我々にとってはまさにSF映画の世界にいるようでありにわかには信じがたいのですが、高校生諸君にとってはどんな感覚なのでしょうか。科学的に言えば、コンピュータが私たちの話していることを理解し、それに反応する。そこには音声認識という技術があるのです。


 AIの発達によりコンピュータが何でもやってくれるという話は「シンギュラリティは近い」というタイトルで今年の初めにも書きましたが、今回はAIによるテキストの音声化(音声合成)と音声認識によるテキスト化の話をしましょう。

 

 コンピュータと音声ということで筆者が最初に興味を持ったのは、テキストの読み上げ装置についてでした。義務教育に突然英語が導入されて入ってきて、これまで英語と無縁だった小学校の教員が英語を教えなくてはならない、しかも自分たちが高校で学んだ文法や英作文ではなく、読んだり、聞いたり、話したりが必要になる。読むと言っても黙読ではなく、声に出して読むことでスピーキングへ繋げようとするものです。もともと小学校の教員になるために英語をしっかり勉強したという人の話はあまり聞いたことがありません。そのスキルが必要だとされていなかったからです。それが急に、英語をネイティブのように話そう、外国人が話しているのを聞き取ろう、と言われても非常に困ってしまうに違いありません。そこで 2) 英語の読み上げがネイティブレベルでできる装置があれば喜ばれるのではないかということを英語教員として考えたのです。

 

 もちろんCDやDVDなどの音声教材もたくさん市販されてはいますが、必ずしも授業で使いたい教材が手に入るとは限りません。普段読んでいる英語の記事をネイティブの発音で読み上げてくれたら、学生が話すときの発音の訓練にもなるし、ネイティブの音を聞くリスニングの訓練にもなります。また、先に音声化されたオーディオ教材と違ってこれは種類が無尽蔵です。最近ではiPhone上のウェブ記事やニュース、さらには iBooksやKindleの書籍も英語で読み上げてもらえるようになっています。発音はかなりなめらかで不自然さはなくなっていますし、おまけにスピードを自分の聞き取り能力に合わせて調節することができるのも嬉しいです。

 

 高校生の皆さんには、新しい単語を学んだ時には必ず発音をチェックするようにしてほしいのですが、ウェブ辞書などにはスピーカーマークが付いていてこれを押せば正しい発音が聞けますが、iPhoneの読み上げ機能ではこれに内蔵されている機能を設定すれば読みながら新出単語の発音や意味を確認することもできるのです。

 

 また、機械的な音声を好まない人も多いでしょうが、それもかなり改善されていて、さらにSiriやSamanthaなど好みの語り手の音声も選べるようになっています。最近では中性的な声の研究もされているようです。

 

 3) 皆さんもこの読み上げ機能をうまく利用すれば、ネイティブ並みの発音を学びながら通学時間や隙間時間を使ってたくさんの本を読むことができるでしょう

 

 読み上げ、つまり音声合成(text to speech)に関してはこのようにかなり進んでいますが、音声認識(speech to text)の場合はどうでしょう。

 

 これは技術的にはDeep learningのNeural networkingを利用して自動音声認識から音声検索やテキスト化(文字起こし)に活用するものです。

 

 Googleでは、Oxford Dictionaryに収納されている語数の10倍の語彙を認識でき、120の言語と方言に対応できると言っており、ストリーミング(リアルタイムで流れている)の音声にも録音された音声にも対応できると言っています。また発話者が複数の場合はそれも認識でき、ノイズやコンテクスト上不適切なコンテンツを除くこともできると言っています。かなりの技術ですね。

 

 しかしながら、これまでローカルのデバイス(スマートフォン)からサーバーへ飛ばし、そこで音声を認識、それをテキストに変換して返す、という一連の流れが必要だったため、かなり長い時間がかかってしまったり、途中で止まってしまったりという問題がありました。しかしそれをクラウドまで飛ばさずローカルデバイスの中ですべて行う、つまりオフラインで行うとなると、理論上は速いのですがそのためにはデバイスに莫大なデータ量を載せることが必要となり、かえって遅くなるという問題がありました。その後Googleの技術進歩によって必要なデータ容量をかなり減らすことで実行可能となりました。つまりスマートフォン上であまり遅延を感じずに音声認識を行うことができるようになってきたのです。しかし、これには制限があり、GoogleのPixelスマートフォン上のGboardというアプリでしか作動しない、さらに言語は米語に限られるというのです。これでは米国内でしか使えません。これをローカライズしてどの言語でも使われるようにするには各国での改善が必要になるのです。

 

 現在、この技術は米国のみならず様々な国で研究が進んでいて、そのうちシームレスにいろいろな言語間の認識やテキスト化がスムーズにできるようになるでしょう。最近では自動翻訳機が発売され話題を呼んでいますが、これも 4)話しかけた言葉をオンラインで音声認識、テキスト化を行い、それを翻訳して音声を合成し戻してきます少しのディレイはありますが、あまり気にならない速度で行なうのですからたいしたものです。自分の言語で話しかけるだけで希望の言語に訳してくれるのですから、海外からたくさんの訪問客を迎える東京オリンピックへ向けてどんどん進歩し、普及していくのではないでしょうか。音声認識、音声合成の技術の進歩とともに。

 

 

※ コラム記事の下線部分1, 2, 3, 4 とその英訳例

 

1)意外にお手頃な価格で提供されたので思わず入手してしまったという人も少なくないのではないでしょうか。

 

2)英語の読み上げがネイティブレベルでできる装置があれば喜ばれるのではないかということを英語教員として考えたのです。

 

3)皆さんもこの読み上げ機能をうまく利用すれば、ネイティブ並みの発音を学びながら通学時間や隙間時間を使ってたくさんの本を読むことができるでしょう

 

4)話しかけた言葉をオンラインで音声認識、テキスト化を行い、それを翻訳して音声を合成し戻してきます

 

 

1)I guess there are not a few people who acquired this product without noticing because it was provided at an unexpectedly reasonable price.


2)I, as an English teacher, thought it would be appreciated by those teachers if there were a system that could read English at the native level.


3)You will be able to read many books during commuting time or any spare time while learning native-level pronunciation if you utilize this reading function well.


4)It will recognize the spoken words online, make text, translate and return the speech back.

このページの先頭へ
コラムカテゴリ
ELEC