こんにちは。管理人のピヨ猫でーす。
今回は機械学習を用いたテキスト朗読APIをご紹介いたします。
1.代表的な朗読API
Google Colud text-to-speech
IBM Watson Text to Speech
Microsoft Azure Text to Speech
Amazon Polly
2.ディープラーニングで進化する朗読機能
朗読機能へのディープラーニング(深層機械学習)の活用
テキストを朗読してくれるソフトは昔からありましたが機械的で感情の無い朗読でした。
しかし、昨今は、ディープラーニング(深層機械学習)を用いることで、単語単語を読み上げるのではなく、言葉の繋がりを予想し文章を読み上げることが可能となります。
これにより、流暢に読み上げる、話の流れに合わせて漢字の音読み・訓読みを切り換える等が可能となり、今までの朗読ソフトより人間に近い朗読が可能となります。
朗読機能を支えるRNN(リカレントニューラルネットワーク)
言葉の繋がりを予想する方法としてはRNN(リカレントニューラルネットワーク)という技術が用いられています。
何時かこのブログでも詳しくRNNについても紹介したいと思いますが、今回は説明を省略します。
詳しく知りたい方向けに、RNNについて詳しく記載されたサイトのリンクを掲載しておきます。
3.朗読APIのお試しサイトのご紹介
APIを実行せずとも、GoogleとIBMの各サイトにてGUI上からお試しの朗読が出来ますので、リンクを掲載いたします。
興味がある方は是非、試してみて下さい。
なお、英語の場合は、読み手を男女に切り替えたりできるのですが、日本語はまだ読み手のパターンが少なく、Googleが2パターン(女性)、IBMが1パターン(女性)のみでした。これから増えることに期待です。
Google Colud text-to-speech
IBM Watson Text to Speech
Microsoft Azure Text to Speech
- デモサイト(お試し翻訳サイト)
※デモサイトでは任意のテキストの朗読では出来ません。 - サポートされている音声と言語
Amazon Polly
- デモサイト(お試し翻訳サイト)
※デモサイトでは任意のテキストの朗読では出来ません。 - サポートされている音声と言語
4.朗読APIの精度を比べてみた
読み込んだ文章
1.代表的な朗読API
2.何故、機械学習か?
3.Google CloudとWatsonのお試しサイトのご紹介
4.各ソフトの朗読を比べてみた
5.まとめと次回予告
各ベンダーの朗読API検証結果
ベンダー | サービス名 | 結果 | 感想 |
---|---|---|---|
Google Colud text-to-speech |
Google TextToSpeach.mp3 |
Cloud、Watson等の単語も正しく発生出来ましたが、ドットを正しく読み上げられませんでした。 |
|
IBM |
IBM Watson Text to Speech |
綺麗に読み上げてくれました。 |
|
Microsoft |
Azure Text to Speech |
綺麗に読み上げてくれました。 |
|
Amazon |
Amazon Polly |
未検証です。 |
未検証です。 |
非機械学習の朗読ソフト |
TextTalk(フリー) |
Cloud、Watsonといった単語を読み上げれませんでした。 |
5.朗読APIの紹介まとめ
まだまだ発展途上感はありますが、IBMとMicrosoftは良い感じでした。
次回はWatsonかAzureにMyブログを朗読してもらおうと思います。
本日は以上です。少しでも記事がお役に立てば幸いです。