大手ベンダー4社のAI朗読APIを徹底比較しました

こんにちは。管理人のピヨ猫でーす。
今回は機械学習を用いたテキスト朗読APIをご紹介いたします。

1.代表的な朗読API

 Google Colud text-to-speech

Google Colud text-to-speech
cloud.google.com

 IBM Watson Text to Speech

IBM Watson Text to Speech
www.ibm.com

Microsoft Azure Text to Speech

Microsoft Azure Text to Speech
azure.microsoft.com

Amazon Polly

Amazon Polly
aws.amazon.com

2.ディープラーニングで進化する朗読機能

朗読機能へのディープラーニング(深層機械学習)の活用

テキストを朗読してくれるソフトは昔からありましたが機械的で感情の無い朗読でした。
しかし、昨今は、ディープラーニング(深層機械学習)を用いることで、単語単語を読み上げるのではなく、言葉の繋がりを予想し文章を読み上げることが可能となります。
これにより、流暢に読み上げる、話の流れに合わせて漢字の音読み・訓読みを切り換える等が可能となり、今までの朗読ソフトより人間に近い朗読が可能となります。

朗読機能を支えるRNN(リカレントニューラルネットワーク)

言葉の繋がりを予想する方法としてはRNN(リカレントニューラルネットワーク)という技術が用いられています。
何時かこのブログでも詳しくRNNについても紹介したいと思いますが、今回は説明を省略します。

詳しく知りたい方向けに、RNNについて詳しく記載されたサイトのリンクを掲載しておきます。

products.sint.co.jp

3.朗読APIのお試しサイトのご紹介

APIを実行せずとも、GoogleとIBMの各サイトにてGUI上からお試しの朗読が出来ますので、リンクを掲載いたします。
興味がある方は是非、試してみて下さい。
なお、英語の場合は、読み手を男女に切り替えたりできるのですが、日本語はまだ読み手のパターンが少なく、Googleが2パターン(女性)、IBMが1パターン(女性)のみでした。これから増えることに期待です。

Google Colud text-to-speech

IBM Watson Text to Speech

Microsoft Azure Text to Speech

Amazon Polly

4.朗読APIの精度を比べてみた

読み込んだ文章

【目次】
1.代表的な朗読API
2.何故、機械学習か?
3.Google CloudとWatsonのお試しサイトのご紹介
4.各ソフトの朗読を比べてみた
5.まとめと次回予告

各ベンダーの朗読API検証結果

ベンダー サービス名 結果 感想
Google

Google Colud text-to-speech

Google TextToSpeach.mp3

Cloud、Watson等の単語も正しく発生出来ましたが、ドットを正しく読み上げられませんでした。
また、長い文章の場合、非常に処理に時間がかかりました。

IBM

IBM Watson Text to Speech

Watson TextToSpeach.mp3

綺麗に読み上げてくれました。

Microsoft

Azure Text to Speech

textalk(Haruka).mp3

綺麗に読み上げてくれました。
※ Azureは登録しないと試せず未検証です。何時か掲載します。
今回は、恐らく似たような結果であろうMicrosoft Haruka(Microsoftの無償の音声合成エンジン)を使って検証しました。

Amazon

Amazon Polly

未検証です。

未検証です。

非機械学習の朗読ソフト

TextTalk(フリー)

textalk.mp3

Cloud、Watsonといった単語を読み上げれませんでした。

 

5.朗読APIの紹介まとめ

まだまだ発展途上感はありますが、IBMとMicrosoftは良い感じでした。
次回はWatsonかAzureにMyブログを朗読してもらおうと思います。

本日は以上です。少しでも記事がお役に立てば幸いです。

がんばろー

広告




スポンサーリンク
広告




広告




シェアする

  • このエントリーをはてなブックマークに追加

フォローする

スポンサーリンク
広告