音声コンテンツや音声プラットフォームが注目を集める昨今。
いま、参入を考えている皆さんに当社が強く訴えたいのは
「テキスト原稿をTTS(Text to speech)で読ませれば
 効率的な音声コンテンツ制作が可能になる」という考えは正しくないということです。
特に一定以上の尺があるとき、TTSはワンポイントリリーフに留めるべきです。

例えばYouTubeには、ナレーションが全てTTSで生成されたVtuberコンテンツがありますが、
試しに音声のみで聴いてみてください。ずっと聴き続けるのはかなり苦痛が伴います。
聴覚のみを占有する音声コンテンツは、音声そのものを高度化しないとダメなのです。
「聞こえるコンテンツ」と「聴けるコンテンツ」には、大きな違いがあります。

話すことのプロであるアナウンサーと素人さんの違いは、
正確なアクセントやイントネーション、間の取り方、強調の仕方(プロミネンス)など多岐にわたります。
それらの技術が統合されて「表現力」となり、聴覚のみでも理解させられる「音声コンテンツ」になるのです。
それは、人間のプロとアマチュアの力量の差でも実感できるものだと考えます。

当社ではこれまで、幾つかの企画でTTSを実際に利用しましたが
結論として「ワンポイントリリーフなら活用できる」という評価に行き着きました。
短い尺ならある程度耐えることができます。しかし短いTTSでも、色々なパラメータを操作します。
結果生身の人間が話すことと然程業務コストは変わらず、しかも出来上がったものは
プロのナレーションに比肩することはありません。

「充分な機能を持たない音声でコンテンツを届ける」という行為は、
これまで送り手側が担っていた「理解できるように届けるための努力」をリスナーに転嫁するものです。
放棄したコストをリスナーに任せて、あなたのコンテンツはキチンと届きますか?
期待した反応を得られますでしょうか?それはとても大切な視点です。

音声コンテンツの効率化は、音声そのものをデジタルに代行させることではありません。
パソコンを使っていると、ヘヴィユースになるほど「PCが自身の意志についてこられない」という
状況になることが増えてきませんか?
人間の感覚器は非常に高度なシステムであり、その表現の主力である「ことば」をPCが担うことは、
残念ながら現時点ではかなり難しいのです。

本来音声コンテンツの制作コストは「映像に較べれば安い」という程度で、
「PCとかでチャチャっとやっちゃって〜」が出来ない性質のものです。
ラジオ局やレコード会社が大規模なスタジオや高額の機材で音声コンテンツを作るのは、
「よりよく届くコンテンツに仕上げる」というプロの視点と技術があるからです。
それはムダ、あるいは過剰なものではないのです。

とはいえDXの時代、効率化や高速化、コストパフォーマンスの高度化に背を向けるつもりはありません。
SEVENはそこに様々な手段で取り組んでいます。音声DXには、やはり音声のプロを活用してください。
あなたのコンテンツの価値を高めるための施策をご提案します。