AIが声を失ったラジオ記者の声を復元 放送復帰へ＝米

マリー＝アン・ラッソン テクノロジー担当記者、BBCニュース

画像提供, Jamie Dupree 画像説明, ジェイミー・ドゥプリーさん

2年前に病気で声を失った米国のラジオ・ジャーナリストが、人工知能（AI）のお陰で放送に復帰する。コックス・メディア・グループで働くジェイミー・ドゥプリーさん（54）は、珍しい中枢神経疾患にかかり、しゃべることができなくなっていた。

ドゥプリーさんの新しい声は、スコットランドのセレプロック社の手によって作られた。

同社の技術ではドゥプリーさんの過去の音声記録を使い、脳神経を模した学習システム「ニューラルネットワーク」に、ドゥプリーさんがどのようにしゃべるのかを推測させる。

ドゥプリーさんはBBCの取材で、「この技術のお陰で仕事を確保し、家族にもひどい財政難を味わわせずにすんだ」と話した。

「しゃべれないラジオ記者の需要はそんなにないので」

一般的には誰かの声を作るとき、必要なデータを集めるためには30時間にわたって文章を読む必要がある。

AIはこの音声ファイルから単語を切り取って状況に合わせてつなげるか、その人のしゃべるパターンを推測・模倣するか、どちらかの動作を行う。

どちらの方法も何万ポンドものコストがかかり、1つの声を作るのに1カ月を要する。

＜おすすめ記事＞

神経回路

このプロセスを短縮し、より安価で提供するため、セレプロックは2006年から独自のニューラルネットワークを開発し始めた。

今では、ウェブサイトに載っている文章を録音すると、500ポンド（約7万3000円）で数日間で音声を生成してくれるようになった。

画像提供, CereProc 画像説明, 自身の声を録音すると、人口音声が生成される

6～10層から成るニューラルネットワークは、オーディオ記録に含まれる単語を発音ごとに切り分けていく。

AIは読まれた単語を1語につき100個の要素を細切れにする。これを数多くの一般的な単語で繰り返すことで、最終的にはその人物がどのように発音しているのかを理解し、単語に含まれる全ての要素について決まった順序があることを突き止める。

それからニューラルネットワークが独自の音を生成し、その人物が話したとき、会話で使う単語がどのように聞こえるかを推測する。

世界中のコンピューター科学者が、ニューラルネットワークに人間の脳を模倣をさせるため、画像認識できるよう訓練してきた。しかしセレプロックによると、AIにとっては音声の方がもっと簡単だという。

同社のクリス・ピドコック創業者兼最高技術責任者（CTO）は、「AI技術は小さく範囲が限定された問題でこそ活躍する。誰かの話し方をまねることは、ディープニューラルネットワーク（深層学習するシステム）が得意とすること」と説明する。

「（AIにとっては）機械学習よりも簡単に解決できる問題だ」

病気で声を失う

ドゥプリーさんは過去35年間、ワシントンの米議会から政治ニュースを報じ続けてきた。またジャーナリストとして6つのラジオ局で番組制作に関わっており、彼の声は仕事に不可欠なものだ。

ドゥプリーさんが声を失い始めたのは2016年のことだったが、声帯や気管、喉頭には異常がなかった。

何カ所もの大学病院の医師を悩ませた結果、ドゥプリー氏は最終的に舌突出ジストニアと診断された。しゃべろうとすると舌が前に突出し喉が締まってしまうという珍しい神経疾患で、これによって彼は一度に3語ほどしかしゃべれなくなってしまった。

しかしドゥプリーさんは仕事を離れようとはせず、議員との一対一のインタビューでは質問をタブレットに書き込んで見せたり、議会の合間に他のジャーナリストへの質問に対する答えを録音したりして仕事を続けた。

画像提供, Jamie Dupree 画像説明, ラジオ局でのドゥプリーさん

しかし番組の制作や執筆は続けていたものの、書いた内容を自身で報道することができなくなったため、ドゥプリーさんは放送からは完全に離れてしまった。

これがメディアの目にとまり、コックス・メディア・グループはドゥプリーさんを放送に復帰させる方法を探し始めた。同社は、30年近くにわたるドゥプリーさんのラジオ放送の記録を持っていた。

新しい声

ドゥプリーさんはセレプロック社によるコンピューター生成された音声を使い、6月25日から米ABC傘下のWSBアトランタ（ジョージア州）と、コックス・メディアが保有するオーランド（フロリダ州）、ジャクソンビル（同）、デイトン（オハイオ州）、タルサ（オクラホマ州）の各放送局でラジオに復帰することが決まった。

ドゥプリーさんは新しい声を使い、自身が書いた原稿をパソコン上の音声読み上げソフト「バラボルカ」に読み込ませ、音声録音を作ることができるようになった。

録音された単語やフレーズの発音が正しくない場合は、子音や母音を遅くしたり、正しく発音されている単語に置き換えたり、音程を変えたりできる。このようにして、1つの報道を7分ほどで作ることができる。

「これは私です。間違いなく」とドゥプリーさんは話す。

「確かにわずかに機械的ですが、誰も完璧な肉声になるとは言っていませんでしたから」

ドゥプリーさんは家族や同僚と話すときはタブレットを使ったり、数単語ずつゆっくり話したりしているというが、新しい声を得たことで人生が大きく変わったと語った。