一般的なデジタル音声アシスタントを起動すると、おそらく2種類の性別から会話をする上で好ましいほうを選ぶことになるだろう。男性または女性の声だ。

問題はこの二者択一が、性別の複雑さを正確には表していないということにある。自らを男性にも女性にも同定しない人たちもいる。こうした人々は、自分たちのアイデンティティを反映する音声アシスタントを求めているかもしれないが、そうした希望はいまのところ実現していない。

だが、言語学者、科学技術者、サウンドデザイナーからなるチームが、本物の人間の声をベースとする新しいジェンダーレスなデジタル音声「Q」によって、そんな状況を変えようとしている。このグループを率いているのは、LGBTの祭典として知られる「コペンハーゲン・プライド」と、Vice Media傘下のクリエイティヴエージェンシーであるVirtueだ。

音声アシスタントが強化するステレオタイプ

「Q」が明日にもスマートフォンに登場することはないだろう。しかし、そのアイデアは性別が必ずしも男と女、男性的と女性的の2種類ではないという認識を、テクノロジー業界に広めていくはずだ。

VIDEO BY MEET Q

このプロジェクトは、問題に満ちた新たなデジタル世界に立ち向かおうとしている。音声アシスタントの「Siri」や「Cortana」、「Alexa」がすべて女性の声であるのは偶然ではない。ユーザーは相手が男性の声より女性の声のほうが、より積極的にやりとりすることが研究で明らかになっているのだ。

しかし、デザイナーたちがそうした選択をすることにより、性別のステレオタイプを強化してしまう恐れがある。気遣いができて役に立つAIアシスタントは女性の声を採用し、セキュリティロボットなどのマシンには男性の声を使って権威を示すべき、といった具合だ。

性的に中立な音声をつくる試みは、これまでにも存在していた。しかし「Q」により、テクノロジーをもっとインクルーシヴ（包摂的）なものにするだけでなく、そのテクノロジーを社会問題についての議論を引き起こすために使える可能性がある。

男性または女性らしさの中間にある声

チームがまず着手したのは、自らを男性、女性、トランスジェンダー、ノンバイナリーと識別している20人以上の声を録音することだった。それぞれが、あらかじめ決められた文章のリストを読み上げた。

「この時点では、声をレイヤーとして扱うかどうかはまだ決まっていなかったので、同じ文を、できるだけ同じテンポで読んでもらう必要がありました」と、サウンドデザイナーのニース・ノアゴールは語る。これらの声を合成することで、ある種の平均的な声をつくり出すことは可能だろう。「でもそれは、とても困難でした」とノアゴールは言う。

その代わりにノアゴールは、ひとりの声に焦点を当てた。男性または女性らしさの中間にあると感じられる声の持ち主だ。

男性らしさと女性らしさの判断は、主に周波数、すなわち音の高低に依存する。傾向として男性の声道は大きく、それにより声音が低くなる。だが、145ヘルツから175ヘルツの間にスイートスポットが存在し、この部分はより中性的に感じられることが、調査によって明らかになっている。

この範囲よりも高くなると通常は女性の声として、それよりも低くなるとより男性らしい声として知覚されるのだ。ここに実際に「Q」を試すことができるページがある。インタラクティヴなつくりになっており、画面に表示されたバブルを上下に動かすと声の周波数が変化するのがわかるだろう。

「声なき人々」の声が誕生

ノアゴールは、スイートスポットにちょうど当てはまった人物の声を調整してみることにした。「これは本当に大変でした。声の周波数を上下させると、人間の脳はそれを認識できるのです。これらの声を壊してしまうことなく処理するのは難しい作業でした」

ノアゴールが作成した4種類の声を、チームは欧州に住む4,500人に聞いてもらった。この調査参加者の意見では、ひとつの声が中性的に聞こえるものとして突出していた。

「その結果を聞いて、『これこそがジェンダーレスな声だ。この声の性別は判断できない』との感想を得ました。最初は困難な作業だと思いましたが、4,500人のフィードバックをもらったとき、われわれはやり遂げたと感じたのです」と、ノアゴールは振り返る。その声が「Q」のベースになった。

これで「Q」は、現代テクノロジーのなかの「声なき人々」に対して、文字通り「声」を提供できるようになった。このプロジェクトに声を提供したトランスジェンダー男性であるアスク・スティグ・キストヴァドは、「一般論として、AIだけでなく声に関してもトランスジェンダーを代表するものがあるのは、非常に重要だと思います」と語る。

「大衆文化のなかでトランスジェンダーの人々に焦点が当たるのは、ここ3～5年くらいの新しい現象です」と、キストヴァドは言う。そして開発者たちの一部がそうした状況を受け入れていくのは、極めて自然なことだとも指摘する。

標準とは何かを追求していくこと

このことは、特に音声アシスタントにおいて重要になる。音声アシスタントの市場は少なくとも2023年まで、毎年35パーセントの成長が予想されている。

テクノロジーにまつわる社会問題を調査している「Ethics and Emerging Sciences Groupのリサーチフェローで「Q」のプロジェクトに協力したジュリー・カーペンターは、「人々がテクノロジーとやりとりする方法として、音声アシスタントはますます一般的になっていくでしょう」と語る。「ホームアシスタントに『Alexa』という女性らしい名前を付けることを問題だと思う人たちがいるかもしれません。さまざまな仕事の手伝いをしてくれるのは女性であるという、ステレオタイプを助長してしまうからです」

公平性のために言っておくと、テクノロジー企業が必ずしも故意に、男女というふたつだけの選択肢にうまく収まらない声を除外しているわけではない。だが間違いなく、テック企業はジェンダーレスの声のようなものを開発する能力をもっている。控えめに言っても、製品で標準設定されている声についてこれまで以上に真剣に考え始めることができるはずだ。

おそらくテック企業は（質問を投げかけると回答する、といった）実利的な特性をもつ製品にとって、「標準」から外れるものはすべて人々の気を散らすものだと感じるのだろう。プロジェクト「Q」にかかわった言語学者のアンナ・ヨルゲンセンは、「わたしたちができることのひとつは、標準とは何かを追求していくことであり、それをすべきだと思います」と語る。

人間の境界を動かし、視野を広げる存在に

そして、いまがその好機と言える。より高度なソーシャルロボットが普及し、状況がもっと複雑になろうとしている状況にあるからだ。

例えば人々は、セキュリティロボットに対してはより男性的であると感じるが、同じロボットがガイダンス的な、より権威を必要としない役割をこなすようにプログラムされている場合は、女性的であると感じるということが研究で示されている。ロボットの物理的形状と声の両方を通じたやりとりによって、人々がこのようなバイアスに直面し始めるとしたら、どのような状況になるだろうか？

これは簡単な問題ではない。人間の脳は、性別を厳密に男性または女性とみなすように文化的にプログラムされているからだ。今回の研究には関与していない言語学者のクリスティーナ・ハルグレンは、「『Q』は、わたしたちの心にかかわるからこそ重要なのです」と説明する。「これは人々を箱に押し込めようとする人間の衝動に取り組むものです。ゆえに、人間の境界を動かし、視野を広げる可能性を秘めています」

テクノロジー企業がこのような考えを受け入れるかどうかは、そのうちわかるだろう。受け入れたとしても、「Q」を完全に採用するとは期待しないほうがいい。

未来へと導く先導者になるか

トランスジェンダー男性のキストヴァドは、「ジェンダーレスなAIというアイデアをわたしは支持していますが、5年の間にそれが標準になると想像するのはかなり難しいです。そうなったら素晴らしいことですが、夢物語のように思えます。現実的であるかどうかもわかりません」と言う。

AIやロボット工学には、人間のデザイナーが自身のバイアスをテクノロジーに注ぎ込んでしまう危険性がある。だが、AIやロボット工学には素晴らしい点もある。このようなバイアスやステレオタイプについてわれわれが率直な議論を始めれば、急速に変化するテクノロジー的な未来を、より包摂的かつ啓蒙的なものへとかたちづくることができる、ということだ。

そして、そのような未来にわれわれを導く先導者の声は、「Q」の声によく似ていることだろう。