第3回 「ググる」の精度を高めるために必要なもの

加山恵美

2006/3/15

いま、現場で求められているキャリアやスキルは、どんなものだろうか。本連載では、さまざまなITエンジニアに自身の体験談を聞いていく。その体験談の中から、読者のヒントになるようなキャリアやスキルが見つかることを願っている。

グーグルでソフトウェアエンジニアとして働く工藤拓氏。現在の業務は日本語の検索結果の質を向上させることだ。奥が深く難しい仕事だが、工藤氏はマイペースで取り組んでいるように見える。悠然と構えるのは天性なのかもしれないが、長年培った高い専門能力からくる余裕もあるのだろう。おっとりしているようでも、機会を見つけて俊敏に行動する勘はとても鋭い。

■ 検索結果の精度を高める

「いまの仕事は『縁の下の力持ち』です」と語るグーグル ソフトウェアエンジニアの工藤拓氏

分からないことがあれば「ググる」。あえて説明するのもやぼだが「Googleで検索する」ことをいう。ネットを使う人間なら、「ググる」のは日常茶飯事だろう。検索エンジンGoogleは、名前が動詞になって定着するほどの地位を確立している。キーワードを入力すれば探しているWebページを瞬時に示してくれるからだ。

「ググった」検索結果の精度を高めることが工藤氏の仕事である。精度はGoogleの性能そのものであり、信頼性を左右する重要な要素だ。とはいえ、望みのページを的確に表示するための技術は実に奥が深い。

多くのWebサイトが検索エンジンで上位に表示されることを狙っている。一般的にはページにキーワードを埋め込んだり、リンクされたりすることが有効となるが、不当な手段を用いるケースも後を絶たない。いかに不適切なものを排除して適切なものを選び出すか。それには継続的な努力が必要となる。

スペルミスと思われる単語が検索された場合、「もしかして：」と似たスペルの正しい単語を候補として表示する機能もある。人間なら何げなく思い浮かべることができても、機械にとっては簡単ではない。

さらに日本語の検索結果となると、日本語の構造や特殊性も考慮する必要がある。「日本語は英語と違い、スペースで単語が区切られていませんから」と工藤氏はいう。まず単語を分解することから始めなくてはならない。

■ 日本語の機械処理は難しい

工藤氏の専門は日本語の機械処理だ。福岡出身で、大学入学以降は京都と奈良で過ごした。奈良先端科学技術大学院大学（NAIST）では主に日本語の研究に携わった。日本語研究というと文学的なものを連想するが、至って科学的なものである。日本語をシステムで解析するための研究だ。身の回りにある任意の物質を実験室の分析機にかけ、化学組成を調べるようなイメージに近いのではないだろうか。

「日本語は係り受けが難しいのです」

工藤氏はそう語る。一見同じ構造の文でも、場合によって異なる係り受けになることがある。例えば「京都の美しい寺」と「仏像の美しい寺」というフレーズでは、「京都の」と「仏像の」の係り受けが異なるようにだ。日本語を母語とする人間なら無意識のうちに理解できるが、機械が処理できるようなロジックを考えるのは簡単ではない。海外の人が日本語を学ぼうとするとかなり苦戦するなど、言語としての日本語の難しさもよく耳にする。複雑な言語である日本語を機械処理するには困難も多いのではないだろうか。

続けて「面白い試みをしたと聞いたことがあります」と工藤氏は日本語処理研究の学会で耳にした実験に話を移した。機械翻訳がどのくらい実用的なのか調べるために、機械翻訳のみで日本人と外国人で会話を試みたという。実験の参加者は相手の言葉を多少は理解しているが、あえて母語のみを使い、必ず機械を通じて会話するというルールにした。

機械翻訳の精度はさておき、興味深い展開になったという。人間が思うままに話すと機械は完全には理解できず、翻訳すればさらに言葉として劣化する。つまり意図が十分盛り込めなかったり、ぎこちない表現となったりする。機械翻訳を試したことのある人なら想像はつくだろう。

その結果、人間の方が機械に合わせて言葉を選び始めたというのだ。機械が言語を理解しやすいように単純な文章にしたり、直訳した文章のような言葉で話すようになったという。機械への譲歩というべきか。これはこれで人間の高度な能力を示しているのかもしれない。

■ 週末には趣味でツールを作成

機械翻訳をはじめ、その前段階となる日本語の解析など、研究そのものは「地味でした」と工藤氏はいう。最終的にはPhD（博士号）を取得した。

その後、京都にある企業に契約研究員という形で1年ほど勤めた。通信系の企業で、日本語の機械的な言語処理や音声処理を研究していた。電子メール本文からスパムメールかどうかを判断するようなことにもかかわったという。

企業の研究員でいる間も、大学の研究室とは親しくしていた。その企業で働くことにした理由の1つに「NAISTから近かったので（笑）」ということがあったくらいだ。研究員だったため、就労時間も比較的自由だった。頻度はまちまちではあるが、おおよそ勤務時間の1割くらいは大学の研究室に足を運んでいたという。

日本語変換の話をしていて、筆者が目にしたAjaxで作られた日本語変換ツールに話題が移ると、工藤氏はぼそっと「たぶん、それぼくのです」といった。確かにそのとおりだった。研究員をしていたころ、片手間に作成したという。Ajaxの活用事例としても、日本語変換のない環境での実用的なツールとしても隠れた人気を博しているものだ。

「週末に集中的に仕上げました」

あっさりという。趣味のツールとはいっても、週末だけで仕上げてしまう手際の良さは見事だ。ひとたび何かに取り組むと一気に仕上げてしまう能力と集中力があるのだろう。工藤氏は「週末よくこういうのにかかりきりになりますが、（熱中しすぎると）家族に怒られてしまいます」と肩をすぼめていた。