27日、インターシステムズジャパン株式会社は、自然言語解析技術「iKnow」の日本語対応版を正式発表した。データプラットフォーム製品「Caché」の組み込み技術として提供される。

iKnowは、文章という非構造化データを、意味のあるデータ項目(構造化データ)に変換できる自然言語解析処理技術。

従来、日本語の言語解析は、予め定義した辞書やオントロジーに基いて単語に分割する「形態素解析」と呼ばれる手法による解析が一般的だったが、iKnowでは、言語構造を基に、文章そのものから意味のある一連のユニット(エンティティ)を見つける「ボトムアップ手法」による解析を行なう。そのため、辞書などを予め定義したり、それらをメンテナンスするといった作業が不要となる。

同社では、文章の中から意味のある最大単位のエンティティを認識し、エンティティ同士の関連性を占める近接性(Proximity)や、文章内での特定のエンティティの優位性(Dominance)を算出し、非構造化データの内容を理解・活用するための解析技術を提供し、ユーザーは、検索する対象が不明な場合でも、文章の中から“本質”を発見することが可能であるとしている。

国内では、データキューブ株式会社が、臨床データ分析システム「medCube」にiKnowを利用したフリーテキスト検索/解析機能を加えてアプリケーションの拡張を行なっており、2017年1月より熊本大学医学部付属病院で試行的活用を開始する予定であるほか、京セラ丸善システムインテグレーション株式会社が、公共図書館向けシステム「ELCIELO」に、iKnowを利用した検索機能を搭載する予定。

都内で開催された記者説明会には、米InterSystems iKnow プロダクトマネージャーのベンジャミン・デ・ボー氏、インターシステムズジャパン株式会社シニアコンサルタントSEの堀田稔氏らが登壇。

例として医療機関の場合、血圧や処方履歴などはチャート化できるが、患者の発言や担当医の聞き取りメモなど、文章データを活用するには特別な加工と理解が必用となる。

ボー氏は、大量のデータを活用するためには、理解しやすく扱いやすい構造化データへの変換が必用となると述べ、iKnowは文章を数量化し、まとめることで、ダッシュボード上で簡単に扱えるデータに変換するとした。

従来の形態素解析と呼ばれる「トップダウン」型のアプローチでは、文章を単語で切り分け、出現頻度を計測し、上位の単語が文章内容と妥当性が高いと推測していく形となる。

また、分析を行なう際には、1つの単語に切り分けた後、言語によっては8個以上という複数個での組み合わせで、辞書データをもとに解析する。

同氏は、このアプローチでは、同じような単語を使っている文章の場合、意味異なっても同じ結果を吐き出してしまうため、文意が維持されないほか、個人の名前や場所の名称など、毎日新しい単語が追加されていくため、辞書の管理が非現実的になると指摘。

iKnowでは、「ボトムアップ」型アプローチを取っており、コンセプトを抜粋し、文の意味を維持できるという。具体的には、文の中でエンティティでないもの(要素の中で単語でないもの)を探すという形で分析を行ない、その分析結果を基に、テキストのデータ探索のほか、トレンドの分析、情報の抽出を提供する。

例を挙げると、「新しい再生医療として、歯髄細胞を使った治療法が注目されています」という文を分析する場合、形態素解析では、「新しい/再生/治療/と/して、歯/髄/細胞」のように、文法的役割を持つ最小単位に分解してしまうため、意味の異なる「治療髄細胞として、再生法を使った新しい医療歯が注目されています」という文章を分析した場合で、結果からでは差が分からなくなってしまう。

iKnowでは、最大単位の意味を特定し、関係性のマトリクスから、文のコンセプトへの関係の有無を判別、最も関連性の高い部分を抽出できるため、「新しい再生医療/として、/歯髄細胞/を使った/治療法/が注目されています」のように、新しい再生医療、歯髄細胞、治療法という文意に沿った3つのエンティティを抜粋できるという。

堀田氏によって行なわれた日本語版デモでは、直近1カ月で報道されたニュースをデータとして読み込ませ、「安倍総理大臣」の類似エンティティとして「安倍総理大臣の所信表明演説」を挙げたほか、「トランプ氏」と近接性の高いエンティティとして「クリントン氏」、「女性」などを挙げるなど、辞書なしに高い関連性の語句を提示していた。

ブラックリスト機能のほか、より専門性の高い内容や類似項目を登録し精度を高める辞書機能も備えている。