はてなブックマーク でも話題になっている Google の大規模日本語データ公開に関する特別セッション@NLP2007に，家が近いこともあり参加してきましたので，その詳細を書きます．

Google は日本語の言語処 理研 究のためにWebインデックスから作成した コーパス データの公開を予定しており，そのデータの形式や内容を含めた概要のたたき台を公開し，これらに対する研究者の意見を広く募りたい．

会場や交通手段の時間の関係で全体での質疑応答は割愛されました．個別の質疑応答やメールでの質疑応答でお願いしますだそうです．

これまでのブログ界隈の反応

もしかして Google の持っている大規模日本語データって、著作権者は Google じゃないんでは。いや、実際どういうデータを公開するのか知らないけど、その辺の権利関係も明確にしてから公開するんならすごいな。

多くの方が危惧されているように，Webデータの著作権はGoogleにはないので，オリジナルの文章を再現できないことという前提条件の下，元の文章を機械的に処理した上で日本語コーパスデータとして公開するようです．

大規模Webデータといっても，かなり学術的なデータになるようで，言語処理やそこに関わる研究分野としては，今までになかった*1「書き言葉・話し言葉」での大規模なコーパスデータは歓迎できるものではないでしょうか．これによって，新しくおもしろい研究が生まれるといいですね．

なお，コーパスとか著作権，係り受け解析などの専門的な内容は誰かが解説してくれるのではないかと期待しつつ書いてみるメソッドを発動します．