ボランティアによる入力・点検作業の実際

“青空文庫 作業チュートリアル”では、実際の入力作業や、青空文庫の仕様に合致させるための点検作業がどのように行われているかなどの実演が行われた。きめ細やかな品質管理を行うためとはいえ、筆者が事前に想像していた以上に手作業が多く、富田晶子氏によると『デジタルだけど家内制手工業』だという。

“どの本を入力するか？”はボランティア工作員自身の意志で決められ、底本の確保も自分で行い、入力申請を行う。点検チームは申請に基づき、著作権が切れているか、底本に問題はないかをチェックし、入力作業のGOサインを出す。底本は古い場合が多くそのまま使うと痛んでしまうため、大久保ゆう氏はコピーをとって書見台に置いているそうだ。

底本の状態がいい場合は、スキャンして取り込み、OCR（光学的文字認識）を利用する場合もあるという。ただ、いちから手入力だと作品の内容を追いかけられるので入力作業も楽しめるけど、OCRは機械的な作業なので地道すぎて病んでくるそうだ。

なお、青空文庫のテキストデータには入力ルール（注記一覧）があるが、これは青空文庫オリジナルではなく、視覚障碍者読書支援協会のマニュアルを参考にし、そこから独自に発展させていったのだという。例えば旧字は現代表記で入力するルールになっている（“渚”→“渚”など、“旧字、旧仮名で書かれた作品を、現代表記にあらためる際の作業指針”参照）。そのため、入力時には1文字ずつ判断が必要になるのだという。

入力の次の工程である点検作業は、非常に細かなルールが規定されており、その次の工程の校正作業とはまた違った様式のチェックが必要となる。正規表現を活用して入力データを検索し、ミスがないかどうかのチェックを行うといった作業をいくつも行うことになる。

例えば、機種依存文字の混在を調べられる「チェッカー君」や、旧字のファイルに紛れ込んだ新字や俗字を調べられる「校閲君」など、自動でチェックできるツールも有志の手によって用意されている（結城浩氏による“青空文庫の応援ページ”）。

しかし、そういったチェック項目は、当セッションにおいて確認できただけで16項目ほど存在している。文末の余計な空白や、半角記号やアルファベット（全角にする）、OCRで混在するひらがなの“へ”“べ”“ぺ”とカタカナの“ヘ”“ベ”“ペ”のチェックなど、良質なテキストデータを提供するためには非常に地道な作業が必要なのだ。

質疑応答では、青空文庫のデータにはシフトJISコードが用いられているため、海外の方がファイルを開くと文字化けしてしまうなどの問題が指摘された。Unicodeを採用すると、旧字をどうするか？ などのルール変更が必要なので、これからの青空文庫の課題として考えていきますという回答がなされた。