Y Combinator出身のDeepgramは、機械学習を利用して顧客企業のためにオーディオデータの分析をやっている。その同社がこのほど、Kurと呼ばれるディープラーニングツールをオープンソースにした。この分野に関心のある人たちは、自分のアイデアを形にするのがより容易になるだろう。同社はまた、10時間ぶんの録音データを10秒単位に切り刻んたものを、訓練用の教材として提供している。

ディープラーニングライブラリのKerasと同じくKurも、ディープラーニングのモデルを構築して訓練するプロセスを高度に抽象化している。そうやってディープラーニングをより容易にすることによってKurは、画像認識や音声分析などのタスクの、敷居を低くしている。

DeepgramのCEO Scott Stephensonの説明によると、立ち上げ当時の同社はLibriSpeechを使っていた。それは、パブリックドメインのオーディオブックを、初期の機械学習モデルを訓練するために細かく分割した、ネット上のデータセットだ。

しかしDeepgramは、車輪を再発明しているわけではない。同社のデータダンプとオープンソースのプロジェクトがあれば、大学やテクノロジー企業は、Tensorflow, Caffe, Torchなどのフレームワークを利用しやすくなる。画像認識用にはImageNetデータベースがあるし、音声用にはVoxForgeがよく使われているが、オープンソースのデータセットはもっといろいろある方がよい。

“自動運転車も、出発点は画像の分類技術だ”、とStephensonは語る。“つまり、誰かに最初、小さなかけらみたいなものを与えれば、やがて人びとが寄ってたかってモデルを変えるようになり、これまでとは違うことが、できるようになるんだ”。

デベロッパーがKurを自由に使えるようになれば、Deepgramが欲しい人材も育つ。今、機械学習やデータサイエンスの分野では、そういう実地教育を、大手のテクノロジー企業ならどこでもやっているし、成果も上げている。

デベロッパーがモデルやデータセットや重みを共有してイノベーションを加速するためのソーシャルサイトKurhub.comを、もうすぐ同社はオープンする。今日リリースされるデータセット用の重みは、いずれDeepgramがリリースしたいと考えているので、DIY派の人びとも、プロセッサーを酷使する訓練で苦労しなくてもよくなる。10時間のオーディオデータというと、訓練用のデータとして大きくはないが、それでもモデルの訓練にはGPUを使った場合で約1日、一般市販のコンピューターなら相当長くかかる。

Deepgramのデータセットを全部使ったら、適当に自分のデータを加えればよい。必要なものは、音声の録音を10秒単位で刻んだWAVファイルだ。パブリックドメインで提供されている録音データを、データに飢えているディープラーニングのモデルにたくさん食わせてやれば、精度はさらに向上する。

[原文へ]

（翻訳：iwatani(a.k.a. hiwa））