はじめに

こんにちは。エクサウィザーズAIエンジニアの須藤です。

昨年の弊社忘年会の出し物として、落書き判定モデルを作りました。お題に合わせて絵を書いて、AIにそれと判定させたら勝ちになるゲームです。思いのほかちゃんと判定してくれて、ほっとしました。取り立てて目新しさはありませんが、皆さんにも遊んでいただきたいと思い、ここで紹介します。

exaBaseのモデル詳細ページで実際に遊べます。ブラウザだけで動作しますので、お気軽にお試しください。

データセット

Googleが提供しているQuick, Draw!というゲームのデータを使用します。これは、お題に合う絵を描いて、AIに判定してもらうというゲームです。制限時間は20秒で、AIが候補に挙げた時点でクリアとなります。世界中のプレーヤーによって描かれた絵が、学習用データベースとして無償で提供されています。

データセットには

ストローク
ストロークを画像(28x28x1)にしたもの
カテゴリー
国情報
時刻情報

などが含まれています。今回は画像とカテゴリーだけを用いて学習を行います。ストロークを利用する学習モデルについては、以前の川畑さんの記事をご覧ください。

画像データはカテゴリー別にNumPy形式のバイナリファイルになっていて、Pythonで

np.load('cat.npy', mmap_mode='r')

とすると読み込むことができます。 1500万人が遊んだというだけあって、約5千万サンプル、約40GBの巨大なデータです。

カテゴリーは以下の通りで、全部で347あります。

エッフェル塔万里の長城モナリザ空母飛行機目覚まし時計救急車天使動物の移動蟻金床りんご腕アスパラガス斧バックパックバナナ包帯納屋バット野球バスケットバスケットボールコウモリバスタブビーチくまあごひげベッド蜂ベルトベンチ自転車双眼鏡鳥誕生日ケーキブラックベリーブルーベリー本ブーメランボトルキャップ蝶ネクタイブレスレット脳パン橋ブロッコリーほうきバケツブルドーザーバスブッシュ蝶サボテンケーキ電卓カレンダーラクダカメラ迷彩キャンプファイヤーろうそく大砲カヌー車人参城ネコ天井ファン携帯電話チェロ椅子シャンデリア教会サークルクラリネット時計雲コーヒーカップコンパスコンピュータークッキー冷却装置ソファー牛カニクレヨンクロコダイル王冠遊覧船カップダイヤモンド食器洗い機飛び込み台犬イルカドーナツドアドラゴン化粧ダンスドリルドラムアヒルダンベル耳肘象封筒消しゴム眼めがね面扇風機羽柵指消火栓暖炉消防車魚フラミンゴ懐中電灯ビーチサンダルフロアランプ花空飛ぶ円盤足フォークカエルフライパン庭用ホース庭キリンあごひげゴルフクラブぶどう草ギターハンバーガーハンマー手ハープ帽子ヘッドホンハリネズミヘリコプターヘルメット六角形ホッケーパックホッケースティック馬病院熱気球ホットドッグ温水浴槽砂時計観葉植物家ハリケーンアイスクリームジャケット刑務所カンガルー鍵キーボード膝ナイフはしごランタンノートパソコン葉脚電球ライター灯台稲妻線ライオン口紅ロブスターロリポップメールボックス地図マーカーマッチメガホンマーメイドマイクロフォン電子レンジ猿月蚊バイク山マウス口ひげ口マグカップキノコ爪ネックレス鼻海洋八角形たこ玉ねぎオーブンふくろうペンキ缶絵筆ヤシの木パンダズボンペーパークリップパラシュートオウムパスポート落花生梨豆鉛筆ペンギンピアノピックアップトラック額縁豚枕パイナップルピザペンチ警察車池プールアイスキャンデーはがきじゃがいもコンセント財布ウサギアライグマ無線雨虹レーキリモコンサイライフル川ジェットコースターローラースケートヨットサンドイッチのこぎりサックススクールバスはさみサソリドライバーウミガメシーソー鮫羊靴ショーツシャベルシンクスケートボード頭蓋骨超高層ビル寝袋笑顔かたつむりヘビスノーケルスノーフレーク雪だるまサッカーボール靴下快速艇クモスプーンスプレッドシート四角殴り書きリス階段星ステーキステレオ聴診器縫い目一時停止標識コンロイチゴ街路灯サヤインゲン潜水艦スーツケース太陽白鳥セータースイングセット剣注射器 Tシャツテーブルティーポットテディベア電話テレビテニスラケットテント虎トースターつま先トイレ歯歯ブラシ歯磨き粉竜巻トラクター信号機列車木三角形トロンボーントラックトランペット傘下着バン花瓶バイオリン洗濯機スイカウォータースライダー鯨ホイール風車ワインボトルワイングラス腕時計ヨガシマウマジグザグ

画像を可視化してみると、かなり雑で記号的な絵になっていることがわかります。

f:id:kentaro-suto:20190110180140j:plain f:id:kentaro-suto:20190110180208j:plain f:id:kentaro-suto:20190121170519j:plain f:id:kentaro-suto:20190121170607j:plain f:id:kentaro-suto:20190121170716j:plain f:id:kentaro-suto:20190121170815j:plain

モデル

畳み込みと全結合による、ごくシンプルなモデルです。 Python+Kerasで実装しました。

model = Sequential()
model.add(Reshape((28,28,1), input_shape=(784,)))
model.add(Conv2D(64, 5, padding='same')) #畳み込み
model.add(BatchNormalization())
model.add(Activation('relu'))
model.add(Conv2D(64, 5, padding='same'))
model.add(BatchNormalization())
model.add(Activation('relu'))
model.add(MaxPooling2D())
model.add(Conv2D(128, 5, padding='same'))
model.add(BatchNormalization())
model.add(Activation('relu'))
model.add(Conv2D(128, 5, padding='same'))
model.add(BatchNormalization())
model.add(Activation('relu'))
model.add(MaxPooling2D())
model.add(Conv2D(128, 5, padding='same'))
model.add(BatchNormalization())
model.add(Activation('relu'))
model.add(Conv2D(128, 5, padding='same'))
model.add(BatchNormalization())
model.add(Activation('relu'))
model.add(Flatten()) #ここから全結合
model.add(Dense(1024, activation='relu'))
model.add(Dropout(0.2))
model.add(Dense(345, activation='softmax'))
model.compile(loss='sparse_categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

学習

データセットからランダムにサンプルを選んで、入力(画像データ)から出力(カテゴリーごとの確率)が得られるように、学習を行います。

学習量は

バッチサイズ=100
ステップ数=40000
エポック数=100
のべ=4億サンプル

でした。

インターフェイスと使い方

使い方を、実装詳細とともに解説します。インターフェイスはHTML+JavaScript+Tensorflow.jsで作成しました。 Tensorflow.jsの基本的な使い方については以前の記事をご参照ください。

1.ページを開く

このページにアクセスします。ページを開くとすぐに読み込みが始まります。ダウンロードデータは全部で8.4MBあります。ネットワーク環境によってはお時間をいただくかもしれません。

2.絵を描く

ページ全体がキャンバスになっています。ドラッグで線を描いてください。 f:id:kentaro-suto:20190111194202p:plain

判定時には線が描かれた領域だけがモデルに合わせてリサイズされるので、どこにどんな大きさで描いても大丈夫です。間違えたら「リセット」で全消去できます。

リサイズで線の太さがバラつかないように、線を描画するとき、同時にストロークデータとしても保存しています。

3.判定させる

「送信」ボタンを押すと判定処理を開始します。

保存したストロークデータを用いて28×28の領域に再描画をします*1。描いたピクセルを配列に変換し*2、モデルに入力します。

4.結果を見る

判定結果を表示します。

f:id:kentaro-suto:20190111195534p:plain

モデルの出力は各カテゴリーの確率として得られます。その中で、最も大きなものに対応するカテゴリー名を表示します。他のカテゴリーの確率は、詳細をクリックすると見られるテーブルに書き出します。

実行例



これはドアで、	これが枕です。	四角と判定させるには、場違いな正確さが要求されます。	円については、そこまでシビアではありません。

うっかりネコにしましまを描くと、高確率で虎になります。	学習データ全部、殴り書きのようなものなので、	リアルさにこだわると、却って判別されないことがあります。	極限まで図案化するのがいいようです。

よくわからないなにかを描いても	必ず、347カテゴリーのどれかに判定します。	難しそうなカテゴリーも	意外に簡単な特徴で判定している場合があります。