TensorFlowを使ってみる 2 - ウォンツテック

TensorFlowのOptimizerを使ってみる

TensorFlowのチュートリアルで機械学習初学者向けのドキュメントを読んで、サンプルのコード

tensorflow/mnist_softmax.py at master · tensorflow/tensorflow · GitHub

をゼロから作るDeepLearning本でやってた2層に改修して実験

from __future__ import absolute_import
from __future__ import division
from __future__ import print_function

import argparse
import sys

from tensorflow.examples.tutorials.mnist import input_data

import tensorflow as tf

FLAGS = None


def main(_):
  # Import data
  mnist = input_data.read_data_sets(FLAGS.data_dir, one_hot=True)

  # Create the model
  x = tf.placeholder(tf.float32, [None, 784])
  std = 0.01
  W1 = tf.Variable(tf.random_normal([784, 100], stddev=std))
  b1 = tf.Variable(tf.zeros([100]))
  W2 = tf.Variable(tf.random_normal([100, 10], stddev=std))
  b2 = tf.Variable(tf.zeros([10]))
  a1 = tf.matmul(x, W1) + b1
  z1 = tf.sigmoid(a1)
  a2 = tf.matmul(z1, W2) + b2
  y = tf.nn.softmax(a2)


  y_ = tf.placeholder(tf.float32, [None, 10])
  cross_entropy = tf.reduce_mean(-tf.reduce_sum(y_ * tf.log(y), reduction_indices=[1]))
  train_step = tf.train.GradientDescentOptimizer(0.5).minimize(cross_entropy)

  sess = tf.InteractiveSession()
  tf.global_variables_initializer().run()

  # Train
  for _ in range(10000):
    batch_xs, batch_ys = mnist.train.next_batch(100)
    sess.run(train_step, feed_dict={x: batch_xs, y_: batch_ys})

  # Test
  correct_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1))
  accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))
  print(sess.run(accuracy, feed_dict={x: mnist.test.images,
                                      y_: mnist.test.labels}))

if __name__ == '__main__':
  parser = argparse.ArgumentParser()
  parser.add_argument('--data_dir', type=str, default='/tmp/tensorflow/mnist/input_data',
                      help='Directory for storing input data')
  FLAGS, unparsed = parser.parse_known_args()
  tf.app.run(main=main, argv=[sys.argv[0]] + unparsed)

サンプルコードだと重み変数(W)を生成する時に0で初期化してるけど、初期値全部0はよろしくないはずで、Optimizerがよしなにやってくれるんですかね。
実験コードではrandom_normalの標準偏差を0.01にしてます。

Trainingの回数を1万回でだいたいaccuracyが0.931くらいになりました。
ちなみに元のサンプルコードは1層のはずなのにaccuracyが0.923くらいとやたら精度が高い気がします。
1層だと線形で、線形だと簡単な論理演算(XOR)すら表現出来なかったはずなのにと..

※出力層でsoftmaxに渡す値の活性化関数にsigmoidを使っていましたが、これは恒等関数（何もしない）が正しかったです。
書き直したらaccuracyは0.974となりました。