きのこる庭

AI・IoT等新技術等をめぐる法規制を緩和する「規制のサンドボックス制度」についてまとめてみた

Nisei Kimura — Wed, 09 Jan 2019 02:51:25 +0000

ちょうど昨日、こんな記事が公開された。

インフルエンザのオンライン受診勧奨サービスを実証へ、MICIN – 日経デジタルヘルス

医療方面というととにかくあらゆる方面で規制が多く革新的な技術や新たな仕組みの導入がスピーディに進みづらい分野の一つであるという認識だったので、MICIN社が医療分野の第一号として規制周りでのこうした特例措置を受けたというのが個人的に印象的だった。
記事によるとこの特例措置の背景にあるのが「サンドボックス制度」になるわけだけど、一体このサンドボックス制度とは何なのか。ネット上を調べてみてもあまり情報が無いので詳しく調べてみることにした。

規制のサンドボックス制度(新技術等実証制度)とは

2018年6月6日にスキームが公表され、窓口が設置された模様。公式の資料*1にて制度の概要が書かれていたのでこちらを抜粋すると、

AI、IoT、ブロックチェーン等の革新的な技術の実用化の可能性を検証し、実証により得られたデータを用いて規制制度の見直しに繋げる制度

とのことだった。もうすこし簡単に言うと、
「AIとかIoTとかそういう技術周りで色々既存の規制があるけど、あなたの事業に対して必要に応じて規制を一部緩和するからどの部分の規制を緩和してほしいのか教えてね」という感じの制度

こうした規制緩和制度は他国でも事例があるようで、イギリスやシンガポールでも採用されている模様*2。
制度誕生の背景を想像するのは比較的想像に難くない。昨今世界的にやれAIだIoTだブロックチェーンだシェアリングエコノミーだと言われているものの、
日本の場合他国に比べて既存の法制度等が障壁となって国内で新技術を実証しづらい現状にあるように思われる。
医療方面で言うと中国では2018年11月に既に薬剤まで処方する無人診療の診療所が出現していたり*3、世界的に広く利用されているUberのようなライドシェアサービス方面で言うと日本はいまひとつ歩みが遅い。
そうした中でのサンドボックス制度の登場は現代の急速な世界の変化に対応するための必然だったも言えそうな気がする。

仕組み

図にするとこんな感じ。
事業者が「一元的な窓口」に対して相談・申請を行う。申請を行う際には「事業概要は？」「どの法令のどの部分の特例措置を受けるのか？」「法令規定されている代替措置は？」「実証期間は？」といった内容がまとめられた資料を提出する *4。
ここでいう「一元的な窓口」というのは新技術等社会実装推進チームにあたる模様。

資料が提出された後は提出後1ヵ月以内に「革新的事業活動評価委員会」を通して話し合いが行われ、話し合いから1ヶ月以内に主務大臣が承認是非の判断を下す模様。
なお、革新的事業活動評価委員会の構成人員に関しては公式の資料*4を参考にすると、さまざまな意見・学識・経験を持つ人が公平・均衡となるように構成されている模様。
具体的にどういう人員で構成されているかは公式の名簿を参照するとよさげ。

その他特筆すべき事項としては、
・規制が緩和されてもなお他の規制がひっかかって実証実験が進みにくい場合に緩和措置の追加申請が可能。
・また、事業者は主務大臣に対して定期的な報告を行い、実証実験中に問題が発生した場合は速やかに主務大臣に報告を行う等のレポート体制が敷かれている模様等。

MICIN社は実際にどの部分の緩和を受けたのか？

診断キットとビデオ通話を組み合わせたインフルエンザ罹患時のオンライン受診勧奨（計画の概要）- 首相官邸ホームページ

上記リンクにて実際の申請内容を確認することができる(P2 – P3)。ポイントとしては医師法第二十条と第三十七条一項の模様。
(自分は法律周りに関しては素人のため、誤った情報を発信しないよう当ブログでは内容が記載されている部分のみを記載し、個人での解説は控える)

おわりに

個人的には日本がDeepLearning方面等含め、最先端の技術で遅れを取る中でこうした制度が整備されたのはとても良いことなのではないかなと思うし、今後この制度が産業の各方面にてうまく機能していくことを願う。
なお、もし当記事の内容が筆者が独自に情報をかき集めてまとめたものになるため、もし内容や解釈に誤りがある場合お手数ですが@irration宛にご連絡いただけましたら幸いです(加筆修正させていただきます)。

参考資料

*1 規制のサンドボックス制度及び革新的事業活動評価委員会の概要 – 首相官邸ホームページ
*2 「規制のサンドボックス」って？ – 毎日新聞
*3 平安好医生“无人诊所”亮相乌镇，打造一小时医疗服务圈
*4 新技術等実証の総合的かつ効果的な推進を図るための基本的な方針 – 首相官邸ホームページ

The post AI・IoT等新技術等をめぐる法規制を緩和する「規制のサンドボックス制度」についてまとめてみた appeared first on きのこる庭.

DockerでAngular+Nodeのサーバを立てた話

Nisei Kimura — Thu, 01 Mar 2018 12:54:02 +0000

最近Win機を購入して仮想環境どうしようかなーと思っていたのだが、「せっかくだし使い慣れたVagrantではなく思い切ってDockerでつくってみるか」と思い立ったので勉強がてらDockerでサーバを立ててみた。

前提となる環境

* Windows 10 Home Edition
* Docker Toolbox

やったこと

1. Angular+Node用のDockerfile及びimageの作成
2. 1で作成したimageをもとにコンテナを作成しつつ、ホストマシン上でコードをいじれるようマウント
3. 実際にサーバを立ち上げてみる
4. ホスト上からコードに修正を加えてみる

1. Angular+Node用のDockerfile及びimageの作成

とりあえずNodeでサーバを立てて Angular動かしてみるかということになった。

https://hub.docker.com/r/monostream/nodejs-angular-cli/

ひとまず ↑を参考にして以下のような感じでDockerfileを作成。

FROM node:alpine

RUN apk add --quiet --no-cache bash && \
    yarn global add @angular/cli && \
    yarn cache clean && \
    rm -rf /var/cache/* /tmp/*

EXPOSE 4200

WORKDIR /home/node

COPY ng_apps ng_apps

CMD ["/bin/sh"]

Angularでserveした際のデフォルトのポートが4200なので、4200番を開放している。
また、ng_apps という空ディレクトリをコピーしているが、これはホストマシンとの共有を想定したディレクトリ。Angularアプリケーションを配下に置いておくことでホストマシンから直接コードをいじれるようにしたかった。Dockerfileを作成したら、同ディレクトリにて以下コマンドを実行。

docker build -t angular-test .

Successfully tagged angular-test:latestという文言とともにイメージが作成される。

2. 1で作成したimageをもとにコンテナを作成しつつ、ホストマシン上でコードをいじれるようマウント

以下のようにdocker run でコンテナを作成する。

docker run --name angular_test_server -d -it -p 80:4200 -v $(pwd)/ng_apps:/home/node/ng_apps angular-test

-v オプションにて ng_appsディレクトリをマウントしつつ、ポートは80番で叩けるようにした。
引き続き以下のコマンドを実行し、作成したコンテナに入り、Angularが適切にインストールされているかどうかを確認する。

docker exec -it angular_test_server /bin/sh
ng --version

3. 実際にサーバを立ち上げてみる

コンテナに入ったままng_appsディレクトリに移動し、ng new コマンドによって myappというアプリケーションを立ち上げる。
ここで一つ問題が発生する。Windowsの場合、Virtualbox経由で共有ディレクトリをつくった場合ゲストマシン側でそのディレクトリにシンボリックリンクを貼ることができない。これにより共有ディレクトリ上で npm install が通らず、結果的に ng new myapp がコケるという事態に陥る。そこで npm install の際に –no-bin-links オプションをつける必要があるのだが、Angularでこれをやりたい場合は以下のようにする模様。

ng new myapp --skip-install
cd myapp
npm install --no-bin-links

これによって共有ディレクトリ上でも無事Angularアプリケーションを置くことができた。あとはnpm installが完了したら以下のコマンドでサーバの立ち上げを行う。

ng serve --host 0.0.0.0

今回はDockerのデフォルトネットワーク経由のため、ホストマシンのブラウザから 192.168.99.100 にアクセス。

表示された。

4. ホスト上からコードに修正を加えてみる

せっかくマウントしたわけだし、ホスト上からコードをいじってみる。とりあえず簡単な例として初期に表示されるページのタイトルを変えてみることにする( パスはmyapp/src/index.html )。

こんな感じでいじって再度ゲストマシン側にてng serve –host 0.0.0.0を実行すると…

無事更新が反映された模様。

The post DockerでAngular+Nodeのサーバを立てた話 appeared first on きのこる庭.

Character-level Convolutional Neural Networkについて調べてみた

Nisei Kimura — Mon, 12 Feb 2018 06:20:24 +0000

元論文

Character-level Convolutional Networks for Text Classification ( arxiv )

概要

One-Hot表現に変換した入力値をEmbeddingした後、6層のConvolution(+Max Pooling)→平滑化して3層からなる全結合層(出力層は問題に応じて適宜変える)という流れ。
カーネル数やパラメータ数は論文中に記載されているので割愛。

特徴

ざっくり論文を読んでみた所、以下のような感じであることがわかった。

・ データセットが大きい( 1000000以上 )場合に有効。データセットが小さい場合は、やはり古典的ながらn-gram+TFIDFが全般的に良い精度を出している。
・アルファベットの大文字・小文字の区別に関しては、大きなデータセットでは区別しない方が良い結果だが、小さなデータセットに関しては区別した方が良い結果となる( 厳密に検証はされていないものの、正則化の役割を果たすのではないかという仮説が立てられている )
・問題ごとで精度の差異は無い模様。

特に面白かったのが以下の特徴。

・character-level ConvNets work better for less curated user-generated texts.
つまり、形の整った綺麗なテキストではなく、日頃ユーザが書いているような雑な文章に特に強い模様。確かに単語単位ではなく文字単位で学習するので、表記揺れやよくあるtypo、はたまた単語辞書では拾いきれないような特有の表現とかに強そうな感じはする。使い道によってはチャットボットとも相性が良さそうな気がした。

応用

CharCnn_Keras (Github)
KerasによるCharacter-level CNNの実装。

Character Level Convolutional Neural Networkによる悪性文字列検知手法 (SlideShare)
フィルタつくるのにも便利そう。

Retty Tech Night #1 bokeneko (SSSSLIDE)
Character-level CNNに興味を持つきっかけになったスライド。キャッチコピーの自動生成がかなり面白いなーと思った。
(文章の自動生成でよくWord2vec→RNNやLSTMあたりが挙げられるものの、こちらは結構壊滅的な文章が生成されてしまうケースが多い印象)

The post Character-level Convolutional Neural Networkについて調べてみた appeared first on きのこる庭.

TensorFlowでモデル構築して学習させる際のイメージ

Nisei Kimura — Tue, 26 Sep 2017 22:16:04 +0000

　なんとなく機械学習周りのツールをいじってみて、いざ学習モデルを組んでみようとTensorFlowのコードを見てみた所、なにやら奇妙で膨大な処理がつらつらと書き連ねられていて圧倒された…なんて経験をされた方も少なくないと思われます。確かにTensorFlowのコードは一見すると複雑怪奇ですが、プログラムの背景に存在している以下の4つの概念を抑えてしまえば膨大なコードもうまく紐解いてゆくことが可能です。

・モデル
・モデルを用いた計算
・学習
・データセット

　この記事ではTensorFlowによる学習のコードを見てどこでどういう処理が行われているのかなんとなくイメージできる事を目標として、簡単なモデルの例からTensorFlowにおける学習の導入まで段階的に議論を進めていきます。

モデル

　TensorFlowでモデル構築…といえばよくある多層パーセプトロンがパッと頭に思い浮かびそうですが、TensorFlowで構築できるモデルは何もニューラルネットに限ったものではありません。例えば以下のコードを見てみましょう。

# -*- coding: utf-8 -*-
import tensorflow as tf

x = tf.placeholder(dtype=tf.float32)
y = tf.placeholder(dtype=tf.float32)
addition = tf.add(x, y)

　このコードを図で表すと以下のようなグラフ構造になります。

　この addition は「二つの数を足し算する」という単純なものですが、これも立派なモデルと言えます。ここで重要な事として、このモデル自体は「学習」や「実行」の意味合いを持ちません。実際の所、具体的にどのような2つの数を足し算するかも定められていませんし、ただ「二つの数を足し算する」という事を表しているだけです。このことに注目すると、TensorFlow関連の書籍でモデル構築をする際によく出てくる以下のようなコード(以下は単純な多層パーセプトロンの例)がどういうものか、何となく分かってきますね。

x1 = tf.placeholder(dtype=tf.float32) # 入力層
w1 = tf.Variable(dtype=tf.float32)
b1 = tf.Variable(dtype=tf.float32)
h = tf.nn.relu(tf.add(tf.matmul(x1, w1), b1)) # 隠れ層

w2 = tf.Variable(dtype=tf.float32)
b2 = tf.Variable(dtype=tf.float32)
y = tf.nn.softmax(tf.add(tf.matmul(h, w2), b2)) # 出力層

　隠れ層の部分を見てみましょう。これを言葉にすると「x1とw1を掛け合わせたものにb1を足し算したものを ReLUという関数で変換する」というグラフ構造です。これをhとして、今度は出力層を見てみましょう。出力層では、「hとw2を掛け合わせたものにb2を足し算したものを softmaxという関数で変換する」というグラフ構造になります。この y をモデルとして採用したものがいわゆる多層パーセプトロンです。

　このように、様々な計算を処理するための雛形となるものがモデルです。以下は様々なモデルのイメージです。このようにTensorFlowではグラフ構造に基づく柔軟なモデル構築が可能です。

モデルを用いた計算

　一旦先ほど定義した単純なモデルである addition の例に戻りましょう。モデルを構築した所で、今度は実際に何かしらの入力を加えて実際にモデルを使ってみます。以下の例では additionモデルを使って5+3の結果を出力しています。

sess = tf.Session()
output = sess.run(addition, feed_dict = {
  x: 5.,
  y: 3.
})
print(output) # 結果は8.0

　sess.run() にて実際に計算に使用するモデルを定義し、その際に入力値を与えています。この時点でも、上記計算に「学習」という意味合いは存在しておらず、ただ単純にモデルとデータを元に計算を実行しただけであることに注意してください。

学習

　ただ計算を実行するだけだと味気ないので、今度は学習を行ってみましょう。先ほどadditionモデルを「二つの数の和を計算するモデル」として定義しましたが、今回はこのモデルにちょっと変更を加えて「入力xと変数yを足し算する」というようにしてみましょう。

# -*- coding: utf-8 -*-
import tensorflow as tf

x = tf.placeholder(dtype=tf.float32)
y = tf.Variable(tf.constant(1.))
addition = tf.add(x, y)

　最初のadditionモデルと異なる点として、最初のadditionモデルではモデルを用いて計算する際にxとyの両方を入力していましたが、新しいadditionモデルで入力するのは xだけである点です。yには初期値として1が代入されているので、このadditionモデルは最初の段階で「x + 1.0」を計算するものとなります。x = 5.0 なら additionの出力は6.0、という具合です。

　さて、ここでこの新しいadditionモデルを用いて、どんな実数値xを入れても「x + y = 8.0」となるようなモデルを得たいとしましょう。しかし、このモデルにおけるyはそのままだと初期値 1.0 のままなので、x = 7.0の時以外では理想の結果が得られません。理想の結果を得るためには yの値がうまいこと増減しないといけません(例えばx=12なら、12.0 + y = 8.0 を得るために yの値は初期値である1.0よりも小さい方向にずらす必要がある…等といった具合です)。

　この時点で初めて「学習」という概念を導入します。…とすると、additionはここで初めて「学習前のモデル」という形で認識できます。では y の学習はどのようにして行われるのでしょうか？

　ここで「損失」という概念を導入してみましょう。学習中のモデルによって予測値を計算した際、当然本当の値との誤差があります。この誤差が大きければ大きいほど損失も大きく、小さければ小さいほど損失も小さいと考えます。値が正解から離れれば離れる程損失が大きくなっていく…という仕組みを定量化するために機械学習ではよく二乗誤差を用います。というわけで慣例に従って以下のように損失関数を定義します。

loss = tf.square(tf.subtract(addition, 8))

　学習の目的はこの損失を限りなく少なくしていくことです。ここで損失が限りなく少なくなるということは、予測値が実際の値に限りなく近づいていくことと考えて下さい( ただし、適切でない損失関数の設定が行われた場合等はこの限りではありません )。

　損失を算出する方法はlossによってうまく定義できたものの、「lossによって算出された損失をもとに yの値を修正する」という仕組みが無ければ学習が行えません。幸い、TensorFlowでは予めデフォルトでこの機能を提供してくれます。それが以下のコードにて示す GradientDescentOptimizer という機構です。

optimizer = tf.train.GradientDescentOptimizer(0.2)
train_step = optimizer.minimize( loss )

　GradientDescentOptimizerの引数にある 0.2 というのは学習率のことで、イメージとしては損失関数からの情報を一回の学習でどれだけ参考にして取り入れるかを示すものです( 学習率が高すぎると予測値が振動・発散してしまうリスクが高くなるし、低すぎるといつまでも予測値が正解に近づかないため、状況に応じて適切な学習率の設定が必要です。ただこの辺りの議論に関しては本題の範疇を超えてしまうためここまでにしておきます )。

　ここで、前述の「モデル」の項にて説明した通り、この時点でのtrain_stepはグラフ構造として定義されているだけで、まだ実際の入力値を与えられてもいないし、学習自体も行われていないことを思い出して下さい。実際に計算をする場合は以下のようにします。

sess = tf.Session()
sess.run( tf.global_variables_initializer() ) # 変数の初期化

output = sess.run(train_step, feed_dict = { x: 5.  }) # モデルの学習を行う
y_val = sess.run(y, feed_dict = {x: 5. }) # 学習済のモデルを使って y の値を計算
print("y = %f" % ( y_val )) # y = 1.800000

　x = 5.0 の場合、 y = 3.0 が正解となりますが、train_stepにより一回学習を回してみた所、yは初期値の 1.0 から 1.8 となり、確かに正解に近づいていることが分かります。
　ところで、基本的に学習は複数回数行うものなので、前の例では単純化のためtrain_stepを一回だけ実行するような形にしていましたが、以下のコードのような形に修正して 30回程train_stepによるイテレーションを回してみることにします。この時、yの値はどのように遷移するか見てみましょう。

sess = tf.Session()
sess.run( tf.global_variables_initializer() ) # 変数の初期化

for i in range(30):
  output = sess.run(train_step, feed_dict = { x: 5.  })
  y_val = sess.run(y, feed_dict = {x: 5. })
  addition_val = sess.run(addition, feed_dict = {x: 5. })
  print("5.0 + %f = %f" % ( y_val, addition_val ))

　このコードを実行した結果は以下のようになります。

　学習を重ねるにつれて確かにyの値が 3.0 に近づいていることが確認できます。では今度は入力値を変えてみて、 x=11 とした場合どうなるでしょう。

　x=11にしても、ごく僅かな誤差はあるもののほぼ正解に近い値になっています。これがTensorFlowによる学習です。

データセット

　今回の学習モデルでは簡単のため入力値・正解をただ一つだけ設けましたが、実際にTensorFlowで学習を行う際には一般的にまとまった複数の入力値・正解のセットをモデルに与えて学習させていきます。
　実際のデータセットを扱う上で重要な観点の一つが、一つのデータセットを「学習用データ」「テスト用データ」の二つのデータ群に分離することです。これは、学習させたモデルで実際でどれくらいの精度が出るのかを確かめるためのデータが必要となるからです。
　一つのデータセットを学習用データ群・テスト用データ群に分ける上で手動でプログラムを構築する必要はなく、scikit-learnがこれに相当する機能を提供してくれているので、こうしたものを使用するのが懸命です。

from sklearn.cross_validation import train_test_split

:
x_train, x_test, y_train, y_test = train_test_split(dataset_x, dataset_y, test_size=0.2, random_state=42)
:

ここで、dataset_x, dataset_y はそれぞれ入力データ群、入力データに対する正解の群を表しています。

まとめ

　というわけで、一つの塊として見ると膨大で複雑なTensorFlowのコードですが、一つ一つ丁寧に要素を分解して見ていくと意外とそこまで複雑ではありません。ここで説明した概念は単純な多層パーセプトロンに止まらず再帰ニューラルネット等様々なモデルにも適用可能な基礎となるものなので、ぜひ抑えておきたい所です。

The post TensorFlowでモデル構築して学習させる際のイメージ appeared first on きのこる庭.

Kerasで多層パーセプトロンのモデル構築する際のイメージ(数式無し)

Nisei Kimura — Thu, 27 Jul 2017 11:10:53 +0000

最近Kerasに関して勉強をする機会があったためまとめました。
Kerasで多層パーセプトロンを構築されている方は幾何的な理解の助けにご利用下さい。
( どちらかというと学習メモ用に走り書きしただけなので難解な部分, 認識の誤り等残っている可能性があります。
その際にはお手数ですがTwitter(@irration)までご連絡いただけましたら幸いです )

また、今回はモデル構築部の幾何的な理解を目標としているため、実際のKeras部分を用いた学習に関しては省略しております。ご了承下さい。

通常の多層パーセプトロンの場合

# -*- coding: utf-8 -*-
from keras.models import Sequential
from keras.layers import Dense, Activation
from keras.optimizers import SGD

何はともあれインポート。これらのインポートしたものがそれぞれどういう意味を持つのかは後述します。

num_input_layer  = 3 # 入力層のニューロンの数
num_hidden_layer = 4 # 隠れ層のニューロンの数
num_output_layer = 3 # 出力層のニューロンの数

入力層、隠れ層、出力層のニューロンの数を変数として持たせておきます。

model = Sequential()

Sequentialインスタンスを作成しました。
このSequentialというやつは、以下の画像のような複数の層を持つデータをモデル化するためのインスタンスです。

ネットワークの左側の緑色は「入力層」、右側の緑色が「出力層」、(存在する場合)入力層と出力層の間に挟まれているのが「隠れ層」です。
普通のKerasの用途としては隠れ層を複数導入してディープニューラルネットワークのように使うのが通常かと思われますが、一応モデルとして隠れ層を持たない入力層・出力層だけのネットワークのモデル(図の左側に浮いているやつ)も定義できるっぽいです。

というわけで、インスタンスを定義したので早速ですが多層パーセプトロンをつくってみます。

model.add(Dense(num_hidden_layer, input_dim=num_input_layer))

DenseというのはDensely-Connected なニューラルネットの層を指す。
Densely-Connected のイメージとしては上図のようにそれぞれの層の入力と出力同士が全て互いにくっついている感じ。認識が間違っていなければ Fully-Connectedと同義のはず。
( 一応確かめました: dense-vs-convolutional-vs-fully-connected-layers )

今回は入力層が3つ、隠れ層が4つのニューロンからなるため上記のコードにより以下のような図のネットワークができたことになります。
( 因みにこの時点で定義されているネットワークにおいて、下記にて隠れ層として描かれているものはモデル上では隠れ層でなく出力層となっています )

次は活性化関数を追加します。活性化関数というのは、あるニューロンが複数の(各ニューロンごとに重みがついた)ニューロンからの入力を受け取り、受け取った値を合計した後そのニューロン自身を0～1の間の値に落とし込むための関数です。これは連続値の場合もありますし、離散値(0,1)の場合もあります。離散値の場合は「ステップ関数」と言われており、ニューロンが「発火」= 他のニューロンからの入力の合計が閾値を上回りステップ関数が1になるというイメージのものです。活性化関数に関する具体的な議論に関しては他の方の記事に譲ります。

model.add(Activation('sigmoid'))

今回は活性化関数によく使われるシグモイド関数という関数を使用しました。
( なお、最近だとReLU関数というのが使われるのが割とメジャーな方法になってきているっぽいですね )

これにより、ネットワークは以下のような状態になりました。

今回は多層パーセプトロンを組みたいので、隠れ層の次に出力層を追加します。

model.add(Dense(num_output_layer))
model.add(Activation('softmax'))

出力層の活性化関数には「ソフトマックス関数」を使用します。ソフトマックス関数は多クラス分類問題においてよく使われる関数で、「これが一番大きい！」と最大の1つを決定する挙動をより緩やかにして、「これが全体の中で結構大きいよね。5つのアウトプットを相対的に表現すると ( 0, 0, 0.03, 0.94, 0.03 ) くらいかな。といった形で「マックス」を「ソフト」にする効用があるため「ソフトマックス」と呼ばれています。

上記コードの追加により、最終的にこんな感じのネットワーク構造ができました。
最後にこのネットワーク構造をコンパイルします。

model.compile(loss='categorical_crossentropy', optimizer=SGD(lr=0.01),metrics=['accuracy'])

( このあたりのコードは後述の書籍(『詳解ディープラーニング』)を参考にさせていただいております。 )
コンパイル時に、どのようにネットワークの学習に際して必要となる情報を併せて引数として渡します。

loss は誤差関数です。テスト時に予測が実際の結果とどれくらいずれていたかをはかる指標です。

【発展的な議論】
因みに誤差関数は何でも良いというわけではなく、活性化関数と対応させる必要があります。
例えば多クラス分類問題を解く際にはソフトマックス関数を活性化関数として選びますが、この場合多クラス用のクロスエントロピー誤差関数を選ぶのが一般的です。
( その他最小二乗法を用いた回帰問題であれば二乗誤差関数、2クラス分類ならクロスエントロピー誤差関数等 )

optimizerというのは学習の際どのように精度を高めていくかを表す関数です。今回はSGD(Stochastic Gradient Descent; 確率的勾配降下法)という最適化問題における有名な手法を使用します。またこの際lrという引数をSGDに渡していますが、これはlearning rate、すなわち学習率を表し、学習率が大きいほど誤差をより大きく修正しようという方向で動きます。

metricsはモデルの評価指標です。Kerasではmetrics=['accuracy']という形で設定して、訓練時・テスト時にモデル精度の高さを測る方法がよく使われるようです。

まとめると、以下のようになります。

# -*- coding: utf-8 -*-

from keras.models import Sequential
from keras.layers import Dense
from keras.optimizers import SGD

num_input_layer  = 3 # 入力層のニューロンの数
num_hidden_layer = 4 # 隠れ層のニューロンの数
num_output_layer = 3 # 出力層のニューロンの数

model = Sequential()

model.add(Dense(num_hidden_layer, input_dim=num_input_layer))
model.add(Activation('sigmoid'))

model.add(Dense(num_output_layer))
model.add(Activation('softmax'))

model.compile(loss='categorical_crossentropy', optimizer=SGD(lr=0.01),metrics=['accuracy'])

隠れ層を増やしてみる

上記コードの入力層と出力層との間に同じ手順でもう一つ追加するだけです。

model.add(Dense(num_hidden_layer))
model.add(Activation('sigmoid'))

なお、今回は隠れ層に含まれるニューロンの数をいずれも num_hidden_layer で固定していますが、隠れ層の各層によってニューロンの数を変化させても問題ありません。

結果的にどういうネットワーク構造になるかというと…

こんな感じです。
コードをまとめると、

# -*- coding: utf-8 -*-

from keras.models import Sequential
from keras.layers import Dense
from keras.optimizers import SGD

num_input_layer  = 3 # 入力層のニューロンの数
num_hidden_layer = 4 # 隠れ層のニューロンの数
num_output_layer = 3 # 出力層のニューロンの数

model = Sequential()

model.add(Dense(num_hidden_layer, input_dim=num_input_layer))
model.add(Activation('sigmoid'))

model.add(Dense(num_hidden_layer))
model.add(Activation('sigmoid'))

model.add(Dense(num_output_layer))
model.add(Activation('softmax'))

model.compile(loss='categorical_crossentropy', optimizer=SGD(lr=0.01),metrics=['accuracy'])

となります。Keras、ちょっと触っただけだけど、割と直感的に書けていいな～と思いました。

※ 一部コードは以下の書籍を参考にさせていただいております。RNN, LSTM, BRNN, seq2seq 等の話題も豊富で、且つコードの例も豊富に載っているためオススメです。

詳解-ディープラーニング-TensorFlow-Kerasによる時系列データ処理 – 巣籠悠輔(著)

The post Kerasで多層パーセプトロンのモデル構築する際のイメージ(数式無し) appeared first on きのこる庭.