Search on the blog

2017年1月29日日曜日

生成モデルと識別モデルの違い

生成モデル(generative model)と識別モデル(discriminative model)の違いが理解できたのでメモっておく。

よくある定義
生成モデルは
識別モデルは
のようにyを予測する。
これだけ聞いても何のことやらよく分からん。

直感的な説明
識別モデルはクラスの境界を学習する。与えられたデータxが生成される確率は特に考慮せず、単に境界面のみを学習するモデル。SVM、決定木などは識別モデル。

生成モデルは、それぞれのクラスにおけるデータの分布を学習するモデル。生成モデルはグラフィカルモデルを使って表される。

これは分かりやすい。これ聞いた後だと式の意味も分かる。

直感的な説明と式を結びつけて考える
識別モデルは、
のように予測を行うモデル。例えば決定木の場合はデータxが与えられると、終端nodeのクラス分布を見ることで、そのxがクラスyに属する確率が分かる。そして尤もらしいクラスを予測値として用いる。このようにp(y|x)を最大化しているが、データxが生成される過程や確率に関しては何もモデリングしていない。

これに対して生成モデルは、
のように予測を行う。例えばベイジアンネットワークやマルコフ確率場などを用いたモデルの場合はp(y)、p(x|y)を定義し、ベイズの定理を使って事後確率が最大となるようなyを予測値として用いる。つまり、データxの生成過程やクラスごとのxの分布というものをモデリングすることで、結果を予測するようなモデルになっている。


2017年1月21日土曜日

SRM 531 Div2 600 NoRepeatPlaylist

問題概要
スマホにN曲の歌が入っている。
これらの曲を組み合わせてP曲のプレイリスト を作りたい。ただしプレイリストは以下の条件を満たす必要がある。
1) すべての曲は最低でも1回はプレイされなければならない
2) 同じ曲をプレイする場合は、最低でも間に別の曲をM曲プレイしなければならない
プレイリストの構成方法のパターン数を求めよ。

解法
よく分からななかったのでとりあえずDPしてみた。
const long long MOD = 1e9 + 7;
int N, M, P;
long long dp[124][124][124];

long long solve(int pos, int cnt, int ng) {
  if (pos == P)
    return cnt == N;
  if (cnt > N)
    return 0;
  if (ng >= N)
    return 0;
  
  long long &ret = dp[pos][cnt][ng];
  if (ret == -1) {
    ret = 0;
    ret += (cnt-ng) * solve(pos+1, cnt, min(ng+1, M));
    ret += (N-cnt) * solve(pos+1, cnt+1, min(ng+1, M));
    ret %= MOD;
  }
  return ret;
}

class NoRepeatPlaylist {
 public:
  int numPlaylists(int N, int M, int P) {
    ::N = N;
    ::M = M;
    ::P = P;
    memset(dp, -1, sizeof(dp));
    return solve(0, 0, 0);
  }
};

より高速な解法
(1)の条件がなければ簡単に計算できることに注目して包除原理する。
N曲以下を使って(2)を満たすパターン数を数える。
これには、N-1曲しか使ってないパターンがあるのでそれを引く....
という感じに足して引いてを繰り返す。
const long long MOD = 1e9 + 7;
long long comb[128][128];

class NoRepeatPlaylist {
 public:
  int numPlaylists(int N, int M, int P) {
    comb[0][0] = 1;
    for (int i = 1; i < 128; i++) {
      comb[i][0] = comb[i][i] = 1;
      for (int j = 1; j < i; j++)
        comb[i][j] = (comb[i-1][j-1] + comb[i-1][j]) % MOD;
    }

    int sign = 1;
    long long ret = 0;
    for (int i = N; i > 0; i--) {
      long long pat = 1;
      for (int j = 0; j < P; j++)
        pat = pat * max(i-j, i-M) % MOD;
      ret += sign * pat * comb[N][i];
      ret = (ret % MOD + MOD) % MOD;
      sign = -sign;
    }
    return ret;
  }
};

2017年1月13日金曜日

/usr/bin、/usr/sbin、/usr/local/binなどの違い

 自分が作ったスクリプトをどこに置くべきか迷っていたら、これらの違いについて気になったので調べてみた。違いは以下のとおり。

ディレクトリ名 説明 中に入っているバイナリ例
/bin single user modeでも利用できるバイナリ。 date、cat、ls、bash、cdなど
/sbin single user modeでも利用できるバイナリ。
supervisor権限が必要なもの。
fsck、mount、ping、dmesgなど
/usr/bin システム全体で一般的に利用されるバイナリ。 make、awk、java、ccなど
/usr/sbin システム全体で一般的に利用されるバイナリ。
supervisor権限が必要なもの。
sshd、syslogd、httpdなど
/usr/local/bin システム全体で一般的に利用されるバイナリ。
システムパッケージに管理されていないもの。
tmux、subl、spark-shellなど
/usr/local/sbin システム全体で一般的に利用されるバイナリ。
supervisor権限が必要なもの。
システムパッケージに管理されていないもの。
logrotateなど

ということで、自作のバイナリは/usr/local/bin、または、/usr/local/sbinに入れるのが正しいらしい。
ちなみに、システム全体ではなく自分が使うだけのバイナリであれば、~/binに入れるらしい。

参考
Differences between /bin, /sbin, /usr/bin, /usr/sbin, /usr/local/bin, /usr/local/sbin [duplicate]