私は迷いの中にいる

毎日眠気しかない謎の深海魚の一言日記

全力で不理解!ROC

Python

今日から(元気があれば)模擬試験を2種類実施することにしました。

理由:毎日一通り試験を本番まで繰り返していれば最悪ど忘れは避けられるだろうと

思ったので

PRIME STUDY:95点/100点中

DIVE INTO EXAM:700点/1000点中(合格ボーダー)

 

模擬試験を利用していて覚えていないなと感じた箇所は以下。

・numpyの転置(T)と分割(vsplit):vsplitは第二引数の形で分割1個目の形を指定する

・pandasのカラム名変更(df.rename)←これ教科書に載っていない?調べよう、、

Pandas DataFrame で列の名前を変更する方法 | Delft スタック

・numpyのmultiplyメソッド(ドット積ではなくアダマール積?)

Python - dotとmultiplyの違い|teratail

ドット積とアダマール積と行列の計算は区別できるようにしたほうがいいぽ。

アダマール積って初めて聞いたかもしれん。

行列の積の仕方, ベクトルの内積、アダマール積との違い~制御工学の基礎あれこれ~

・methgrid

 

今日はROC(Receiver Operating Characteristic)とAUC(Area Under the Curve)を学習。

これを文章だけ読んで理解できる人は天才だと思う。

何故この2つの話題が出てくるかというと、データの予測確率が正確かどうかをはかるためであって、これも文章で書くとよくわからない。

 

良いモデルさんというのは、確率に対して一定の比率で相関することがないといけない。

例えば確率が上がるにつれて、合格可能性が高まるとかの相関。

確率が高くても低くても合格するかどうかわからないとかだと、そのモデルは

ランダム性が高すぎて予想のテイを成していないので意味がないよねー

 

ということ、かな・・

↓めちゃくちゃ参考にした。医療方面でよく使われる指標?

ROC曲線

【ROC曲線とAUC】機械学習の評価指標についての基礎講座 - Np-Urのデータ分析教室

 

ROC閾値ごとの偽陽性率と真陽性率で、大体右肩のぼり

AUCはROC下の面積で、この面積の合計が1に近いほど正例と負例を

確率で区別できている良いモデルさん、とのこと・・ほえー

 

7割くらいわかるような気がするけれど、体感でこのROCの階段が理解できているかが

怪しいかもしれない。閾値を見つけることは重要じゃなくて

閾値の相関で偽陽性率・真陽性率ともに1に近づいているっていう

相関があることが大事なのかな?というか閾値が変化していって

どちらの率も1に届いていなかったらそれはなんか違う気もする‥寝るか・・・すやー