データ前処理研究会&機械学習論文輪読会 開催レポート

BLOG

こんにちは!Team AIです。先週の勉強会&ハッカソンの中から厳選して、当日のアジェンダを共有させていただきます。

 

データ前処理研究会 ー 11/1(水)

放送局、開発会社、分析会社、フリーランスエンジニア、大学生の方々交え、論点を一緒に整理して、Kaggleのケーススタディを研究しました。

トピック:
自然言語処理における前処理の種類とその威力
=> BeautifulSoup(スクレイピング処理後のパーサー)/lxml/NEologd(新語もアップデートされている辞書)/TF-IDF(多過ぎる単語・少な過ぎる単語は重要ではないという傾向に基づく分析)/エントロピー(平均情報量)を見る/One-Hot表現/分散表現(Word2Vecにも登場)
https://qiita.com/Hironsan/items/2466fe0f344115aff177

Kaggle Case Study クレジットカードの不正検出のKernel 前処理の事例
=> SMOTE(Synthetic Minority Over-Sampling Technique)/ Confusion Matrix(混同行列) / ROC Curve / Skewed Data(歪んだデータ)
https://www.kaggle.com/joparga3/in-depth-skewed-data-classif-93-recall-acc-now

Kaggle Case Study 肺がん画像の分類における前処理の事例 3D Modeling含む
=> Resampling/3D Plotting/Lung Segmentation/Dilation Morphological Operation(モルフォロジ処理=ノイズ除去)/Normalization/Zero-Centering
https://www.kaggle.com/gzuidhof/full-preprocessing-tutorial

UpSampling/DownSampling or UnderSampling/OverSampling
モデルの選択と、説明変数・目的変数の選択の関係性
そもそもCSV型の構造化データに持ってくるまでにデータの前処理や特徴エンジニアリングが必要
Pythonではじめるデータラングリング(データを飼いならすという意味) (オライリー)
https://www.oreilly.co.jp/books/9784873117942/

Bad Data HandBook (オライリー)
https://www.oreilly.co.jp/books/9784873116402/

次回への改善アイデア
全体像を把握した上での現在地のマッピングが必要
MatrixではなくYES/NO形式のケースのFlowChartが良さそう
これを漏れなくダブりなくまとめる
Text=>構造化データ=>欠損値がある場合
Grid Search 色んなモデルのハイパーパラメーター調整
モンテカルロ
マルコフ連鎖

 

機械学習論文輪読会 - 11/4(土)

起業家、フリーランスエンジニア、外資系金融、開発会社、大学生の方々含め、
Alpha Go Zeroなど最近の注目論文を皆で輪読しました。

トピック:論文リサーチに役立つWebサービス
https://qiita.com/daisuke-team-ai/items/a6b8597f9e30828dcb12

Arxiv.org
https://arxiv.org/

Arxiv Sanity 論文のSNS。Top HypeのセクションではTwitterで流行っている論文がわかる。
http://www.arxiv-sanity.com/

Arxiv Vanity 論文のURLをインプットするとWebSiteにしてくれる
https://www.arxiv-vanity.com

GitXiv 論文のSNS
http://www.gitxiv.com/

ArxivTimes 久保タカヒロさんがやられている論文の紹介サイト
https://t.co/zyNlsCSWSc
https://twitter.com/arxivtimes

Open Review 各学会の合格論文まとめ
https://openreview.net/

How to read a paper 論文の読み方の論文 速読に役立つ
http://blizzard.cs.uwaterloo.ca/keshav/home/Papers/data/07/paper-reading.pdf

Mendeley 研究者がリサーチの生産性向上に使っているツール
https://www.mendeley.com/

PubMed 医療系の論文ならここ 機械学習系もたまにあります
https://www.ncbi.nlm.nih.gov/pubmed/