Julia でデータサイエンス

Julia でふつうの統計解析をやろう!

Julia 1.6 版 (v1.1版はこちら)


このサイトは

ここにあるのは、生命科学の研究者に向けた RStudio の入門書(Get Started with R, 2nd ed.、邦訳:羊土社、Rをはじめよう 生命科学のためのRStudio入門)で使われているデータセットを使った統計検定を行う Julia コードです。それぞれのコードは、必要なパッケージを using で読み込めれば後は単独で解析結果と図を作ります。

ここには、CSV ファイルからデータを読み込んで二標本t検定、カイ二乗検定、分散分析 (ANOVA)、共分散分析 (ANCOVA)、線形回帰、一般化線形モデル (GLM) の適用を行う Julia のコードがあります。

本書内で使っているRの便利な関数が Julia ではまだなかったりしますが、 その場合、その関数内で行われることを Julia コードで書いています (glm での逸脱度残差 (deviance residual) やてこ比 (leverage) の値の計算、 それらを使った診断プロットなど)。

使っているデータは

データセットは原著のサポートサイトで公開されています。 ここからダウンロードしたデータセットの Zip アーカイブを展開し、できたフォルダを datasets という名前にして、 そのフォルダのあるフォルダをカレントディレクトリとして Julia の REPL を起動する、という想定でコードは書かれています。

もっと詳しく知りたい時は

コードの説明やプロット例などは、ここにある同人誌「Julia でふつうの統計解析」を参照してください(表紙→)。 ここにあるコードはどれも原著邦訳 のRのコードを Julia に書き直したものです。 なお、原著と邦訳はコードにちょっと違うところがあります (ライブラリなどのバージョンアップによる)。

またデータセットについての説明も原著邦訳にあります。

  1. t検定 その1
    3変数(実数、実数、カテゴリカル)のデータでカテゴリー間の比較
  2. 分散分析 (ANOVA)
    3変数(カテゴリカル、整数、実数)のデータでカテゴリー間の比較
  3. χ2検定
    4変数(カテゴリカル、カテゴリカル、カテゴリカル、整数)のデータで 2x2分割表の検定
  4. 共分散分析 (ANCOVA)
    3変数(整数、カテゴリカル、実数)のデータで2本の線形モデルの有意差を検定
  5. 線形回帰
    2変数(実数、実数)のデータで直線の当てはめ
  6. 一般化線形モデル
    2変数(整数、実数)のデータで線形モデルを変形して当てはめ

2019, © Daisuke TOMINAGA.