電子情報工学演習B 第3回

課題

アミノ酸配列の解析
UniProt のサイトから最新の SwissProt データベース (uniprot_sprot.fasta) をダウンロードし、以下の各項目について調べなさい。
全エントリー数（項目数）
総残基数
登録されているアミノ酸配列長の平均、標準偏差、最大、最小
配列長が最大と最小のエントリーの内容（どのようなタンパク質か、など）

準備

データベースファイルをダウンロードする

ブラウザ上でダウンロードするか curl を使う

  $ curl https://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/uniprot_sprot.fasta.gz -o "uniprot_sprot.fasta.gz"
  $ curl http://water.eit.hirosaki-u.ac.jp/~slmizu/MizutaLabo/B3Practice/uniprot_test.fasta -o "uniprot_test.fasta"

ファイルを解凍する
```
  $ gzip -d uniprot_sprot.fasta.gz
```
テキストファイルなのに 300MB くらいあるので閲覧するときは注意する
```
  $ less uniprot_sprot.fasta
```

解法のヒント

項目数と残基数はループ内で数え上げすれば OK
平均と標準偏差も定義を知っていればすぐ算出できる
- Ruby で平方根を計算するときは Math モジュールを用いる
```
  sd = Math.sqrt(根号の中身)
```

補足事項

FASTA形式について

詳しい説明は NCBI BLAST topics にありますが、とりあえず Wikipedia を読んでおくと分かりやすいでしょう。

FASTA は、”FAST-Aye”（ファストエー）と発音する。

ということらしいのですが、皆さん「ファスタ」と呼んでいるようです。

標準偏差

各数量と平均の差を偏差(deviation)という。偏差の 2 乗の平均値を分散(variance)といい、データの散らばり具合を示す指標として用いられる。また、分散の正の平方根を標準偏差(standard deviation)という。
ここで標準偏差 $s$ は式 (1) のように表される。

\[s=\sqrt{\overline{\mathstrut x^2}-(\overline{\mathstrut x})^2} \tag{1}\]

このあたりの詳しい説明は
【高校数学Ⅰ】分散s²と標準偏差s、分散の別公式 | 受験の月
を読むのがよいでしょう。