DNAのダウンロードとアップロード方法

ざっくり言うと「DNAのダウンロード=配列データを公式DBから取得」「アップロード=公式DBへ自分の配列やリードを登録」です。実物のDNAを扱う手順ではなく、デジタル配列データの話として安全に説明します。

1) ダウンロード(取得)

代表的な取り先は NCBI・Ensembl・ENA です。

  • NCBI Datasets(ゲノム/遺伝子)
    ブラウザ or CLI で目的の生物やアセンブリをまとめて落とせます(FASTA、GFF/GTF、注釈一式)。CLI は datasetsdataformat を使用。使い方は公式の「Download a genome data package」と「Download and Install」に詳しいです。 NCBI+2NCBI+2
    • 例(CLI の雰囲気):
      datasets download genome taxon "Homo sapiens" --include genome,annotation
      dataformat tsv genome --input-file ncbi_dataset.zip > report.tsv
  • Ensembl(参考配列・遺伝子セット)
    ブラウザの「Export data」から FASTA/GTF/GFF を取得できます。FTP/rsync でもまとめ取り可能。最新リリース情報も公開されています。 ensembl.org+2ensembl.org+2
  • ENA(European Nucleotide Archive)
    原則として NCBI/ENA/DDBJ はデータ連携します。ENA でも配布・ダウンロードが可能です。 OUP Academic

補足:GenBank 全体の最新リリース規模(配列数・塩基数)などは「Current GenBank Release Notes」で確認できます。 NCBI

2) アップロード(登録)

自分の配列やシーケンスデータを公式リポジトリに登録してアクセッション番号を取得します。代表ルートは次のとおり。

  • NCBI Submission Portal(総合窓口)
    GenBank(配列)、SRA(生リード)、GEO(発現)、dbSNP 等へ Web から提出できます。アカウント作成 → フォームにメタデータ入力 → FASTA/FASTQ などをアップロード → 審査 → アクセッション付与、という流れです。 submit.ncbi.nlm.nih.gov
  • GenBank への配列提出(ゲノム含む)
    近年は Submission Portal 経由が基本。単一ゲノムの提出等のガイドも公式にまとまっています。 NCBI+1
  • ENA(Webin)
    ENA へは Webin(Web/REST API)で提出できます。プログラマブルに投げたい場合は Webin REST v2 のドキュメントが便利です。 ena-docs.readthedocs.io

提出の一般的な準備物(高レベル)

  • 配列ファイル:FASTA(配列)、FASTQ(リード)など
  • メタデータ:生物種、由来、ライブラリ情報、アセンブリ法、文献情報 等
  • 連絡情報:提出者・所属・ORCID 等
    (いずれも各ポータルの入力フォームに沿って用意します。具体的なフィールド名はポータルの最新ガイドに従ってください。) submit.ncbi.nlm.nih.gov+1

倫理・公開に関する注意(重要)

  • ヒト由来データ:個人特定情報や同意に関わる要件があります。適切なリポジトリ(例:制限付きアクセスのデータベース)や同意状況の確認が必要です。
  • 公開タイミング:多くのリポジトリで**エンバーゴ(公開保留)**設定が可能です。論文受理まで非公開にしてアクセッションだけ取得、といった運用が一般的です。
    (具体仕様は提出先ポータルのポリシーを必ず確認してください。) submit.ncbi.nlm.nih.gov

必要なら、あなたの目的(例:「人間の遺伝子の特定領域を取りたい」「自前のアセンブリを GenBank に出したい」/**「リードを SRA に出したい」**など)に合わせて、実際のダウンロード/提出手順(検索クエリ、必要な最小メタデータ、CLI コマンド例)をあなたのケースに即して書き起こします。どの用途ですか?

投稿者: chosuke

趣味はゲームやアニメや漫画などです

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です