ざっくり言うと「DNAのダウンロード=配列データを公式DBから取得」「アップロード=公式DBへ自分の配列やリードを登録」です。実物のDNAを扱う手順ではなく、デジタル配列データの話として安全に説明します。
1) ダウンロード(取得)
代表的な取り先は NCBI・Ensembl・ENA です。
- NCBI Datasets(ゲノム/遺伝子)
ブラウザ or CLI で目的の生物やアセンブリをまとめて落とせます(FASTA、GFF/GTF、注釈一式)。CLI はdatasetsとdataformatを使用。使い方は公式の「Download a genome data package」と「Download and Install」に詳しいです。 NCBI+2NCBI+2- 例(CLI の雰囲気):
datasets download genome taxon "Homo sapiens" --include genome,annotationdataformat tsv genome --input-file ncbi_dataset.zip > report.tsv
- 例(CLI の雰囲気):
- Ensembl(参考配列・遺伝子セット)
ブラウザの「Export data」から FASTA/GTF/GFF を取得できます。FTP/rsync でもまとめ取り可能。最新リリース情報も公開されています。 ensembl.org+2ensembl.org+2 - ENA(European Nucleotide Archive)
原則として NCBI/ENA/DDBJ はデータ連携します。ENA でも配布・ダウンロードが可能です。 OUP Academic
補足:GenBank 全体の最新リリース規模(配列数・塩基数)などは「Current GenBank Release Notes」で確認できます。 NCBI
2) アップロード(登録)
自分の配列やシーケンスデータを公式リポジトリに登録してアクセッション番号を取得します。代表ルートは次のとおり。
- NCBI Submission Portal(総合窓口)
GenBank(配列)、SRA(生リード)、GEO(発現)、dbSNP 等へ Web から提出できます。アカウント作成 → フォームにメタデータ入力 → FASTA/FASTQ などをアップロード → 審査 → アクセッション付与、という流れです。 submit.ncbi.nlm.nih.gov - GenBank への配列提出(ゲノム含む)
近年は Submission Portal 経由が基本。単一ゲノムの提出等のガイドも公式にまとまっています。 NCBI+1 - ENA(Webin)
ENA へは Webin(Web/REST API)で提出できます。プログラマブルに投げたい場合は Webin REST v2 のドキュメントが便利です。 ena-docs.readthedocs.io
提出の一般的な準備物(高レベル)
- 配列ファイル:FASTA(配列)、FASTQ(リード)など
- メタデータ:生物種、由来、ライブラリ情報、アセンブリ法、文献情報 等
- 連絡情報:提出者・所属・ORCID 等
(いずれも各ポータルの入力フォームに沿って用意します。具体的なフィールド名はポータルの最新ガイドに従ってください。) submit.ncbi.nlm.nih.gov+1
倫理・公開に関する注意(重要)
- ヒト由来データ:個人特定情報や同意に関わる要件があります。適切なリポジトリ(例:制限付きアクセスのデータベース)や同意状況の確認が必要です。
- 公開タイミング:多くのリポジトリで**エンバーゴ(公開保留)**設定が可能です。論文受理まで非公開にしてアクセッションだけ取得、といった運用が一般的です。
(具体仕様は提出先ポータルのポリシーを必ず確認してください。) submit.ncbi.nlm.nih.gov
必要なら、あなたの目的(例:「人間の遺伝子の特定領域を取りたい」/「自前のアセンブリを GenBank に出したい」/**「リードを SRA に出したい」**など)に合わせて、実際のダウンロード/提出手順(検索クエリ、必要な最小メタデータ、CLI コマンド例)をあなたのケースに即して書き起こします。どの用途ですか?
