xindi-2022-08-23数据分析记录

2023-05-16

将RNA_seq原始数据存放在raw_data文件夹,经过去除接头的数据存放在clean_data中。

1、 使用Trim Galore软件对两次数据进行质控,去掉20bp以下的reads

vim新建RNA_seq_script_1对2022_08_23测序数据进行质控分析

#!/bin/bash
# 上面一行宣告这个script的语法使用bash语法,当程序被执行时,能够载入bash的相关环境配置文件。
# Program
#     This program is used for RNA-seq data analysis.
# History
#     2022/08/23       zexing            First release
# 设置变量${dir}为常用目录
dir=/home/customer/lizexing/projects/xindi/TreatData/2022_08_23

# 使用fastqc软件对数据进行质控分析
# fastqc -t 8 -o ${dir}/fastqc_report/ ${dir}/raw_data/*.fq.gz

# 利用for循环进行后续操作
for i in T1 T2 T3 V1 V2 V3
do
# 对数据利用Trim_galore去掉20bp以下的接头
trim_galore -q 20 --phred33 --stringency 3 --length 20 -e 0.1 -j 4 --paired \
${dir}/raw_data/"$i"_Clean_Data1.fq.gz \
${dir}/raw_data/"$i"_Clean_Data2.fq.gz \
-o ${dir}/clean_data/
done

后台运行RNA_seq_script_1:

nohup bash RNA_seq_script_1 > RNA_seq_script_1_log &

2. 使用STAR软件对45S rRNA构建索引、对GRCh38.dna.primary_assembly、GRCh38.ncRNA、GRCh38.cds.all构建索引

# 参数说明
--runThreadN是指你要用几个cpu来运行;
--genomeDir构建索引输出文件的目录;
--genomeFastaFiles你的基因组fasta文件所在的目录
--limitGenomeGenerateRAM 43749387189 STAR消耗内存太大,输入限制内存数目防止出错,感谢孙小雨帮忙

STAR  --runMode genomeGenerate --runThreadN 16 --limitGenomeGenerateRAM 43749387189 --genomeDir /home/customer/lizexing/references/Human_45S/star_index --genomeFastaFiles /home/customer/lizexing/references/Human_45S/U13369.1.fasta

STAR  --runMode genomeGenerate --runThreadN 16 --genomeDir /home/customer/lizexing/references/Ensembl/Human  \
--genomeFastaFiles /home/customer/lizexing/references/Ensembl/Human/Homo_sapiens.GRCh38.dna.primary_assembly.fa

STAR  --runMode genomeGenerate --runThreadN 16 --limitGenomeGenerateRAM 43749387189 \
--genomeDir /home/customer/lizexing/references/Ensembl/Human/star_ncrna_index/  \
--genomeFastaFiles /home/customer/lizexing/references/Ensembl/Human/Homo_sapiens.GRCh38.ncrna.fa

STAR  --runMode genomeGenerate --runThreadN 8 --limitGenomeGenerateRAM 82424365322 \
--genomeDir /home/customer/lizexing/references/Ensembl/Human/star_cds_index/  \
--genomeFastaFiles /home/customer/lizexing/references/Ensembl/Human/Homo_sapiens.GRCh38.cds.all.fa

3. 使用STAR软件对测序数据与45S rRNA进行比对

vim新建RNA_seq_script_2对2022_08_23测序数据进行处理

#!/bin/bash
# 上面一行宣告这个script的语法使用bash语法,当程序被执行时,能够载入bash的相关环境配置文件。
# Program
#     This program is used for RNA-seq data analysis.
# History
#     2022/08/23       zexing            First release
# 设置变量${dir}为常用目录
dir=/home/customer/lizexing/projects/xindi/TreatData/2022_08_23

# 利用for循环进行后续操作
for i in T1 T2 T3 V1 V2 V3
do
STAR --runThreadN 8 --runMode alignReads --readFilesCommand zcat --quantMode TranscriptomeSAM GeneCounts --twopassMode Basic --outSAMtype BAM Unsorted \
--sjdbGTFfile /home/customer/lizexing/references/Human_45S/U13369.1.gtf \
--genomeDir /home/customer/lizexing/references/Human_45S/star_index/ \
--readFilesIn ${dir}/clean_data/"$i"_Clean_Data1_val_1.fq.gz ${dir}/clean_data/"$i"_Clean_Data2_val_2.fq.gz \
--outFileNamePrefix ${dir}/45S_RNA/"$i"-val \
--outReadsUnmapped Fastx
done

后台运行RNA_seq_script_2:

nohup bash RNA_seq_script_2 > RNA_seq_script_2_log &

4. 使用STAR软件对数据中未比对上45S_RNA的序列与GRCh38.ncRNA进行比对

vim新建RNA_seq_script_3 对2022_08_23测序数据进行处理

#!/bin/bash
# 上面一行宣告这个script的语法使用bash语法,当程序被执行时,能够载入bash的相关环境配置文件。
# Program
#     This program is used for RNA-seq data analysis.
# History
#     2022/08/23       zexing            First release
# 设置变量${dir}为常用目录
dir=/home/customer/lizexing/projects/xindi/TreatData/2022_08_23

# 利用for循环进行后续操作
for i in T1 T2 T3 V1 V2 V3
do
STAR --runThreadN 8 --runMode alignReads --twopassMode Basic --outSAMtype BAM Unsorted \
--genomeDir /home/customer/lizexing/references/Ensembl/Human/star_ncrna_index/ \
--readFilesIn ${dir}/45S_RNA/"$i"-valUnmapped.out.mate1 ${dir}/45S_RNA/"$i"-valUnmapped.out.mate2 \
--outFileNamePrefix ${dir}/ncRNA/"$i"_ncrna_val \
--outReadsUnmapped Fastx
done

后台运行RNA_seq_script_3:

nohup bash RNA_seq_script_3 > RNA_seq_script_3_log &

5. 使用STAR软件对数据中未比对上45S_RNA的序列与GRCh38.cds.all进行比对

vim新建RNA_seq_script_4 对2022_08_23测序数据进行处理

#!/bin/bash
# 上面一行宣告这个script的语法使用bash语法,当程序被执行时,能够载入bash的相关环境配置文件。
# Program
#     This program is used for RNA-seq data analysis.
# History
#     2022/08/23       zexing            First release
# 设置变量${dir}为常用目录
dir=/home/customer/lizexing/projects/xindi/TreatData/2022_08_23

# 利用for循环进行后续操作
for i in T1 T2 T3 V1 V2 V3
do
STAR --runThreadN 8 --runMode alignReads --twopassMode Basic --outSAMtype BAM Unsorted \
--genomeDir /home/customer/lizexing/references/Ensembl/Human/star_cds_index/ \
--readFilesIn ${dir}/45S_RNA/"$i"-valUnmapped.out.mate1 ${dir}/45S_RNA/"$i"-valUnmapped.out.mate2 \
--outFileNamePrefix ${dir}/cds/"$i"_cds_val \
--outReadsUnmapped Fastx
done

后台运行RNA_seq_script_4:

nohup bash RNA_seq_script_4 > RNA_seq_script_4_log &

6. 使用Samtools软件对三组数据进行排序

vim新建RNA_seq_script_5 对2022_08_23测序数据进行处理

#!/bin/bash
# 上面一行宣告这个script的语法使用bash语法,当程序被执行时,能够载入bash的相关环境配置文件。
# Program
#     This program is used for RNA-seq data analysis.
# History
#     2022/08/23       zexing            First release
# 设置变量${dir}为常用目录
dir=/home/customer/lizexing/projects/xindi/TreatData/2022_08_23

# 利用for循环进行后续操作
for i in T1 T2 T3 V1 V2 V3
do
samtools sort -@ 8 -l 5 -o ${dir}/45S_RNA/${i}-valAligned.out.bam.sort ${dir}/45S_RNA/${i}-valAligned.out.bam
samtools sort -@ 8 -l 5 -o ${dir}/ncRNA/${i}_ncrna_valAligned.out.bam.sort ${dir}/ncRNA/${i}_ncrna_valAligned.out.bam
samtools sort -@ 8 -l 5 -o ${dir}/cds/${i}_cds_valAligned.out.bam.sort ${dir}/cds/${i}_cds_valAligned.out.bam
done

后台运行RNA_seq_script_5:

nohup bash RNA_seq_script_5 > RNA_seq_script_5_log &

7. 使用featureCounts软件对三组数据read summarization

Step 1 - 对测序数据进行计数:5.8S_RNA_bin=10bp, 3’ETS_RNA_bin=100=bp, others_RNA_bin=200bp

vim新建RNA_seq_script_6 对2022_08_23细胞数据进行处理

# Multimapping reads : not counted
#!/bin/bash
# 上面一行宣告这个script的语法使用bash语法,当程序被执行时,能够载入bash的相关环境配置文件。
# Program
#     This program is used for RNA-seq data analysis.
# History
#     2022/08/23       zexing            First release
# 设置变量${dir}为常用目录
dir=/home/customer/lizexing/projects/xindi/TreatData/2022_08_23

# 利用for循环进行后续操作
for i in T1 T2 T3 V1 V2 V3
do
featureCounts -T 8 \
-a /home/customer/lizexing/references/Human_45S/U13369.1.2.gtf -p -B -C -f -t exon -g gene_id \
-o ${dir}/45S_RNA/${i}.read.count \
${dir}/45S_RNA/${i}-valAligned.out.bam.sort
done

后台运行RNA_seq_script_6:

nohup bash RNA_seq_script_6 > RNA_seq_script_6_log &

Step 2 - 对测序数据进行计数:5.8S_RNA_bin=10bp, 3’ETS_RNA_bin=100=bp, others_RNA_bin=100bp

vim新建RNA_seq_script_7 对2022_08_23细胞数据进行处理

# Multimapping reads : not counted
#!/bin/bash
# 上面一行宣告这个script的语法使用bash语法,当程序被执行时,能够载入bash的相关环境配置文件。
# Program
#     This program is used for RNA-seq data analysis.
# History
#     2022/08/23       zexing            First release
# 设置变量${dir}为常用目录
dir=/home/customer/lizexing/projects/xindi/TreatData/2022_08_23

# 利用for循环进行后续操作
for i in T1 T2 T3 V1 V2 V3
do
featureCounts -T 8 \
-a /home/customer/lizexing/references/Human_45S/U13369.1.3.gtf -p -B -C -f -t exon -g gene_id \
-o ${dir}/45S_RNA/${i}.read.count_2 \
${dir}/45S_RNA/${i}-valAligned.out.bam.sort
done

后台运行RNA_seq_script_7:

nohup bash RNA_seq_script_7 > RNA_seq_script_7_log &

Step 3 - 对测序数据进行计数:5.8S_RNA_bin=10bp, 3’ETS_RNA_bin=100=bp, others_RNA_bin=200bp

vim新建RNA_seq_script_8 对2022_08_23细胞数据进行处理

# Level : feature level
# Paired-end : yes
# Multimapping reads : counted
# Multi-overlapping reads : counted 
# Both ends mapped : not required
# Chimeric reads : counted 
#!/bin/bash
# 上面一行宣告这个script的语法使用bash语法,当程序被执行时,能够载入bash的相关环境配置文件。
# Program
#     This program is used for RNA-seq data analysis.
# History
#     2022/08/23       zexing            First release
# 设置变量${dir}为常用目录
dir=/home/customer/lizexing/projects/xindi/TreatData/2022_08_23

# 利用for循环进行后续操作
for i in T1 T2 T3 V1 V2 V3
do
featureCounts -T 8 -M -O -p -f -t exon -g gene_id \
-a /home/customer/lizexing/references/Human_45S/U13369.1.2.gtf \
-o ${dir}/45S_RNA/${i}.read.count_multi_overmapping \
${dir}/45S_RNA/${i}-valAligned.out.bam.sort
done

后台运行RNA_seq_script_8:

nohup bash RNA_seq_script_8 > RNA_seq_script_8_log &

Step 4 - 对测序数据进行计数:5.8S_RNA_bin=10bp, 3’ETS_RNA_bin=100=bp, others_RNA_bin=100bp

vim新建RNA_seq_script_9 对2022_08_23细胞数据进行处理

# Level : feature level
# Paired-end : yes
# Multimapping reads : counted
# Multi-overlapping reads : counted 
# Both ends mapped : not required
# Chimeric reads : counted 
#!/bin/bash
# 上面一行宣告这个script的语法使用bash语法,当程序被执行时,能够载入bash的相关环境配置文件。
# Program
#     This program is used for RNA-seq data analysis.
# History
#     2022/08/23       zexing            First release
# 设置变量${dir}为常用目录
dir=/home/customer/lizexing/projects/xindi/TreatData/2022_08_23

# 利用for循环进行后续操作
for i in T1 T2 T3 V1 V2 V3
do
featureCounts -T 8 -M -O -p -f -t exon -g gene_id \
-a /home/customer/lizexing/references/Human_45S/U13369.1.3.gtf \
-o ${dir}/45S_RNA/${i}.read.count_multi_overmapping_2 \
${dir}/45S_RNA/${i}-valAligned.out.bam.sort
done

后台运行RNA_seq_script_9:

nohup bash RNA_seq_script_9 > RNA_seq_script_9_log &
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

xindi-2022-08-23数据分析记录 的相关文章

  • 2022年12月编程语言排行榜,最新数据来了!

    2022年迎来了最后一个月 xff0c 也就是说新的一年马上就要到了 xff01 在这一年中编程语言起起伏伏 xff0c 有的语言始终炙手可热 xff0c 而有的语言却逐渐 没落 日前 xff0c 全球知名TIOBE编程语言社区发布了12月
  • 2022最新JSON解析计费系统扶风视频解析计费系统V1.8详解

    我个人认为扶风的计费会比云海的比较相对操作好上手 xff0c 且 bug 也少 xff0c 而且之前的之前的版本加载速度实在慢 xff0c 真心感人 扶风计费程序介绍 后台可对接多个专用 json 接口解析 xff0c 可以 m3u8 资源
  • 最新2022面试题(更新)

    前端是什么 xff1f 通常就是指网站前台部分 xff0c 通俗的讲就是用户可以看到的部分 主要用来通过前端技术完成页面设计 xff0c 界面制作 xff0c 用户交互等 HTML html界面的渲染过程 xff1a 1 首先是构建DOM树
  • 2022-08-17 私有gitlab(极狐)部署

    此处选用docker方式部署 比较简单 首先准备好了一个linux服务器 我用的是自己的虚拟机 准备开干 docker已经ok 第一步 docker镜像下载安装 96 96 96 docker pull twang2218 gitlab c
  • IDEA 2021/2022 修改启动画面及设置编辑器背景图片

    一 更换启动图片 1 xff09 进入IDEA 安装目录 找到 IntelliJ IDEA 2021 3 1 lib 文件夹 xff0c 找到 xff08 2021 xff09 platform impl jar xff08 2022 xf
  • Centos7.5搭建本地Yum源【2022最新--保姆级部署】

    搭建本地yum镜像 1 查看一下系统版本 命令 xff1a cat etc centos release 注释 xff1a 查看系统版本 2 下载对应版本镜像 xff1a 下载OS镜像文件 xff1a CentOS 7 x86 64 Eve
  • 洛谷刷题整理(python)-2022.01.29

    P1179 NOIP2010 普及组 数字统计 python代码 https blog csdn net qq872890060 article details 120871329 P1255 数楼梯 方法一 xff08 python3实现
  • 2022-09-14-openstack介绍

    1 云计算介绍 计算 xff08 CPU 内存 xff09 存储和网络是 IT 系统的三类资源 通过云计算平台 xff0c 这三类资源变成了三个资源池 当需要虚机的时候 xff0c 只需要向平台提供虚机的规格 平台会快速从三个资源池分配相应
  • 2022记忆

    今年开年来就重新找工作 xff0c 因为就在去年大概这个时候 xff0c 公司裁员了 找工作 xff0c 对于我们这种大龄程序员来说是一种挑战 xff0c 很多公司表面说可以聊聊 xff0c 最后谈了之后 xff0c 发现技术也可以 xff
  • 2022年2月11日

    P3375 模板 KMP字符串匹配 题目描述 给出两个字符串 s 1s1 和 s 2s2 xff0c 若 s 1s1 的区间 l r l r 子串与 s 2s2 完全相同 xff0c 则称 s 2s2 在 s 1s1 中出现了 xff0c
  • 2022.9.17

    夜抚红烛垂泪 xff0c 才觉银月满身 若人若物若非故 xff0c 心无可期念无数 流水长东恨满怀 xff0c 人生常憾憾无穷 忽下眉梢 xff0c 又上心头 xff0c 如影相随 xff0c 何羡相思
  • [2022]李宏毅深度学习与机器学习第十五讲(必修)-Meta Learning

    2022 李宏毅深度学习与机器学习第十五讲 xff08 必修 xff09 Meta Learning 做笔记的目的Meta LearningML vs meta learningWhat is learnable in learning a
  • 2022年vue高频面试题分享(附答案分析)

    本篇文章给大家总结一些值得收藏的2022年精选vue高频面试题 xff08 附答案 xff09 有一定的参考价值 xff0c 有需要的朋友可以参考一下 xff0c 希望对大家有所帮助 Vue router 导航守卫有哪些 全局前置 钩子 x
  • 飞控学习常见典型问题集Q&A——无名创新(2022年4月15日)

    飞控学习常见典型问题集Q amp A 无名创新 xff08 2022年4月15日 xff09 1 第一次启动FS I6遥控器 xff0c 进入不了界面一直嘟嘟 xff0c 请问这是什么情况呢 xff1f 先把上面的英文翻译一下 xff0c
  • 使用Visual Studio 2022运行C++代码

    使用Visual Studio 2022运行C 43 43 代码 1 打开VS 2022 xff0c 创建新项目 2 安装多个工具和功能 3 选中 使用C 43 43 的桌面开发 和 通用Windows平台开发 xff0c 点击修改 xff
  • 都2022年了,互联网与嵌入式怎么选?

    都2022年了 xff0c 互联网与嵌入式怎么选 xff1f 2022届应届毕业生前来作答一波 大家找工作最关心的还是薪资待遇问题 从今年的校招情况来看 xff0c 互联网中的算法岗是要高于嵌入式的 xff0c 而开发岗整体和嵌入式持平 从
  • Linux面试题总结(2022最新版)

    关于作者 x1f436 程序猿周周 短视频小厂BUG攻城狮 x1f93a 如果文章对你有帮助 xff0c 记得关注 点赞 收藏 xff0c 一键三连哦 xff0c 你的支持将成为我最大的动力 本文是 后端面试小册子 系列的第 5 篇文章 x
  • 再见2022,加油2023

    其实变化最大的一点就是 xff0c 这一年自己变成了一个北漂 没有很多的成熟的规划 xff0c 没有很多预算准备来到了北京 那会儿和之前的同事合租 xff0c 也给他添了不少麻烦 最开始到北京的时候 xff0c 因为口罩问题入职前生活状态比
  • 2022-3-9 Ubuntu 16 安装opencv 4.5

    ubuntu 16安装 OpenCV 3 的教程 也是安装OpenCV 3 Ubuntu 18 安装 OpenCV 4 5 的 安装完成后 xff0c 手动创建opencv pc xff1a cd usr local lib sudo mk
  • getBoundingClientRect offsetWidth offsetHeight

    对于一个旋转的dom元素 getBoundingClientRect 得到的width height是外接矩形的宽高 offsetWidth offsetHeight是未旋转前dom的宽高

随机推荐