将文本文件转换为 plink PED 和 MAP 格式

2024-05-13

我有以下数据（其中的一小部分），名为“short2_pre_snp_tumor.txt”

rs987435        C       G       1       1       1       0       2
rs345783        C       G       0       0       1       0       0
rs955894        G       T       1       1       2       2       1
rs6088791       A       G       1       2       0       0       1
rs11180435      C       T       1       0       1       1       1
rs17571465      A       T       1       2       2       2       2
rs17011450      C       T       2       2       2       2       2
rs6919430       A       C       2       1       2       2       2
rs2342723       C       T       0       2       0       0       0
rs11992567      C       T       2       2       2       2       2

我需要得到PED 和 MAP http://pngu.mgh.harvard.edu/~purcell/plink/data.shtml#ped使用 Python 编写文件，因为 R 在处理大型数据集时速度非常慢。

我在 R 中有以下代码：

 tm <- proc.time()
    d<-read.table("short2_pre_snp_tumor.txt")
    n<-nrow(d)  #237196
    nrs<-ncol(d)-3 #1116
    dd<- data.frame(matrix(NA, nrow= ncol(d)-3, ncol=2*nrow(d)), stringsAsFactors=TRUE)

    for (j in 1:nrs) {
    for (i in 1:n)  { 
    if (d[i, j+3]==0) {
    dd[j, 2*i-1]<-as.character(d[i,2])
    dd[j, 2*i]<-as.character(d[i,2])
    } else if (d[i, j+3]==1) {
    dd[j, 2*i-1]<-as.character(d[i,2])
    dd[j, 2*i]<-as.character(d[i,3])
    } else if (d[i, j+3]==2) {
    dd[j, 2*i-1]<-as.character(d[i,3])
    dd[j, 2*i]<-as.character(d[i,3])
    }
    }
    }


 ped6front<-data.frame(FID = 1: nrow(dd), IID= 1: nrow(dd), PID=0, MID=0, SEX= sample(1:2, nrow(dd), replace=T), PHENOTYPE=2)
    BRCA_tumorfromR.ped <- cbind(ped6front,dd)
   write.table(BRCA_tumorfromR.ped, “BRCA_tumor.ped”, append=FALSE, quote=FALSE, col.names=FALSE)

    proc.time() #ptm

这里使用 R：

# raw data
myRaw <- read.table(text = "
rs987435        C       G       1       1       1       0       2
rs345783        C       G       0       0       1       0       0
rs955894        G       T       1       1       2       2       1
rs6088791       A       G       1       2       0       0       1
rs11180435      C       T       1       0       1       1       1
rs17571465      A       T       1       2       2       2       2
rs17011450      C       T       2       2       2       2       2
rs6919430       A       C       2       1       2       2       2
rs2342723       C       T       0       2       0       0       0
rs11992567      C       T       2       2       2       2       2")

nIndividuals <- ncol(myRaw) - 3
nSNPs <- nrow(myRaw)

# make map, easy
MAP <- data.frame(
  CHR = 1,
  SNP = myRaw$V1,
  CM = 0,
  BP = seq(nSNPs))

# get first 6 columns of PED, easy
PED6 <- data.frame(
  FID = seq(nIndividuals),
  IID = seq(nIndividuals),
  FatherID = 0,
  MotherID = 0,
  Sex = 1,
  Phenotype = 1)

# convert 0,1,2 to genotypes, a bit tricky
# make helper dataframe for matching alleles
myAlleles <- data.frame(
  AA = paste(myRaw$V2, myRaw$V2),
  AB = paste(myRaw$V2, myRaw$V3),
  BB = paste(myRaw$V3, myRaw$V3))

# make index to match with alleles
PEDsnps <- myRaw[, 4:ncol(myRaw)] + 1

# convert
PEDsnpsAB <- 
  sapply(seq(nSNPs), function(snp)
    sapply(PEDsnps[snp, ], function(ind) myAlleles[snp, ind]))

# column bind first 6 cols with genotypes
PED <- cbind(PED6, PEDsnpsAB)

#output PED and MAP
write.table(PED, "gwas.ped", quote = FALSE, col.names = FALSE, row.names = FALSE, sep = "\t")
write.table(MAP, "gwas.map", quote = FALSE, col.names = FALSE, row.names = FALSE, sep = "\t")

# test plink
# plink --file gwas
# PLINK v1.90b3c 64-bit (2 Feb 2015)         https://www.cog-genomics.org/plink2
# (C) 2005-2015 Shaun Purcell, Christopher Chang   GNU General Public License v3
# Logging to plink.log.
# 258273 MB RAM detected; reserving 129136 MB for main workspace.
# .ped scan complete (for binary autoconversion).
# Performing single-pass .bed write (10 variants, 5 people).
# --file: plink.bed + plink.bim + plink.fam written.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Bioinformatics

将文本文件转换为 plink PED 和 MAP 格式的相关文章

python中的编码检测库[重复]

这个问题在这里已经有答案了这在某种程度上与我的问题有关here https stackoverflow com questions 2305997 unicodedecodeerror problem with mechanize 我处理
按 ListProperty (NDB) 对查询进行排序

如何按 ListProperty 对查询进行排序该模型 class Chapter ndb Model title ndb StringProperty required True version ndb IntegerProperty
同情因子简单关系

我在 sympy 中有一个简单的因式分解问题无法解决我在 sympy 处理相当复杂的积分方面取得了巨大成功但我对一些简单的事情感到困惑如何得到 phi 2 2 phi phi 0 phi 0 2 8 因式分解 phi phi 0 2
在一张图中同时绘制两个截面强度

我有一个形状数组 512 512 看起来像行 x 列 y 密度 z 数组的数量 0 012825 0 020408 0 022976 0 015938 0 02165 0 024357 0 036332 0 031904 0 025462
代理阻止网络套接字？如何绕行

我有一个用 Python 编写的正在运行的 websocket 服务器来自https github com opiate SimpleWebSocketServer https github com opiate SimpleWebSoc
Python：如何重构循环导入

我有件事可以帮你做engine setState
Python 3.x 中的 PIL ImageTk 等效项

我正在使用 Tkinter 开发一个应用程序它使用以下数据库png图标的图像文件为了在应用程序中使用所述图像我使用 PIL 打开它们Image open 运行它通过ImageTk PhotoImage函数然后将其传递给小部件构造函数
Python NLP 英式英语与美式英语

我目前正在用Python 进行NLP 工作然而在我的语料库中既有英式英语也有美式英语实现实现我正在考虑将英式英语转换为美式英语但是我没有找到一个好的工具包来做到这一点有什么建议么我也找不到包但试试这个请注意我必须
检查对象数组中的多个属性匹配

我有一个对象数组它们都是相同的对象类型并且它们有多个属性有没有办法返回一个较小的对象数组其中所有属性都与测试用例字符串匹配无论该属性类型是什么使用列表理解all http docs python org 3 library f
如何在 Numpy 中实现垃圾收集

我有一个名为main py 它引用另一个文件Optimisers py它仅具有功能并用于for循环进入main py 这些函数都有不同的优化功能 This Optimisers py然后引用另外两个类似的文件其中也只有函数它们位于whi
散景中的时间序列流

我想在散景中绘制实时时间序列我只想在每次更新时绘制新的数据点我怎样才能做到这一点散景网站上有一个动画情节的示例但它每次都需要重新绘制整个图片另外我正在寻找一个简单的示例我可以在其中逐点绘制时间序列的实时绘图散景效果0 11
将 ASCII 字符转换为“”unicode 表示法的脚本

我正在对 Linux 区域设置文件进行一些更改 usr share i18n locales like pt BR 并且需要格式化字符串例如 d m Y H M 必须以 Unicode 指定其中每个在本例中为 ASCII 字符表示为
Scrapy - 不会爬行

我正在尝试运行递归爬行由于我编写的爬行不能正常工作因此我从网络上提取了一个示例并进行了尝试我真的不知道问题出在哪里但是爬行没有显示任何错误谁能帮我这个另外是否有任何逐步调试工具可以帮助理解蜘蛛的爬行流程非常感谢任何与此相关的
如何从c++调用python

我是Python新手我尝试像这样从 C 调用 python 脚本在 Raspberry Pi 中 std string pythonCommand python Callee py a b int res system pythonCo
pandas apply：函数名是否带引号的区别

简单数据框定义示例 df pd DataFrame A 2 4 1 B 8 4 1 C 6 2 7 df A B C 0 2 8 6 1 4 4 2 2 1 1 7 尝试理解以下块中函数参数调用的差异 df apply sum df app
通过套接字发送字符串（python）

我有两个脚本 Server py 和 Client py 我心中有两个目标能够从客户端一次又一次地向服务器发送数据能够将数据从服务器发送到客户端这是我的 Server py import socket serversocket soc
在 Gensim 中通过 ID 检索文档的字符串版本

我正在使用 Gensim 进行一些主题建模并且已经达到使用 LSI 和 tf idf 模型进行相似性查询的程度我取回 ID 集和相似点例如 299501 0 64505910873413086 如何获取与 ID 在本例中为 29950
Elastic Beanstalk 上的 Django + MySQL - 查询 MySQL 时出错

当我在 Elastic beanstalk 上托管的 Django 应用程序上查询 MySQL 时出现错误错误说 admin login 处出现操作错误 1045 用户 adminDB 172 30 23 5 的访问被拒绝使用密码 Y
Python 中的 C 指针算术

我正在尝试将一个简单的 C 程序转换为 Python 但由于我对 C 和 Python 都一无所知这对我来说很困难我被 C 指针困住了有一个函数采用 unsigned long int 指针并将其值添加到 while 循环中的某些变量
在 pip 中为 Flask 应用程序构建 docker 映像失败

from alpine latest RUN apk add no cache python3 dev pip3 install upgrade pip WORKDIR backend COPY backend RUN pip no cac

随机推荐

如何在javascript中删除对象的一部分

这是我的代码 var data btn click function total data push id total cell val1 val2 val3 每次用户点击btn按钮我向数据对象添加一些值现在我的问题是如何删除有的部分i
了解用于处理色边距的scale_fill_continuous_divergingx参数输入

这个问题是我上一个问题的延续here https stackoverflow com questions 58718527 setting midpoint for continuous diverging color scale on a
ZF3 zend-mvc-骨骼国际化不起作用

我正在尝试评估现在是否是开始迁移到 ZF3 或继续使用 ZF2 开发我的应用程序的合适时机因此我安装了 mvc sculpture 应用程序并完成了 MVC 教程 here https docs zendframework com t
如何使用 jQuery 以编程方式单击 Gmail 中的“显示下面的图像”？

我正在创建一个 Google Chrome 扩展程序它使用 jQuery 在 Gmail 中添加了显示下面的图像链接的键盘快捷键我尝试了以下方法来模拟点击但未成功 canvas frame contents find span c
向上/向下滚动到带有固定按钮的部分

我想构建一个用于向上向下滚动到页面部分标签的脚本我的源代码如下所示 HTML div class move div class previous UP div div class next DOWN div div section Fi
检查 grpc 服务器可用性？

有什么方法可以检查吗grpc server无需进行实际的过程调用和实现额外的查询即rpc HealthCheck Input returns Status 大多数客户应该使用通道状态API https github com grpc gr
`git rm --cached` 和 `git update-index --assume-unchanged` 之间的区别？

我不明白之间的区别git rm cached and git update index assume unchanged 我知道git rm cached
如何修复连接的可排序对象位置错误的可拖动助手（部分由浮动/相对定位的父元素引起）？

Preface 我遇到一个问题当使用放置在浮动相对定位的父元素中的可拖动元素可排序元素时可拖动帮助器偏移不正确浮动父元素是 Bootstrap 列其中多个可排序列表放置在一列中可拖动列表放置在另一列中 Example 这是一个
ValueError：对于optimize.curve_fit中所需的数组来说对象太深

我正在尝试拟合化学系统中四个变量 A B C D 的人口增长和衰退的动力学模型我正在尝试求解以下一组方程我已将其以矩阵形式附加方程的矩阵形式 https i stack imgur com ysEdZ png 其中 t 是时间步长 k
如何使用 Ajax 对 Oracle APEX 表格表单执行逐行验证？

使用我执行的相同验证处理基于此线程在 Oracle APEX v4 2 2 中通过 Ajax 调用 Oracle 函数进行现场验证 https stackoverflow com questions 21474303 calling
关于 Node.js Promise then 和 return？

我对承诺感到困惑 I use 那么就答应没有返回像这样 new Promise resolve reject gt resolve 1 then v1 gt console log v1 new Promise resolve reject
ios Facebook 添加 FBNativeAdView 作为子视图

我想使用预建视图FBNativeAdView 不想自定义 FBNative 广告如link https developers facebook com docs reference ios current class FBNativeAd
我可以更改 Route-Model-Binding 的解析逻辑以始终小写字符串键吗？

我在 Laravel 5 7 项目中使用 UUID 键并且效果非常好当通过路由从数据库请求项目时将查找键并将其作为字符串进行比较当请求发送大写的 uuid 字符串时路由模型绑定将找不到模型因为 Laravel 的 UUID 字符
Parallel.For 和 Break() 误解？

我正在研究 For 循环中的并行性中断看完之后this http tipsandtricks runicsoft com CSharp ParallelClass html and this http reedcopsey com 201
如何为 Windows CE 创建应用程序 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我是 CE 环境的新手我想为在 CE 5 及更高版本上运行的计算机 Intel 创建应用程序我到底需要做什么才能开始该从哪里开
打印对话框不显示在 64 位计算机上的 Crystal Report Viewer 中

我有一个运行 Windows 2008 Server 64 位的客户端他正在运行我们的软件它具有内置的水晶报表查看器功能无论如何打印对话都行不通它在我们的 32 位机器上运行并且我们验证了它我在我们的 64 位机器上验证了它打
Haskell 中的分类结构

Hask通常被认为是一个范畴其对象是类型态射是函数然而我看到 Conor McBride pigworker 警告不要使用Hask多次 1 https stackoverflow com a 45905082 474311 2 ht
允许 .NET WebApi 忽略 DOCTYPE 声明

我正在尝试通过 WebApi 方法将 XML 反序列化为对象我有以下课程 XmlRoot IsNullable false public class MyObject XmlElement Name public string Name
将 celery 与 Flask 应用程序上下文一起使用会导致“弹出错误的应用程序上下文”。断言错误

我或多或少使用设置来使用您的 Flask 应用程序上下文来运行 Celery 任务 http flask pocoo org docs 0 10 patterns celery http flask pocoo org docs 0 10
将文本文件转换为 plink PED 和 MAP 格式

我有以下数据其中的一小部分名为 short2 pre snp tumor txt rs987435 C G 1 1 1 0 2 rs345783 C G 0 0 1 0 0 rs955894 G T 1 1 2 2 1 rs608879

将文本文件转换为 plink PED 和 MAP 格式

将文本文件转换为 plink PED 和 MAP 格式 的相关文章

随机推荐

热门标签

将文本文件转换为 plink PED 和 MAP 格式的相关文章