ValueError：BitVect 的长度必须相同（rdkit）

2024-05-01

我正在计算 2 个摩尔之间的结构相似性概况rdkit。当我在 google colab 中运行程序时（rdkit=2020.09.2 python=3.7）程序运行良好。

当我在 PC 上运行时出现错误 (rdkit=2021.03.2 python=3.8.5）。这个错误有点奇怪。数据框包含500行，代码仅适用于前 10 行（0-9），对于后面的行，我收到错误

 s = DataStructs.BulkTanimotoSimilarity(fps_2[n], fps_2[n+1:]) 
    ValueError: BitVects must be same length

代码块如下所示

  data = pd.read_csv(os.path.join(os.path.join(os.getcwd(), "dataset"), "test_ssp.csv"), index_col=None)
 
  
  #Proff and make a list of Smiles and id
  c_smiles = []
  count = 0
  for index, row in data.iterrows():
    try:
      cs = Chem.CanonSmiles(row['SMILES'])
      c_smiles.append([row['ID_Name'], cs])
    except:
      count = count + 1
      print('Count Invalid SMILES:', count, row['ID_Name'], row['SMILES'])

  # make a list of id, smiles, and mols
  ms = []
  df = DataFrame(c_smiles,columns=['ID_Name','SMILES'])
  for index, row in df.iterrows():
    mol = Chem.MolFromSmiles(row['SMILES'])
    ms.append([row['ID_Name'], row['SMILES'], mol])

  # make a list of id, smiles, mols, and fingerprints (fp)
  fps = []
  df_fps = DataFrame(ms,columns=['ID_Name','SMILES', 'mol'])
  df_fps.head

  for index, row in df_fps.iterrows():
    fps_cal = FingerprintMols.FingerprintMol(row['mol'])
    fps.append([row['ID_Name'], fps_cal])


  fps_2 = DataFrame(fps,columns=['ID_Name','fps'])
  fps_2 = fps_2[fps_2.columns[1]]
  fps_2 = fps_2.values.tolist()


  # compare all fp pairwise without duplicates
  for n in range(len(fps_2)): 
      s = DataStructs.BulkTanimotoSimilarity(fps_2[n], fps_2[n+1:])
      for m in range(len(s)):
          qu.append(c_smiles2[n])
          ta.append(c_smiles2[n+1:][m])
          sim.append(s[m])

您能告诉我为什么我的电脑上出现此错误，而代码在 Google Colab 中运行良好吗？我该如何解决这个问题？有没有办法安装rdkit=2020.09.2?

可重复的数据

DB00607 [H][C@]12SC(C)(C)[C@@H](N1C(=O)[C@H]2NC(=O)C1=C(OCC)C=CC2=CC=CC=C12)C(O)=O
DB01059 CCN1C=C(C(O)=O)C(=O)C2=CC(F)=C(C=C12)N1CCNCC1
DB09128 O=C1NC2=CC(OCCCCN3CCN(CC3)C3=C4C=CSC4=CC=C3)=CC=C2C=C1
DB04908 FC(F)(F)C1=CC(=CC=C1)N1CCN(CCN2C(=O)NC3=CC=CC=C23)CC1
DB09083 COC1=C(OC)C=C2[C@@H](CN(C)CCCN3CCC4=CC(OC)=C(OC)C=C4CC3=O)CC2=C1
DB08820 CC(C)(C)C1=CC(=C(O)C=C1NC(=O)C1=CNC2=CC=CC=C2C1=O)C(C)(C)C
DB08815 [H][C@@]12[C@H]3CC[C@H](C3)[C@]1([H])C(=O)N(C[C@@H]1CCCC[C@H]1CN1CCN(CC1)C1=NSC3=CC=CC=C13)C2=O
DB09143 [H][C@]1(C)CN(C[C@@]([H])(C)O1)C1=CC=C(NC(=O)C2=CC=CC(=C2C)C2=CC=C(OC(F)(F)F)C=C2)C=N1
DB06237 COC1=C(Cl)C=C(CNC2=C(C=NC(=N2)N2CCC[C@H]2CO)C(=O)NCC2=NC=CC=N2)C=C1
DB01166 O=C1CCC2=C(N1)C=CC(OCCCCC1=NN=NN1C1CCCCC1)=C2
DB00813 CCC(=O)N(C1CCN(CCC2=CC=CC=C2)CC1)C1=CC=CC=C1

要首先回答如何安装特定版本的 Rdkit，您可以运行以下命令：

conda install -c rdkit rdkit=2020.09.2

回到原来的问题，错误是由于以下函数造成的：

FingerprintMols.FingerprintMol()

无论出于何种内部原因，它将前 10 个微笑转换为2048长度向量，而第 11 个向 a 微笑1024长度向量。旧版本能够处理这种不匹配，但新版本则不能。有两个选项可以解决此问题：

使用我上面提到的命令将 RdKit 降级到旧版本。
通过将向量作为参数传递来修复向量的长度。基本上就是换线

FingerprintMols.FingerprintMol(row['mol'])

with

FingerprintMols.FingerprintMol(row['mol'], minPath=1, maxPath=7, fpSize=2048,
                               bitsPerHash=2, useHs=True, tgtDensity=0.0,
                               minSize=128)

在替换中，除fpSize被设置为默认值并且fpSize固定为 2048。请注意，您must传递所有参数，而不仅仅是fpSize.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python3x

Fingerprint

rdkit

ValueError：BitVect 的长度必须相同（rdkit）的相关文章

在 Python 中静默打印 PDF

我正在尝试使用 Python 打印 PDF 而不打开 PDF 查看器应用程序 Adobe Foxit 等我还需要知道打印何时完成以删除文件 Here http permalink gmane org gmane comp python
根据日期列过滤并创建列

我有一个样本数据如下 date Deadline 2018 08 01 2018 08 11 2018 09 18 2018 12 08 2018 12 18 我想用代码中描述的条件填写截止日期列如 1 DL 2 DL 3 DL 等基于
为什么 takewhile() 会跳过第一行？

我有一个这样的文件 1 2 3 TAB 1 2 3 TAB 我想将 TAB 之间的行作为块读取 import itertools def block generator file with open file as lines for li
使用 PyQt 和 matplotlib 在可滚动小部件中显示多个绘图

由于我没有得到答案this https stackoverflow com questions 12179893 creating a scrollable multiplot with pythons pylab我尝试用 PyQt 解决这
lxml/python 使用 CDATA 部分读取 xml

在我的 xml 中我有一个CDATA部分我想保留 CDATA 部分然后剥离它有人可以帮忙解决以下问题吗默认不起作用 from io import StringIO from lxml import etree xml
是否可以使用 csv.DictReader 保持列顺序？

例如我的 csv 有如下列 ID ID2 Date Job No Code 我需要以相同的顺序写回各列这dict立即打乱了顺序所以我相信这更多是读者的问题蟒蛇的dicts 在 3 6 之前不维持顺序但是无论如何在该版本中csv
解码来自 S60 设备的 WBXML SyncML 消息

我正在尝试解码来自诺基亚 N95 的 WBXML 编码的 SyncML 消息我的第一次尝试是使用 python pywbxml 模块它包装了对 libwbxml 的调用用此方法解码消息会得到许多标签以及标签内的一大块二进制文件我
创建 Pyomo 约束的性能

我正在用 pyomo 设置一个更大的能量优化问题正如其他中提到的设置花费了不合理的时间问题 https stackoverflow com questions 43413067 performance of pyomo to gener
pyqt4窗口调整大小事件

我正在使用 python3 和 pyqt4 我希望每次运行时都会运行一些代码QMainWindow已调整大小我想要这样的东西 self window resized connect self resize but resized不是内置函
使用 selenium 和 firefox 保存图像

我正在尝试使用 selenium 服务器和 python 客户端从网站保存图像我知道图像的 URL 但我无法找到保存它的代码无论是当它是文档本身还是当它嵌入到当前浏览器会话中时到目前为止我找到的解决方法是保存页面的屏幕截图有两种硒方
django PermissionRequiredMixin Permission_required 不起作用

Views py class templateList PermissionRequiredMixin TemplateView permission required accounts template all def get self
使用 python 更改目录

我碰巧发现我无法从 python 代码中更改实际目录我的测试程序如下 from os import system def sh script system bash c s script sh cd home sh pwd 的输出pwd
如何将 MP3 音频文件读入 numpy 数组/将 numpy 数组保存到 MP3？

有没有办法从 MP3 音频文件中读取写入 MP3 音频文件numpy具有类似 API 的数组scipy io wavfile read https docs scipy org doc scipy 0 14 0 reference gen
使用 matplotlib 在 python3 中对多个形状进行动画处理

尝试在 python3 中使用 matplotlib 动画函数同时对多个对象进行动画处理下面写的代码是我到目前为止的位置我能够创建多个对象并将它们显示在图中我通过使用包含矩形补丁函数的 for 循环来完成此操作从这里开始我希望通过
在keras自定义损失中使用层输出

我正在 Keras 中开发自定义损失函数我需要第一层输出我怎样才能取回它 def custom loss y true y pred cross K mean K binary crossentropy y true y pred ax
如何让 IPython 按类别组织制表符补全的可能性？

当一个对象有数百个方法时制表符补全很难使用通常有趣的方法是由被检查对象的类而不是其基类定义或重写的方法如何让 IPython 对其制表符完成可能性进行分组以便首先检查对象的类中定义的方法和属性然后是基类中的方法和属性看起来像是
Python UPnP/IGD 客户端实现？

我正在寻找一个开源实现UPnP http elinux org UPnPPython 中的客户端更具体地说是它的互联网网关设备 http en wikipedia org wiki Internet Gateway Device Prot
如何使用Python3.4在tornado中进行异步mysql操作？

我现在使用Python3 4 我想在Tornado中使用异步mysql客户端我已经发现torndb https github com bdarnell torndb但在阅读其源代码后我认为它无法进行异步mysql操作因为它只是封装了M
Python google云函数部署失败-Madmom pip包

我正在尝试使用 madmom python pip 包部署 Python3 7 Google Cloud Function 但是指定madmom 0 16 1requirements txt 中的内容导致部署失败当我从requiremen
加载腌制字典对象或加载 JSON 文件哪个更快？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案什么更快 A Unpickling 加载一个 pickled 字典对象使用pickle load or B 使用以下命令将 JSON

随机推荐

并发用户和多个观察者

我知道已经有a thread https stackoverflow com questions 14307341 how exactly are concurrent users determined for a firebase app
Graylog2-如何将日志保留配置为 1 周

我们正在使用一些 Graylog2 服务器 graylog server 版本 1 3 4 因为我们收到太多的日志消息所以需要大量的内存我正在尝试将日志保留时间减少到 1 周所有超过 1 周的日志消息都将被删除但是我无法在配置文件
typo3 extbase：验证表单

我创建了一个简单的订阅新闻通讯表单
Java 工具创建的 WSDL 文件的 WCF 序列化问题

我的团队的任务是让几个内部开发的 NET 客户端应用程序连接到一些新的 Java Web 服务 Java Web 服务是第三方供应商提供的 WSDL 文件我们的团队修改控制的能力有限这意味着我们可能有权要求我们的供应商对 WSDL
根据索引查找金字塔的行？

给定一个像这样的金字塔 0 1 2 3 4 5 6 7 8 9 并给出金字塔的索引i where i代表i金字塔的第一个数字有没有办法找到金字塔的行的索引i第一个元素属于例如如果i 6 7 8 9 它位于第 3 行从第 0 行开始
SerializationException：未解析成员“...”的类型

我一直在尝试将程序集动态加载到 AppDomain 我需要这样做因为我想动态调用一个方法但在我的应用程序运行时不要保留 DLL 的句柄以便在需要时可以替换它但我收到此 SerializationException 异常成员的类型
Javascript查找伪元素

所以我一直在努力CSS 选择器引擎 https github com alpha123 Puma 并且我想支持伪元素 before after selection first line 等我注意到 Slick Sizzle 和其他一些流行
Linux 上的最大子进程数

下面的代码将产生尽可能多的子级自己不会进一步fork 一旦父进程退出就会变成僵尸父进程将产生多少个子进程 int main int argc char arg while fork gt 0 子进程的数量可以通过以下方式限制设置限制 2
单视图布局文件：编译器是否使用布局/视图组自动换行？

如果我有一个只包含一个布局文件TextView 我可以毫无问题地从内部充气它activity 但是如果我尝试膨胀一个包含单个自定义视图的类似布局文件那么我会得到一个通货膨胀例外在这种情况下我可以获得自定义视图来膨胀的唯一方法是将其包
PlantUML 活动图返回

我正在使用 PlantUML 创建活动图我想要从里面出来的箭头Modify Details回到OP2而不是钻石我有这个图 startuml Swimlane1 start OP1 Swimlane2 OP2 if Form Valid
部署 Angular 6 ASP.NET Core 应用程序

我开发了一个 asp net core 2 0 MVC 应用程序并添加了 Angular 6 前端应用程序它们都存在于同一项目结构中 asp net core 应用程序充当客户端 Angular 6 应用程序的 API 我一直在并行开发
如何在 PowerShell 中结束多行命令

这应该很容易但无法弄清楚如何在 PowerShell 中结束多行命令例如如果我输入Get ChildItem 然后按回车键然后我得到一个 gt gt 我认为提示是继续命令但如果我随后输入foreach Write Host nam
python 中的类变量在 __dict__ 中找不到

有一段代码 class C a 1 def f self print f func a C print a a a f gt gt gt 1 gt gt gt f func 当我试图得到a dict or vars a 它告诉我只是 But
如何使用mac杀死mysql进程

I used ps ax grep mysql检查mysql进程是否存在我发现 5323 s000 S 0 00 00 grep mysql 我想终止该进程但号码自动更改当我进入ps ax grep mysql 内容变化如下 5507
如何在 React 中获取

ValueError：BitVect 的长度必须相同（rdkit）

ValueError：BitVect 的长度必须相同（rdkit） 的相关文章

随机推荐

ValueError：BitVect 的长度必须相同（rdkit）的相关文章