t-SNE 在不同的机器上产生不同的结果

2024-01-12

我有大约 3000 个 100D 数据点,我用 t-SNE 将它们投影到 2D。每个数据点属于三个类别之一。但是,当我在两台不同的计算机上运行脚本时,我不断得到不一致的结果。当我使用随机种子时,预计会出现一些不一致,但是其中一台计算机不断获得更好的结果(我在 Ubuntu 上使用 MacBook Pro 和固定机器)。

我使用 Scikit-learn 的 t-SNE 实现。脚本和数据是相同的,我已手动复制文件夹以确保。相关代码片段如下所示:

X_vectors, X_labels = self.load_data(spec_path, sound_path, subset)
tsne = TSNE(n_components=2, perplexity=25, random_state=None)
Y = tsne.fit_transform(X_vectors)
self.plot(X_labels, Y[:, 0], Y[:, 1], Y)

第一张图像是从 macbook 生成的一个样本,我已经运行了几次,它总是在相同的 x/y 范围内生成类似的形状。第二个来自 Ubuntu,显然更好,我再次运行了几次以确保它继续生成更好的结果,与 Mac 相比始终处于更高的 x/y 范围。不确定我在这里没有看到什么,这很可能是我错过的明显的东西。


TSNE 是一种启发式方法。与大多数启发式方法一样,它的行为可能会因微小的变化而大不相同。这里的核心特征是:只保证局部收敛! (不是很稳健)。后者在(遵循基本优化理论)中指出docs http://scikit-learn.org/stable/modules/generated/sklearn.manifold.TSNE.html:

t-SNE 的成本函数不是凸的,即通过不同的初始化我们可以得到不同的结果。

虽然您解释说,在您看来,非种子方法并不是罪魁祸首(很难衡量!基准测试很难),你应该检查你的 sklearn 版本,作为t-sne代码 https://github.com/scikit-learn/scikit-learn/commits/18317f2bd39b77744779ede848eec2c95c5ff590/sklearn/manifold/t_sne.py是 sklearn 中最活跃的部分之一,随着时间的推移发生了许多变化。

这些更改中的每一个都可能会引入像您这样的观察结果(当仅尝试一个示例时;当然,在比较 t-sne 实现时,更大的基准/测试集应该是更好的方法)

Remark: however one of the computers keeps getting better results:这是广泛的,因为至少有两种不同的解释:

  • 从视觉/感知上评价结果
  • look at kl_divergence_优化后达到
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

t-SNE 在不同的机器上产生不同的结果 的相关文章

  • 如何使用 imaplib 获取“消息 ID”

    我尝试获取一个在操作期间不会更改的唯一 ID 我觉得UID不好 所以我认为 Message ID 是正确的 但我不知道如何获取它 我只知道 imap fetch uid XXXX 有人有解决方案吗 来自 IMAP 文档本身 IMAP4消息号
  • Django 模型在模板中不可迭代

    我试图迭代模型以获取列表中的第一个图像 但它给了我错误 即模型不可迭代 以下是我的模型和模板的代码 我只需要获取与单个产品相关的列表中的第一个图像 模型 py class Product models Model title models
  • Pandas 中允许重复列

    我将一个大的 CSV 包含股票财务数据 文件分割成更小的块 CSV 文件的格式不同 像 Excel 数据透视表之类的东西 第一列的前几行包含一些标题 公司名称 ID 等在以下列中重复 因为一家公司有多个属性 而不是一家公司只有一栏 在前几行
  • 填充两个函数之间的区域

    import matplotlib pyplot as plt import numpy as np def domain x np arange 0 10 0 001 f1 lambda x 2 x x 2 0 5 plt plot x
  • 对图像块进行多重处理

    我有一个函数必须循环遍历图像的各个像素并计算一些几何形状 此函数需要很长时间才能运行 在 24 兆像素图像上大约需要 5 小时 但似乎应该很容易在多个内核上并行运行 然而 我一生都找不到一个有据可查 解释充分的例子来使用 Multiproc
  • Python urllib.request.urlopen:AttributeError:'bytes'对象没有属性'data'

    我正在使用 Python 3 并尝试连接到dstk 我收到错误urllib包裹 我对SO进行了很多研究 但找不到与这个问题类似的东西 api url self api base street2coordinates api body jso
  • 从 python 发起 SSH 隧道时出现问题

    目标是在卫星服务器和集中式注册数据库之间建立 n 个 ssh 隧道 我已经在我的服务器之间设置了公钥身份验证 因此它们只需直接登录而无需密码提示 怎么办 我试过帕拉米科 它看起来不错 但仅仅建立一个基本的隧道就变得相当复杂 尽管代码示例将受
  • Numpy 过滤器平滑零区域

    我有一个 0 及更大整数的 2D numpy 数组 其中值代表区域标签 例如 array 9 9 9 0 0 0 0 1 1 1 9 9 9 9 0 7 1 1 1 1 9 9 9 9 0 2 2 1 1 1 9 9 9 8 0 2 2 1
  • 如何设置 Celery 来调用自定义工作器初始化?

    我对 Celery 很陌生 我一直在尝试设置一个具有 2 个独立队列的项目 一个用于计算 另一个用于执行 到目前为止 一切都很好 我的问题是执行队列中的工作人员需要实例化一个具有唯一 object id 的类 每个工作人员一个 id 我想知
  • 奇怪的 MySQL Python mod_wsgi 无法连接到 'localhost' (49) 上的 MySQL 服务器问题

    StackOverflow上也有类似的问题 但我还没有发现完全相同的情况 这是在使用 MySQL 的 OS X Leopard 机器上 一些起始信息 MySQL Server version 5 1 30 Apache 2 2 13 Uni
  • 按元组分隔符拆分列表

    我有清单 print L I WW am XX newbie YY ZZ You WW are XX cool YY ZZ 我想用分隔符将列表拆分为子列表 ZZ print new L I WW am XX newbie YY ZZ You
  • Python 将日志滚动到变量

    我有一个使用多线程并在服务器后台运行的应用程序 为了无需登录服务器即可监控应用程序 我决定包括Bottle http bottlepy org为了响应一些HTTP端点并报告状态 执行远程关闭等 我还想添加一种查阅日志文件的方法 我可以使用以
  • 使用 Firefox 绕过弹出窗口下载文件:Selenium Python

    我正在使用 selenium 和 python 来从中下载某些文件web page http www oceanenergyireland com testfacility corkharbour observations 我之前一直使用设
  • 使用yield 进行字典理解

    作为一个人为的例子 myset set a b c d mydict item yield join item s for item in myset and list mydict gives as cs bs ds a None b N
  • 默认情况下,Keras 自定义层参数是不可训练的吗?

    我在 Keras 中构建了一个简单的自定义层 并惊讶地发现参数默认情况下未设置为可训练 我可以通过显式设置可训练属性来使其工作 我无法通过查看文档或代码来解释为什么会这样 这是应该的样子还是我做错了什么导致默认情况下参数不可训练 代码 im
  • Tkinter - 浮动窗口 - 调整大小

    灵感来自this https stackoverflow com a 22424245 13629335问题 我想为我的根窗口编写自己的调整大小函数 但我刚刚注意到我的代码显示了一些性能问题 如果你快速调整它的大小 你会发现窗口没有像我希望
  • 迭代 my_dict.keys() 并修改字典中的值是否会使迭代器失效?

    我的例子是这样的 for my key in my dict keys my dict my key mutate 上述代码的行为是否已定义 假设my dict是一本字典并且mutate是一个改变其对象的方法 我担心的是 改变字典中的值可能
  • 您可以将操作直接应用于map/reduce/filter 中的参数吗?

    map and filter通常可以与列表理解互换 但是reduce并不那么容易被交换map and filter 此外 在某些情况下我仍然更喜欢函数语法 但是 当您需要对参数本身进行操作时 我发现自己正在经历语法体操 最终必须编写整个函数
  • 具有自定义值的 Django 管理外键下拉列表

    我有 3 个 Django 模型 class Test models Model pass class Page models Model test models ForeignKey Test class Question model M
  • 列表值的意外更改

    这是我的课 class variable object def init self name name alias parents values table name of the variable self name 这是有问题的函数 f

随机推荐

  • 递归:如何避免Python设置在迭代过程中更改设置 RuntimeError

    背景及问题描述 我有一些代码可以解决图着色问题 广义上定义为将 颜色 分配给无向图的问题 确保由边连接的两个顶点没有相同的颜色 我正在尝试使用约束传播来实现一个解决方案 以提高标准递归回溯算法的效率 但遇到以下错误 File C Users
  • 我想将 Qt QML Combobox 设置为 PyQt5 对象属性

    我正在编写一个小程序 它使用 Qt5 QML 作为 GUI 层 并使用 Python3 PyQt5 来实现数据模型 我现在想显示一个ComboBox在 QML 中并将其模型设置为枚举列表 如何将枚举导出为 python 类的属性 以便我可以
  • Sling解析脚本调用顺序

    我正在研究 sling 如何根据 url 调用脚本 在选择器的情况下 它似乎工作正常 但如果我不使用选择器 它会让我难以理解 我有一个页面 content AEMProject English test html其中有资源类型AEMProj
  • 如何检查模型中是否存在 DbContext.Set

    我遇到的情况是 我可能正在使用多个 DbContext 这些 DbContext 可能包含也可能不包含 SomeEntity 的 DbSet 当然 如果我关闭 SaveChanges 并且该实体不存在 则会出现以下错误 实体类型 SomeE
  • 如何使用 Java 禁用 Selenium WebDriver 中的 Chrome 插件

    Chrome 插件弹出 https i stack imgur com jRBdG png 当我为此应用程序执行自动化代码时 会显示上面的弹出窗口 现在我需要知道如何使用 Java 禁用 Selenium WebDriver 中的 PDF
  • 使用 CMake 链接到 TBB 库

    I have tbb下载并放置在我的存储库目录中 gt tree deps tbb d deps tbb bin cmake templates include serial tbb tbb compat internal machine
  • Laravel 扩展 TestResponse 类

    我正在尝试添加自定义断言TestReponse https laravel com api 5 5 Illuminate Foundation Testing TestResponse html类所以我可以做这样的事情 response t
  • 如何使多个带有 OR 的 LEFT JOIN 完全使用复合索引? (第2部分)

    它用于计算用户进入 离开工作场所时如何扫描指纹的系统 我不知道它的英文怎么称呼 我需要确定用户是否早上迟到 以及用户是否提前下班 This tb scan表包含用户扫描指纹的日期和时间 CREATE TABLE tb scan scperc
  • Swift:如何使用关联的应用程序打开文件?

    我喜欢在 macOS 上使用 Excel 打开 xls 文件 我只找到了 C 的示例 但没有找到 Swift 的示例 附加问题 即使该文件扩展名与 Excel 无关 是否也可以使用 Excel 启动该文件 有NSWorkspace shar
  • linux内存初始化时内核CPU使用率高

    在服务器上引导我的 java 应用程序时 我遇到了 Linux 内核 CPU 消耗高的问题 此问题仅发生在生产中 在开发服务器上一切都是光速 upd9 关于这个问题 有两个疑问 如何修复它 名义动物建议同步并删除所有内容 这确实有帮助 su
  • Delphi XE3 WM_HOTKEY 如何判断HotKey何时被释放?

    我正在尝试在一个并不总是有焦点的通信程序中编写一个 咳嗽按钮 我有用于使麦克风静音和取消静音的代码 MMDevApi 它工作得很好 我设置了一个全局热键 这非常适合设置静音 现在问题来了 如何判断热键何时被释放 我尝试了代码中所示的计时器
  • C 标准库的更安全替代品

    C 标准库在 I O 安全方面是出了名的差劲 许多函数都有缓冲区溢出 gets scanf 或者如果没有给出正确的参数 scanf 等等 每隔一段时间 我就会遇到一位有进取心的黑客 他编写了自己的库 但没有这些缺陷 您见过的这些库中最好的是
  • 如何制作莫里斯条形图动画?

    我正在尝试对莫里斯条形图进行动画处理 莫里斯条形图已显示 但我想要每个条形的动画和不同的颜色 我的代码是 success function response body css cursor default if response statu
  • Webpack 4 模块解析失败:意外字符“@”(1:0)

    当我尝试运行时出现此错误npm run dev将我的 scss 编译为 css 我知道这个问题与 import src scss main scss 中出现错误 模块解析失败 意外字符 1 0 您可能需要适当的加载程序来处理此文件类型 导入
  • 将自定义列表视图与 TextView 和 CheckBox 一起使用,并单选 CheckBox

    听说我使用自定义ListView with TextView and CheckBox 但我希望一次在复选框中进行单一选择 一CheckBox选中后另一项取消选择 使用 BaseAdapter 但这段代码不能正常工作 请给我建议 thnks
  • 如何按照 PKCS#11 将 Microsoft Crypto API 与 USB 适配器一起使用

    我有一家公司提供的 safenet 身份验证 USB 令牌 他们告诉我他们里面有数字公钥证书 他们给了我一个密码和一个软件 通过它我可以看到它可以检测里面的证书 现在我需要访问此令牌的证书 然后我需要使用我的开发代码进行签名 加密和解密 但
  • 如何使用 javascript 或任何库检查用户是否在线?

    我需要一些关于如何使用检查互联网连接的帮助JavaScript or jQuery或任何可用的图书馆 因为我正在开发一个离线应用程序 如果用户离线 我想显示一个版本 如果用户在线 我想显示另一个版本 目前我正在使用这段代码 if navig
  • Pandas 根据条件移动列数据

    I have dataframe看起来像这样 Name Val Rating 0 ABC 123 B 1 DEF 234 B 2 567 B NaN 3 GHI 890 D 但我想通过检查来移动数据 col Name 到下一栏 col Va
  • 将数据从 BeautifulSoup 导出到 CSV

    免责声明 我已经阅读过该领域的许多其他答案 但它们似乎对我不起作用 我希望能够将抓取的数据导出为 CSV 文件 我的问题是如何编写将数据输出到 CSV 的代码 当前代码 import requests from bs4 import Bea
  • t-SNE 在不同的机器上产生不同的结果

    我有大约 3000 个 100D 数据点 我用 t SNE 将它们投影到 2D 每个数据点属于三个类别之一 但是 当我在两台不同的计算机上运行脚本时 我不断得到不一致的结果 当我使用随机种子时 预计会出现一些不一致 但是其中一台计算机不断获