dimensionalityreduction

通过删除连续的重复项来减少字符串长度

我有一个包含 2 个字段的 R 数据框 ID WORD 1 AAAAABBBBB 2 ABCAAABBBDDD 3 我想通过仅保留字母而不是重复中的重复项来简化具有重复字母的单词 e g AAAAABBBBB应该给我AB and ABCAA

string r DataFrame dimensionalityreduction

想象一下你有一个 3 维 n 个点的集合 S 任意两点之间的距离是简单的欧几里得距离您想要从该集合中选择 k 个点的子集 Q 以使它们彼此相距最远换句话说不存在 k 个点的其他子集 Q 使得 Q 中所有成对距离的最小值小于 Q 中的

我有兴趣查看执行多维缩放后的特征值什么函数可以做到这一点我看了看文档 http scikit learn org stable modules generated sklearn manifold MDS html sklearn ma

我已经计算了一个距离矩阵并且正在尝试两种方法来可视化它这是我的距离矩阵 delta 0 0 71370845 0 80903791 0 82955157 0 56964983 0 0 0 71370845 0 0 99583115 1

python matrix networkx dimensionalityreduction

过去几个月我一直在研究自组织映射 SOM 但是我在理解降维部分仍然有些困惑你能建议任何简单的方法来理解 SOM 在任何现实世界数据集上的实际工作吗就像来自 UCI 存储库的数据集好的首先参考一些之前的相关问题这将使您更好地理解 S

som dimensionalityreduction uci

我有大约 3000 个 100D 数据点我用 t SNE 将它们投影到 2D 每个数据点属于三个类别之一但是当我在两台不同的计算机上运行脚本时我不断得到不一致的结果当我使用随机种子时预计会出现一些不一致但是其中一台计算机不断获

python MacOS Ubuntu scikitlearn dimensionalityreduction

我使用了降维方法此处讨论随机投影算法伪代码在大型数据集上将维度从 1000 减少到 50 后我得到了新数据集其中每个样本如下所示 1751 360 2069 2694 3295 1764 现在我有点困惑因为我不知道负特征值意味

machinelearning Probability multidimensionalarray dimensionalityreduction

当我尝试使用 Scikit Learn 的 LDA 时它只给我一个组件尽管我要求更多 gt gt gt from sklearn lda import LDA gt gt gt x np random randn 5 5 gt gt g

python scikitlearn dimensionalityreduction