创建向量空间

2024-04-06

我有一个问题：我有很多文档，每一行都是由某种模式构建的。当然，我有这一系列的图案。

我想创建一些向量空间，然后通过某种规则来向量这个模式（我还不知道这个规则是什么......） - 即使这个模式像我的向量空间的“质心”。然后向量当前文档的每一行（再次按照此规则）并计算该行的最近质心（即两个向量之间的距离的最小值）。

我不知道我该怎么做？我了解 sklearn 库和 CountVectorizer/TfidfVectorizer/HashingVectorizer - 但这取决于词汇量大小。但是，同样，我有很多文档，这就是为什么词汇表中的单词太多（如果这样做，但在下一个新文档中，它可能是该词汇表中没有的新单词。就是这样解决我的问题的错误方法） Keras 库及其文本预处理也无法解决我的问题二。前任。 “one hot” 将文本编码为大小为的单词索引列表。但每个文档可能有不同的大小，当然还有顺序。这样比较两个向量可能会给出很大的距离，但实际上这个向量（由这个向量编码的单词）非常相似。

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

创建向量空间的相关文章

指示电子邮件的类型

我有以下自动化程序它将电子邮件发送给我自己并添加了特定的链接 import win32com client as win32 import easygui import tkinter as to from tkinter import
如何使用 Python boto3 获取 redshift 中的列名称

我想使用 python boto3 获取 redshift 中的列名称创建Redshift集群将数据插入其中配置的机密管理器配置 SageMaker 笔记本打开Jupyter Notebook写入以下代码 import boto3
检查 python 中命令行参数的数量

我是蟒蛇新手还是把脚弄湿了我正在尝试做这样的事情 import sys if len sys argv lt 3 or lt len sys argv gt 3 print This script will compare two fi
从 pyspark.sql 中的列表创建数据框

我完全陷入了有线的境地现在我有一个清单li li example data map lambda x get labeled prediction w x collect print li type li 输出就像 0 0 59 0 0
如何使用 matplotlib 在误差条图的尖端显示水平线？

我可以使用下面的代码生成误差条图代码生成的图表显示了代表错误的垂直线y 我希望在这些错误的尖端有水平线误差线但我不知道该怎么做 import numpy as np import matplotlib pyplot as plt x
是否有一个包可以维护所有带有符号的货币列表？

是否有一个 python 包提供所有或相当完整货币的列表与符号如美元的有优秀的pycountry 贪财的 https github com limist py moneyed and ccy http code google com
如何在 Python 中的函数入口、内部和退出处进行日志记录

我希望能够使用 Python 日志记录工具在我的代码中进行简单且一致的日志记录我能够执行以下操作我希望所有现有未来的模块和函数都有输入和完成日志消息我不想添加相同的代码片段来定义日志记录参数如下所示don t want t
在 Mac OSX 上从 Python 3.6 运行 wine 命令

我正在尝试用 Python 编写一个打开的脚本wine然后发送代码到wine终端打开一个 exe程序这 exe程序也是命令驱动的我可以打开wine 但我无法进一步 import shlex subprocess line usr bin
更改QLineEdit的ClearButton图标

我想在Windows 10 1909 64位上的Python 3 8和PyQt5 5 15 0 上更改我的QLineEdit的ClearButton图标稍后我想在Linux上运行代码我尝试应用此处找到的代码如何在 QLineEdit
Python“非规范化”unicode 组合字符

我正在寻找标准化 python 中的一些 unicode 文本我想知道是否有一种简单的方法可以在 python 中获得组合 unicode 字符的非规范化形式例如如果我有序列u o xaf i e latin small lette
Flask 应用程序路由中的多个参数

烧瓶怎么写app route如果我在 URL 调用中有多个参数这是我从 AJax 调用的 URL http 0 0 0 0 8888 createcm summary VVV change Feauure 我试图写我的烧瓶app rout
检索 geodjango 多边形对象的边界框

如何在 geodjango 中获取 MultiPolygon 对象的边界框在 API 中找不到任何内容http geodjango org docs geos html http geodjango org docs geos html
pygame：使用 sprite.RenderPlain 绘制精灵组的顺序

我有一个精灵组需要按一定的顺序绘制以便其精灵按应有的方式重叠然而即使使用运算符模块函数 sorted self sprites key attrgetter y x 对组进行排序顺序也是错误的我该如何解决这个问题直截了当地说
为正则表达式编写解析器

即使经过多年的编程我很羞愧地说我从未真正完全掌握正则表达式一般来说当问题需要正则表达式时我通常可以在一堆引用语法之后想出一个合适的正则表达式但我发现自己越来越频繁地使用这种技术所以自学并理解正则表达式properly 我决
无法在 PyCharm 版本 9.3.3 中安装 NumPy。 Python版本3.8.2

在 PyCharm 中安装 NumPy 时出错尝试安装 Microsoft Visual C 14 0 还是行不通 NumPy 正在通过命令安装pip3 install numpy在 cmd 终端中但是当尝试将其安装在 PyCharm
Discord.py 嵌入中禁用按钮/冻结按钮

I m trying to make a replica of this bot in which when I press any of the buttons below it shows a dropdown menu and you
jupyter 服务器 dfdata.to_clipboard 从远程到本地计算机。如何？

我有一个数据框说dfdata in a 在远程计算机上运行的 jupyter 服务器笔记本我想将远程计算机内存中的数据帧访问到本地计算机例如粘贴dfdata脱颖而出通常当笔记本服务器在本地运行时我这样做dfdata to clip
根据多个阈值将 SciPy 分层树状图切割成簇

我想将 SciPy 的树状图切割成多个具有多个阈值的簇我尝试过使用 fcluster 但它只能削减一个阈值例如这是我从另一个问题中摘取的一段代码 import pandas data pandas DataFrame total ru
将时间添加到日期时间

我有一个像这样的日期字符串然后使用strptime 所以就像这样 my time datetime datetime strptime 07 05 15 m d Y 现在我想添加 23 小时 59 分钟my time 我努力了 timed
Python 中的 Unix cat 函数 (cat * > merged.txt)？ [复制]

这个问题在这里已经有答案了一旦建立了目录有没有办法在Python中使用Unix中的cat函数或类似的函数我想将 files 1 3 合并到 merged txt 我通常会在 Unix 中找到该目录然后运行 cat gt merged

随机推荐

Geotools：wgs84 中缓冲区的边界框

我需要一个 Java 函数来生成缓冲区周围的边界框矩形缓冲区由中心点 WGS84 坐标和半径以米为单位定义在 ITS 中获取缓冲区的边界框似乎非常简单 Point center Geometry boundingBox cent
jQuery 无法识别动态添加的 HTML

阅读这里的其他一些内容这个类似的问题但我不确定如何将其应用于我的困境我有一个 jquery 函数可以替换列表中的一些 HTML 例如在函数运行之前 ul li blah blah blah li li blah blah blah
如何在 R markdown SQL 块中使用 SQL 参数

在 Rmd SQL 代码块中包含参数的正确方法是什么这是一个 Rmd 文件示例 title Rmd Example output html document df print paged pdf document default r Sy
如果 spring.mail.host 不在 application.properties 中，则 JavaMailSenderImpl 自动装配错误

我在使用 JavaMailSenderImpl 在 Spring Boot 应用程序中发送电子邮件时遇到了一些问题我正在尝试动态设置所有属性我希望将来从数据库中读取它们但是由于我不知道的原因自动装配 JavaMailSender
Excel进程的最大数量？

如果我这样做例如 for int i 0 i lt 22 i var app new Excel Application 然后创建22个excel进程但是如果我这样做 for int i 0 i lt 25 i var app new
java中的DAO模式什么是业务对象

直接来自this http www oracle com technetwork java dataaccessobject 138824 htmlOracle 关于 J2EE DAO 模式的文章事实上除了业务对象参与者他们这么称呼
定时器可以提早吗？

显然 System Threading Timer 回调应该会延迟一点然而可以提前调用吗例如如果您启动秒表并安排计时器在 1000 毫秒内运行回调那么秒表是否有可能在回调中显示 999 或者我们可以指望它必须显示 1000 或更多
收到警告“NDK 缺少“平台”目录。”没有 NDK [重复]

这个问题在这里已经有答案了我有一个仅使用 Android SDK 而不是 NDK 的项目但每当我使用 gradle 构建时都会收到有关 NDK 的警告 NDK is missing a platforms directory If yo
为什么说微软堆栈成本高？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
在 SQLite 上连接表时如何进行更新？

我试过 UPDATE closure JOIN item ON item id id SET checked 0 WHERE ancestor id 1 And UPDATE closure item SET checked 0 WHERE
穷人的 SQL 枢轴。将每个用户的问题和答案列在一行中

当前查询 SELECT order id AS OrderNumber ordName ordLastName question answer FROM cart survey JOIN orders ON cart survey orde
ASP.NET MVC 2.0 Prev 1 和 SPARK？

我正在尝试将 ASP NET MVC 1 0 应用程序升级到 2 0 预览版 1 我使用 Spark 作为视图引擎问题 Spark 使用 System Web MVC 1 0 0 0 因此我获取了源代码并使用 2 0 0 0 重新编译并使
无法解析 ACRA 4.7.0 中的方法“formKey”

我今天尝试为我的 Android 项目设置 acra 但没有成功我按照说明操作在 gradle 中导入了 acra lib 编译 ch acra acra 4 7 0 然后我添加了这个 ReportsCrashes formKey ma
告诉 urllib2 使用自定义 DNS

我想告诉urllib2 urlopen or a 定制开瓶器使用127 0 0 1 or 1 来解析地址我不会改变我的 etc resolv conf 然而一种可能的解决方案是使用类似的工具dnspython查询地址和httplib构
在 Kotlin 中制作函数块

我很高兴这可能已经得到解答但我无法找到适合我的解决方案 Tl dr 如何制作功能块我有以下用 Kotlin 为 Android API 28 编写的 BLE 相关代码 override fun onServicesDiscovered
如何解决 SceneKit double notsupported 错误？

过去几天我一直在研究 iOS 版 SceneKit 我在尝试创建自定义几何图形时遇到了一个问题每当我尝试显示几何图形时它都不会绘制并在运行时向我显示此错误 SceneKit 错误 C3DRendererContextSetupResi
C# 无法从应用程序成功启动中打开串行端口

因此我正在打开这个端口并将端口名称保存在我的应用程序设置中当我加载表单时它尝试打开端口但失败了仅在单击我的开放端口按钮后EXACT端口打开时使用相同的代码然后如果我单击关闭端口按钮并重新打开表单它就可以工作了它会自
System.Windows.Forms.HtmlDocument 不包含 GetElementByID 的定义

您能解释一下为什么我会收到此错误吗 private void startButton Click object sender EventArgs e HtmlElement mainNav webBrowser1 Document GetE
Perl 中的列表运算符优先级

我正在读 Beginning Perl 一书它给出了以下两条语句 print Test one 6 gt 3 3 gt 4 n print Test two 6 gt 3 and 3 gt 4 n 第一行不打印任何内容并换行第二行打印
创建向量空间

我有一个问题我有很多文档每一行都是由某种模式构建的当然我有这一系列的图案我想创建一些向量空间然后通过某种规则来向量这个模式我还不知道这个规则是什么即使这个模式像我的向量空间的质心然后向量当前文档的每一行再次按照此规则

创建向量空间

创建向量空间 的相关文章

随机推荐

热门标签

创建向量空间的相关文章