无监督自动标记算法？

2024-02-22

我想构建一个允许用户上传的网络应用程序文件, videos, images, music，然后赋予他们搜索它们的能力。把它想象成Dropbox+ 语义搜索。

当用户上传新文件时，例如文档1.docx，如何根据文件内容自动生成标签？换句话说，不需要用户输入来确定文件的内容。如果假设文档1.docx是一篇关于数据挖掘的研究论文，那么当用户搜索数据挖掘, or 研究论文, or 文件1，该文件应该在搜索结果中返回，因为数据挖掘 and 研究论文很可能是该给定文档的潜在自动生成标签。

1. 对于这个问题，你会推荐哪些算法？

此类任务最常见的无监督机器学习模型是潜在狄利克雷分配 http://en.wikipedia.org/wiki/Latent_dirichlet_allocation（LDA）。该模型根据文档中的单词自动推断文档语料库中的主题集合。在您的文档集上运行 LDA 会在您搜索某些主题时将具有概率的单词分配给这些主题，然后您可以检索与该单词相关的概率最高的文档。

图像和音乐也有一些扩展，请参阅http://cseweb.ucsd.edu/~dhu/docs/research_exam09.pdf http://cseweb.ucsd.edu/~dhu/docs/research_exam09.pdf.

LDA 在多种语言中都有多种有效的实现：

来自原始研究人员的许多实现 http://www.cs.princeton.edu/~blei/topicmodeling.html
http://mallet.cs.umass.edu/ http://mallet.cs.umass.edu/，用 Java 编写并由 SO 上的其他人推荐
PLDA http://code.google.com/p/plda/：快速、并行的 C++ 实现

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

无监督自动标记算法？的相关文章

从日志文件中获取前 100 个 URL

我的一位朋友在接受采访时被问到以下问题谁能告诉我如何解决它我们有一个相当大的日志文件大约 5GB 日志文件的每一行都包含一个用户在我们网站上访问过的 URL 我们想要找出用户访问最多的 100 个 URL 怎么做如果我们有超过 10
线性代数如何在算法中使用？

我的几个同行都提到学习算法时线性代数非常重要我研究了各种算法并学习了一些线性代数课程但我没有看到其中的联系那么线性代数如何应用在算法中呢例如图的连接矩阵可以带来哪些有趣的事情三个具体例子线性代数是现代 3D 图形的基础
编程 Pearls - 随机选择算法

Programming Pearls 第一版第 120 页介绍了从 N 个整数总体中选择 M 个等概率随机元素的算法 InitToEmpty Size 0 While Size lt M do T RandInt 1 N if not Me
使用C标准数学库精确计算标准正态分布的CDF

标准 C 数学库不提供计算标准正态分布 CDF 的函数 normcdf 然而它确实提供了密切相关的函数误差函数 erf 和互补误差函数 erfc 计算 CDF 的最快方法通常是通过误差函数使用预定义常量 M SQRT1 2 来表示 d
通过分布式数据库聚合作业优化网络带宽

我有一个分布式联合数据库结构如下数据库分布在三个地理位置节点每个节点集群有多个数据库关系数据库是 PostgreSQL MySQL Oracle 和 MS SQL Server 的混合体非关系数据库是 MongoDB 或 Ca
Codility 钉板

尝试了解 Codility NailingPlanks 的解决方案问题链接 https app codility com programmers lessons 14 binary search algorithm nailing pla
我需要一个支持高效随机访问和 O(k) 插入和删除的容器

我再次尝试问同样的问题question https stackoverflow com questions 3808708 delete parts of a dynamic array and grow other 但我最终提出了一个不同
选择 c 和 gamma 值

您好我正在使用 SMO 执行 SVM 分类其中我的内核是 RBF 现在我想选择c and sigma值使用网格搜索和交叉验证我是内核函数的新手请帮助一步一步的过程选择一些您认为有趣的 C 和 sigma 值例如 C 1 10
如何求小于给定数的最大2次方

我需要找到小于给定数字的最大 2 次幂我陷入困境找不到任何解决方案 Code public class MathPow public int largestPowerOf2 int n int res 2 while res lt n
寻找将集合映射到整数的双射函数

对于任意两个序列 a b 其中 a a1 a2 an 且 b b1 b2 bn 0a b具有相同的元素而不关心它们的顺序例如如果 a 1 1 2 3 b 2 1 3 1 c 3 2 1 3 则 f a f b f a f b 我知道有
旧版本的 spaCy 在尝试安装模型时抛出“KeyError: 'package'”错误

我在 Ubuntu 14 04 4 LTS x64 上使用 spaCy 1 6 0 和 python3 5 为了安装 spaCy 的英文版本我尝试运行这给了我错误消息 ubun ner 3 NeuroNER master src pyt
关于在字典中查找所有有效单词的算法问题

给定一个字典只是一个字符串列表您收到来自外部来源的未知数量的信件给定字母串您将如何列出您可以通过这些字母的任意组合组成的所有有效单词来自字典因此如果您收到 applead 你应该找到apple bad pad lead等我知
C 埃及分数

古埃及人仅使用以下形式的分数1 n因此任何其他分数都必须表示为这些单位分数的总和而且所有单位分数都是不同的在C或Java中使任何分数成为埃及分数总和越少越好的好方法是什么可以使用什么算法分支定界 a 例如 3 4 1 2 1
7 张牌扑克手牌评估器

有谁知道评估 7 张牌扑克牌的快速算法吗这比简单地暴力检查 7 张牌中每 21 个 5 张牌的组合更有效 Cheers Pete 我写了一篇JavaScript 核心评估方法仅使用位操作因此速度非常快考虑到这一点查看 21 种组合还
带路径压缩算法的加权 Quick-Union

有一种带路径压缩的加权快速联合算法代码 public class WeightedQU private int id private int iz public WeightedQU int N id new int N iz new
生成所有多集大小为 n 的分区的算法

我一直在试图找出一种方法来生成多重集的所有不同的大小为 n 的分区但到目前为止却空手而归首先让我展示一下我想要实现的目标假设我们有一个输入向量uint32 t std vector
使用多级解决方案计算二维网格中的最近邻

我有一个问题在 x y 大小的网格中我提供了一个点并且我需要找到最近的邻居在实践中我试图在 pygame 中找到距离光标最近的点该点跨越颜色距离阈值计算如下 sqrt rgb1 0 rgb2 0 2 rgb1 1 rgb2 1
在常数空间中创建 1..N 的随机排列

我正在寻找枚举固定空间中数字 1 N 的随机排列这意味着我无法将所有数字存储在列表中原因是 N 可能非常大超过可用内存我仍然希望能够一次遍历这样一个数字的排列只访问每个数字一次我知道对于某些 N 可以这样做许多随机数生成器随机
计算两点之间的最短路线

过去几周我一直在开发一款多人 HTML5 游戏使用nodejs and websockets 我已经被这个问题困扰了一段时间想象一下我用数组实现了这个平铺地图如下所示 1 or 棕色瓷砖路上有障碍物玩家无法通过 0 or 绿色瓷
在 GPU 支持下对高维数据进行更快的 Kmeans 聚类

我们一直在使用 Kmeans 来对日志进行聚类典型的数据集有 10 mill 具有 100k 特征的样本为了找到最佳 k 我们并行运行多个 Kmeans 并选择轮廓得分最佳的一个在 90 的情况下我们最终得到的 k 介于 2 到 1

随机推荐

检测视图控制器何时进入后台并恢复

我正在实现一个具有以下要求的 ViewController 如果用户在 15 分钟后返回应用程序则视图应重新加载数据我正在考虑使用viewDidDisappear当应用程序进入后台时保存时间戳viewDidAppear用于检查以前保存的
更新复选框并从颤动对话框中返回值

我正在尝试将一些城市列表添加到带有复选框的对话框中以便我需要实现多次单击项目我正在尝试做的事情如下所示 onPressed从按钮调用 Rest Service 并在成功结果时我只显示一个对话框 void showCityDialog B
其余 api 设计和上传图像的工作流程。

我想设计一个API 允许客户端上传图像然后应用程序创建图像的不同变体例如调整大小或更改图像格式最后应用程序将每个变体的图像信息存储在数据库中当我尝试确定执行此任务的正确策略时就会出现问题以下是我能想到的一些不同策略策略一发送
让实体框架使用 Contains 而不是 Like 并解释“ESCAPE ~”

我在 EF 中使用了一行 LINQ 它基本上是在做myTable Where c gt c Contains mystring 这是生成的代码 SELECT TOP 300 Extent1 ID AS ID Extent1 FKFishEn
Zend Framework 2 的注释命名空间未加载 DoctrineMongoODMModule

我已经加载了 zf2 的 Doctrine MongoODM 模块我的控制器中有文档管理器一切都很顺利直到我尝试保留文档它因以下错误而失败语义错误 SdsCore Document User 类中的注释 Document 从未导入
使用龙目岛项目安全吗？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案如果你不知道龙目岛计划 http projectlombok org帮助解决 Java 的一些烦恼比如生成带注释的 getter 和 sett
Heroku 应用程序崩溃并显示“libruby.so.1.9：无法打开共享对象文件”[已关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 我在部署这
如何使用 jquery 添加一个元素始终作为最后一个元素？

无论如何我希望将某个 div 添加为列表中的最后一个元素有什么方法可以明确指定这一点吗 list append div div 会将其附加到 list 的最后如果你想将它附加到最后一个div 以防万一之后还有其他元素那么你可以使用
在 matplotlib 中使用 SymLogNorm 标准化格式化颜色条刻度标签

TL DR 你怎么强制LogFormatter对每个标签都使用科学记数法现在它使用它的值小于0或大于1000 似乎并没有暴露任何set powerlimit我也能找到的方法有什么方法可以做到正确或者您应该使用不同的格式化程序吗哪一个
如何在mysql的现有表中添加另一个字段

Okay I have these table 我这里还有另一张桌子那么 idAlbum 在 gallery 表中对此的查询是什么我想从一个表中的一个字段中选择数据并将其插入到另一表中的字段中如果您想在 PhpMyAdmin 中的现
递归地从同一个表父子表中获取最后一条记录

我想从同一张表中获取最后一个参考 ID 我有下表 ID UserId DelegatedToUserId 1 100 101 2 101 102 3 102 103 4 103 NULL 5 104 109 我就是无法思考我知道我想要什么
查找所有显示器的编号和分辨率

如何轮询窗口来查看连接的显示器以及它们运行的分辨率 In C Screen Class http msdn microsoft com en us library system windows forms screen aspx表示单个系
R 中的堆叠条形图与线条图

我想将以下堆积条形图放在一起与直线曲线但为什么下面的代码不起作用呢正确的做法是什么 x lt c 0 1 2 3 4 5 6 7 8 9 10 11 12 To plot line emp dens lt c 0 107 0 184
是否可以默认使用 SDL Tridion 2011 CME 的“主视图”而不是仪表板？

SDL Tridion 2011 在 CME 中引入了新的仪表板或控制面板在下面User Preferences gt View Settings在该页面上用户可以更改其启动视图以加载主视图而不是仪表板是否可以将其设置为所有用户的系
Android studio 3.4.2 R8混淆器不混淆类名，只混淆里面的java代码

当我升级到最新的时候Gradle版本中我的类名不再被混淆当前工作室版本是3 4 2 由于最新版本使用R8混淆而不是Proguard 我把之前的配置去掉了proguard rules pro因为它几乎什么也不做我还在用 buildTyp
为图像添加标题[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案使用最新的 HTML CSS 在网络上为图像添加标题的最巧妙方法是什么请演示代码有几种语义方法可以标记图像及其标题老派方式一种
.remove() 之后的 d3 回调函数

我想知道我的所有行何时被删除以便我可以调用另一个函数 svg selectAll line transition duration 2500 style stroke opacity 0 remove 我知道我可以使用 each end
python 如何追加到zip存档中的文件

如果我做这样的事情 from zipfile import ZipFile zip ZipFile archive a for x in range 5 zip writestr file1 txt blabla 它将创建一个包含 5 个文
ggplot2 连续直方图

我有一些数据如下所示 value direction 2 2 UP 2 3 DOWN 2 4 UP 2 4 DOWN 2 5 DOWN 2 5 UP 2 5 DOWN 2 5 UP 2 6 DOWN etc 我正在 R 中使用 ggplo
无监督自动标记算法？

我想构建一个允许用户上传的网络应用程序文件 videos images music 然后赋予他们搜索它们的能力把它想象成Dropbox 语义搜索当用户上传新文件时例如文档1 docx 如何根据文件内容自动生成标签换句话说不需要用户

无监督自动标记算法？

无监督自动标记算法？ 的相关文章

随机推荐

热门标签

无监督自动标记算法？的相关文章