无监督自动标记算法?

2024-02-22

我想构建一个允许用户上传的网络应用程序文件, videos, images, music,然后赋予他们搜索它们的能力。把它想象成Dropbox+ 语义搜索。

当用户上传新文件时,例如文档1.docx,如何根据文件内容自动生成标签?换句话说,不需要用户输入来确定文件的内容。如果假设文档1.docx是一篇关于数据挖掘的研究论文,那么当用户搜索数据挖掘, or 研究论文, or 文件1,该文件应该在搜索结果中返回,因为数据挖掘 and 研究论文很可能是该给定文档的潜在自动生成标签。

1. 对于这个问题,你会推荐哪些算法?


此类任务最常见的无监督机器学习模型是潜在狄利克雷分配 http://en.wikipedia.org/wiki/Latent_dirichlet_allocation(LDA)。该模型根据文档中的单词自动推断文档语料库中的主题集合。在您的文档集上运行 LDA 会在您搜索某些主题时将具有概率的单词分配给这些主题,然后您可以检索与该单词相关的概率最高的文档。

图像和音乐也有一些扩展,请参阅http://cseweb.ucsd.edu/~dhu/docs/research_exam09.pdf http://cseweb.ucsd.edu/~dhu/docs/research_exam09.pdf.

LDA 在多种语言中都有多种有效的实现:

  • 来自原始研究人员的许多实现 http://www.cs.princeton.edu/~blei/topicmodeling.html
  • http://mallet.cs.umass.edu/ http://mallet.cs.umass.edu/,用 Java 编写并由 SO 上的其他人推荐
  • PLDA http://code.google.com/p/plda/:快速、并行的 C++ 实现
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

无监督自动标记算法? 的相关文章

  • 从日志文件中获取前 100 个 URL

    我的一位朋友在接受采访时被问到以下问题 谁能告诉我如何解决它 我们有一个相当大的日志文件 大约 5GB 日志文件的每一行都包含一个用户在我们网站上访问过的 URL 我们想要找出用户访问最多的 100 个 URL 怎么做 如果我们有超过 10
  • 线性代数如何在算法中使用?

    我的几个同行都提到 学习算法时 线性代数 非常重要 我研究了各种算法并学习了一些线性代数课程 但我没有看到其中的联系 那么线性代数如何应用在算法中呢 例如 图的连接矩阵可以带来哪些有趣的事情 三个具体例子 线性代数是现代 3D 图形的基础
  • 编程 Pearls - 随机选择算法

    Programming Pearls 第一版第 120 页介绍了从 N 个整数总体中选择 M 个等概率随机元素的算法 InitToEmpty Size 0 While Size lt M do T RandInt 1 N if not Me
  • 使用C标准数学库精确计算标准正态分布的CDF

    标准 C 数学库不提供计算标准正态分布 CDF 的函数 normcdf 然而 它确实提供了密切相关的函数 误差函数 erf 和互补误差函数 erfc 计算 CDF 的最快方法通常是通过误差函数 使用预定义常量 M SQRT1 2 来表示 d
  • 通过分布式数据库聚合作业优化网络带宽

    我有一个分布式 联合数据库 结构如下 数据库分布在三个地理位置 节点 每个节点集群有多个数据库 关系数据库是 PostgreSQL MySQL Oracle 和 MS SQL Server 的混合体 非关系数据库是 MongoDB 或 Ca
  • Codility 钉板

    尝试了解 Codility NailingPlanks 的解决方案 问题链接 https app codility com programmers lessons 14 binary search algorithm nailing pla
  • 我需要一个支持高效随机访问和 O(k) 插入和删除的容器

    我再次尝试问同样的问题question https stackoverflow com questions 3808708 delete parts of a dynamic array and grow other 但我最终提出了一个不同
  • 选择 c 和 gamma 值

    您好 我正在使用 SMO 执行 SVM 分类 其中我的内核是 RBF 现在我想选择c and sigma值 使用网格搜索和交叉验证 我是内核函数的新手 请帮助 一步一步的过程 选择一些您认为有趣的 C 和 sigma 值 例如 C 1 10
  • 如何求小于给定数的最大2次方

    我需要找到小于给定数字的最大 2 次幂 我陷入困境 找不到任何解决方案 Code public class MathPow public int largestPowerOf2 int n int res 2 while res lt n
  • 寻找将集合映射到整数的双射函数

    对于任意两个序列 a b 其中 a a1 a2 an 且 b b1 b2 bn 0a b具有相同的元素 而不关心它们的顺序 例如 如果 a 1 1 2 3 b 2 1 3 1 c 3 2 1 3 则 f a f b f a f b 我知道有
  • 旧版本的 spaCy 在尝试安装模型时抛出“KeyError: 'package'”错误

    我在 Ubuntu 14 04 4 LTS x64 上使用 spaCy 1 6 0 和 python3 5 为了安装 spaCy 的英文版本 我尝试运行 这给了我错误消息 ubun ner 3 NeuroNER master src pyt
  • 关于在字典中查找所有有效单词的算法问题

    给定一个字典 只是一个字符串列表 您收到来自外部来源的未知数量的信件 给定字母串 您将如何列出您可以通过这些字母的任意组合组成的所有有效单词 来自字典 因此 如果您收到 applead 你应该找到apple bad pad lead等 我知
  • C 埃及分数

    古埃及人仅使用以下形式的分数1 n因此任何其他分数都必须表示为这些单位分数的总和 而且 所有单位分数都是不同的 在C或Java中使任何分数成为埃及分数 总和越少越好 的好方法是什么 可以使用什么算法 分支定界 a 例如 3 4 1 2 1
  • 7 张牌扑克手牌评估器

    有谁知道评估 7 张牌扑克牌的快速算法吗 这比简单地暴力检查 7 张牌中每 21 个 5 张牌的组合更有效 Cheers Pete 我写了一篇JavaScript 核心评估方法仅使用位操作 因此速度非常快 考虑到这一点 查看 21 种组合还
  • 带路径压缩算法的加权 Quick-Union

    有一种 带路径压缩的加权快速联合 算法 代码 public class WeightedQU private int id private int iz public WeightedQU int N id new int N iz new
  • 生成所有多集大小为 n 的分区的算法

    我一直在试图找出一种方法来生成多重集的所有不同的大小为 n 的分区 但到目前为止却空手而归 首先让我展示一下我想要实现的目标 假设我们有一个输入向量uint32 t std vector
  • 使用多级解决方案计算二维网格中的最近邻

    我有一个问题 在 x y 大小的网格中 我提供了一个点 并且我需要找到最近的邻居 在实践中 我试图在 pygame 中找到距离光标最近的点 该点跨越颜色距离阈值 计算如下 sqrt rgb1 0 rgb2 0 2 rgb1 1 rgb2 1
  • 在常数空间中创建 1..N 的随机排列

    我正在寻找枚举固定空间中数字 1 N 的随机排列 这意味着我无法将所有数字存储在列表中 原因是 N 可能非常大 超过可用内存 我仍然希望能够一次遍历这样一个数字的排列 只访问每个数字一次 我知道对于某些 N 可以这样做 许多随机数生成器随机
  • 计算两点之间的最短路线

    过去几周我一直在开发一款多人 HTML5 游戏 使用nodejs and websockets 我已经被这个问题困扰了一段时间 想象一下 我用数组实现了这个平铺地图 如下所示 1 or 棕色瓷砖 路上有障碍物 玩家无法通过 0 or 绿色瓷
  • 在 GPU 支持下对高维数据进行更快的 Kmeans 聚类

    我们一直在使用 Kmeans 来对日志进行聚类 典型的数据集有 10 mill 具有 100k 特征的样本 为了找到最佳 k 我们并行运行多个 Kmeans 并选择轮廓得分最佳的一个 在 90 的情况下 我们最终得到的 k 介于 2 到 1

随机推荐

  • 检测视图控制器何时进入后台并恢复

    我正在实现一个具有以下要求的 ViewController 如果用户在 15 分钟后返回应用程序 则视图应重新加载数据 我正在考虑使用viewDidDisappear当应用程序进入后台时保存时间戳viewDidAppear用于检查以前保存的
  • 更新复选框并从颤动对话框中返回值

    我正在尝试将一些城市列表添加到带有复选框的对话框中 以便我需要实现多次单击项目 我正在尝试做的事情如下所示 onPressed从按钮调用 Rest Service 并在成功结果时我只显示一个对话框 void showCityDialog B
  • 其余 api 设计和上传图像的工作流程。

    我想设计一个API 允许客户端上传图像 然后应用程序创建图像的不同变体 例如调整大小或更改图像格式 最后应用程序将每个变体的图像信息存储在数据库中 当我尝试确定执行此任务的正确策略时 就会出现问题 以下是我能想到的一些不同策略 策略一 发送
  • 让实体框架使用 Contains 而不是 Like 并解释“ESCAPE ~”

    我在 EF 中使用了一行 LINQ 它基本上是在做myTable Where c gt c Contains mystring 这是生成的代码 SELECT TOP 300 Extent1 ID AS ID Extent1 FKFishEn
  • Zend Framework 2 的注释命名空间未加载 DoctrineMongoODMModule

    我已经加载了 zf2 的 Doctrine MongoODM 模块 我的控制器中有文档管理器 一切都很顺利 直到我尝试保留文档 它因以下错误而失败 语义错误 SdsCore Document User 类中的注释 Document 从未导入
  • 使用龙目岛项目安全吗? [关闭]

    Closed 这个问题是基于意见的 help closed questions 目前不接受答案 如果你不知道龙目岛计划 http projectlombok org帮助解决 Java 的一些烦恼 比如生成带注释的 getter 和 sett
  • Heroku 应用程序崩溃并显示“libruby.so.1.9:无法打开共享对象文件”[已关闭]

    这个问题不太可能对任何未来的访客有帮助 它只与一个较小的地理区域 一个特定的时间点或一个非常狭窄的情况相关 通常不适用于全世界的互联网受众 为了帮助使这个问题更广泛地适用 访问帮助中心 help reopen questions 我在部署这
  • 如何使用 jquery 添加一个元素始终作为最后一个元素?

    无论如何 我希望将某个 div 添加为列表中的最后一个元素 有什么方法可以明确指定这一点吗 list append div div 会将其附加到 list 的最后 如果你想将它附加到最后一个div 以防万一之后还有其他元素 那么你可以使用
  • 在 matplotlib 中使用 SymLogNorm 标准化格式化颜色条刻度标签

    TL DR 你怎么 强制LogFormatter对每个标签都使用科学记数法 现在它使用它的值小于0或大于1000 似乎并没有暴露任何set powerlimit我也能找到的方法 有什么方法可以做到正确或者您应该使用不同的格式化程序吗 哪一个
  • 如何在mysql的现有表中添加另一个字段

    Okay I have these table 我这里还有另一张桌子 那么 idAlbum 在 gallery 表中 对此的查询是什么 我想从一个表中的一个字段中选择数据并将其插入到另一表中的字段中 如果您想在 PhpMyAdmin 中的现
  • 递归地从同一个表父子表中获取最后一条记录

    我想从同一张表中获取最后一个参考 ID 我有下表 ID UserId DelegatedToUserId 1 100 101 2 101 102 3 102 103 4 103 NULL 5 104 109 我就是无法思考 我知道我想要什么
  • 查找所有显示器的编号和分辨率

    如何轮询窗口来查看连接的显示器以及它们运行的 分辨率 In C Screen Class http msdn microsoft com en us library system windows forms screen aspx表示单个系
  • R 中的堆叠条形图与线条图

    我想将以下堆积条形图放在一起 与直线曲线 但为什么下面的代码不起作用呢 正确的做法是什么 x lt c 0 1 2 3 4 5 6 7 8 9 10 11 12 To plot line emp dens lt c 0 107 0 184
  • 是否可以默认使用 SDL Tridion 2011 CME 的“主视图”而不是仪表板?

    SDL Tridion 2011 在 CME 中引入了新的仪表板 或控制面板 在下面User Preferences gt View Settings在该页面上 用户可以更改其启动视图以加载主视图而不是仪表板 是否可以将其设置为所有用户的系
  • Android studio 3.4.2 R8混淆器不混淆类名,只混淆里面的java代码

    当我升级到最新的时候Gradle版本中 我的类名不再被混淆 当前工作室版本是3 4 2 由于最新版本使用R8混淆而不是Proguard 我把之前的配置去掉了proguard rules pro因为它几乎什么也不做 我还在用 buildTyp
  • 为图像添加标题[关闭]

    Closed 这个问题需要多问focused help closed questions 目前不接受答案 使用最新的 HTML CSS 在网络上为图像添加标题的最巧妙方法是什么 请演示代码 有几种语义方法可以标记图像及其标题 老派方式 一种
  • .remove() 之后的 d3 回调函数

    我想知道我的所有行何时被删除 以便我可以调用另一个函数 svg selectAll line transition duration 2500 style stroke opacity 0 remove 我知道我可以使用 each end
  • python 如何追加到zip存档中的文件

    如果我做这样的事情 from zipfile import ZipFile zip ZipFile archive a for x in range 5 zip writestr file1 txt blabla 它将创建一个包含 5 个文
  • ggplot2 连续直方图

    我有一些数据 如下所示 value direction 2 2 UP 2 3 DOWN 2 4 UP 2 4 DOWN 2 5 DOWN 2 5 UP 2 5 DOWN 2 5 UP 2 6 DOWN etc 我正在 R 中使用 ggplo
  • 无监督自动标记算法?

    我想构建一个允许用户上传的网络应用程序文件 videos images music 然后赋予他们搜索它们的能力 把它想象成Dropbox 语义搜索 当用户上传新文件时 例如文档1 docx 如何根据文件内容自动生成标签 换句话说 不需要用户