对产品列表进行分类的算法?拿2

2023-12-30

我问了一个类似的问题 https://stackoverflow.com/questions/695347/algorithm-to-classify-a-list-of-products几周前就问过这个问题,但我没有正确地提出这个问题。所以我在这里重新问这个问题并提供更多细节,我想得到一个更加面向人工智能的答案。

我有一个代表或多或少相同的产品的列表。例如,在下面的列表中,它们都是希捷硬盘。

  1. 希捷硬盘 500Go
  2. 适用于笔记本电脑的希捷硬盘 120Go
  3. 希捷 Barracuda 7200.12 ST3500418AS 500GB 7200 RPM SATA 3.0Gb/s 硬盘
  4. 全新闪亮的希捷 500Go 硬盘
  5. 希捷梭子鱼 7200.12
  6. 希捷 FreeAgent Desk 500GB 外置硬盘 银色 7200RPM USB2.0 零售
  7. GE Spacemaker 洗衣店
  8. 马自达3 2010
  9. 马自达3 2009 2.3L

对于人类来说,硬盘3和5是相同的。我们可以更进一步,假设产品 1、3、4 和 5 是相同的,并将产品 2 和 6 放入其他类别。

在我之前的问题中,有人建议我使用特征提取。当我们有一个预定义描述(所有硬盘驱动器)的小数据集时,它的效果非常好,但是所有其他类型的描述又如何呢?我不想开始为我的应用程序可能面临的所有描述编写基于正则表达式的特征提取器,它无法扩展。有没有任何机器学习算法可以帮助我实现这一目标?我能得到的描述范围非常广泛,在第一行,它可能是一台冰箱,然后在下一行,它可能是一个硬盘。我应该尝试采用神经网络路径吗?我的输入应该是什么?

感谢您的帮助!


我会看一些贝叶斯分类 http://en.wikipedia.org/wiki/Naive_Bayes_classifier方法。这将涉及训练分类器识别特定的单词,以指示产品属于您的某个类别的概率。例如,经过训练后,它可以识别出如果产品描述中有“Seagate”,则有 99% 的可能性是硬盘,而如果有“Mazda”,则有 97% 的可能性是汽车。像“新”这样的词可能最终不会对任何分类做出太大贡献,而这正是您希望它发挥作用的方式。

这样做的缺点是,它通常需要相当大的训练数据集才能开始正常工作,但您可以对其进行设置,以便它在生产过程中继续修改其百分比(如果您发现它对某些内容进行了错误分类) ),最终会变得非常有效。

贝叶斯技术最近被大量使用垃圾邮件过滤应用程序 http://www.paulgraham.com/spam.html,因此最好阅读一下它在那里的使用方式。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

对产品列表进行分类的算法?拿2 的相关文章

  • 快速查找具有最大总不同元素的列表列表的子集

    给定元组列表的列表 我想找到列表的子集 该子集最大化不同整数值的数量 而不重复任何整数 该列表看起来像这样 x 1 2 3 8 9 10 15 16 2 3 10 11 9 10 11 17 18 19 20 21 22 4 5 11 12
  • 如何以干净高效的方式在 pytorch 中获得小批量?

    我试图做一件简单的事情 即使用火炬通过随机梯度下降 SGD 训练线性模型 import numpy as np import torch from torch autograd import Variable import pdb def
  • 图中使用 K 个反向边的所有最短路径

    假设我有一个有向图 G V E 其边的权重为正整数 我需要做的是使用最多 K 整数 个反向边找到所有顶点之间的最短路径 我的意思是 如果我们在边 u 处 并且只有一条从 v 到 u 的有向边 只要我们没有在这条路径上使用 K 个反向边 我们
  • 归并排序究竟进行了多少次比较?

    我读到 在实践中 快速排序比合并排序快得多 其原因是隐藏常量 那么 随机快速排序复杂度的解是2nlnn 1 39nlogn 这意味着快速排序中的常数是1 39 但是合并排序呢 归并排序中的常数是什么 让我们看看能否解决这个问题 在合并排序中
  • 证明字符串算法[关闭]

    就目前情况而言 这个问题不太适合我们的问答形式 我们希望答案得到事实 参考资料或专业知识的支持 但这个问题可能会引发辩论 争论 民意调查或扩展讨论 如果您觉得这个问题可以改进并可能重新开放 访问帮助中心 help reopen questi
  • Haskell:先进先出队列算法的复杂性

    这是我对 FIFO 队列的尝试 type Queue a a gt a empty Queue a empty id remove Int gt Queue a gt a Queue a remove n queue take n queu
  • 神经网络误差随每个训练示例而振荡

    我已经实现了一个反向传播神经网络并根据我的数据对其进行了训练 数据在英语和非洲语句子之间交替 神经网络应该识别输入的语言 网络结构为27 16 2 输入层对于字母表中的每个字母都有 26 个输入加上一个偏置单元 我的问题是 当遇到每个新的训
  • 使用 CNN 和 pytorch 计算每个类别的准确度

    我可以使用此代码计算每个时期后的准确性 但是 我想最后计算每个班级的准确性 我怎样才能做到这一点 我有两个文件夹 train 和 val 每个文件夹有 7 个不同类别的 7 个文件夹 train 文件夹用于训练 否则 val 文件夹用于测试
  • 找到经过大多数点的直线的最有效算法是什么?

    问题 N 个点在二维平面上给出 同一个点上最多有多少个点straight line The problem has O N2 solution go through each point and find the number of poi
  • 如何在 keras 模型中使用张量流度量函数?

    使用Python 3 5 2张量流RC 1 1 我正在尝试在 keras 中使用张量流度量函数 所需的功能接口似乎是相同的 但调用 import pandas import numpy import tensorflow contrib k
  • java中的散列是如何工作的?

    我正在尝试弄清楚java中的哈希值 例如 如果我想在哈希图中存储一些数据 它是否会有某种带有哈希值的底层哈希表 或者 如果有人能够对哈希的工作原理给出一个很好且简单的解释 我将非常感激 HashMap 基本上在内部实现为数组Entry 如果
  • 有向无环图的拓扑排序为阶段

    是否有一种算法 给定一个未加权的有向无环图 将所有节点排序到节点集列表中 使得 拓扑顺序被保留 即 对于所有边u gt v v出现在列表中更靠下的集合中u and 列表的长度是最小的 这个问题有名字吗 Example 下图的一种可能的排序是
  • 尝试校准keras模型

    我正在尝试通过 Sklearn 实现来校准我的 CNN 模型CalibratedClassifierCV 尝试将其包装为KerasClassifier并覆盖预测功能但没有成功 有人可以说我做错了什么吗 这是模型代码 def create m
  • 从 Azure ML 工作室下载经过训练的 ML 模型以部署在独立计算机上

    我已在 Azure ML 中设置了 ML 模型studio我可以使用 ML Studio 的 Web API 来获取预测 将模型托管在 Azure ML Studio 中的关键挑战是客户端计算机的互联网依赖性以及与每个预测相关的延迟 我想了
  • 动态前缀和

    是否有任何数据结构能够返回数组的前缀和 1 更新元素以及向数组插入 删除元素 所有这些都在 O log n 内 1 前缀和 是从第一个元素到给定索引的所有元素的总和 例如 给定非负整数数组8 1 10 7前三个元素的前缀和是19 8 1 1
  • 如何使用 keras.backend.gradients() 获取梯度值

    我试图获得 Keras 模型的输出相对于模型输入 x 而不是权重 的导数 似乎最简单的方法是使用 keras backend 中的 梯度 它返回梯度张量 https keras io backend https keras io backe
  • 可被 N 整除的最小正数

    1 如何找到能被N整除的最小正数 并且它的各位数字和应该等于N 例如 N 结果 1 1 10 190 并且算法时间不应超过 2 秒 有什么想法 伪代码 pascal c 或 java 吗 设 f len sum mod 为 bool 这意味
  • 如何编写高效的配对算法?

    我需要一种算法的帮助 该算法可以有效地将人们分组 并确保以前的配对不会重复 例如 假设我们有 10 位候选人 candidates 0 1 2 3 4 5 6 7 8 9 并假设我们有一个先前匹配的字典 这样每个键值对即candidate
  • 时间复杂度:连续对一个数字的数字进行求和,直到结果为一位数

    给我一个数字 N 不断对数字求和 直到结果为一位数 例如 35252 gt 17 gt 8 我写了以下代码 int digitSum int n int sum 0 int digit while n digit n 10 n n 10 s
  • 用二进制数、常规数字和格雷编码填充矩阵

    我有一个包含 1 s 或 0 s 的矩阵 用于创建二进制数 其宽度为n 对于 n 2 和 n 3 它看起来像 00 000 01 001 10 010 11 011 100 101 110 111 等等 现在我正在使用以下代码来生成它 in

随机推荐

  • 在 Mac 上安装 GNU GCC

    我最近对 Xcode 5 中包含的新 clang 编译器感到沮丧 我想知道在 OS X 上安装 GNU GCC 的最佳方法是什么 需要考虑的事项 我不想使用 MacPorts fink homebrew 或任何其他第三方包管理器 如果可能的
  • 从 HTML 表单发布 blob 的表单输入类型是什么?

    我想将录制的视频 保存为 blob 包含到将要发布的表单中 两个问题 发布 blob 所需的输入类型是什么 如何将 blob 分配给该输入类型 我所看到的一些内容建议使用文件的输入类型 表格示例
  • 如果任何列与一组值之一匹配,则保留行

    我有一个关于使用 R 进行子集化的简单问题 我想我已经很接近了 但还不太明白 基本上 我有 25 个感兴趣的列和大约 100 个值 我想保留其中一列中具有任何这些值的任何行 简单的例子 Values lt c 1 2 5 col1 lt c
  • AngularJS - 在 Angular 中声明服务的不同方式的主要区别是什么?

    我正在开发一个 AngularJS 应用程序 并试图坚持 AngularJs 中最有效和最广泛接受的开发风格 目前 我正在使用这种方式声明我的服务 如下所示 app factory MyService function function d
  • 创建对 IObservable 的弱订阅

    我想要做的是确保如果对我的观察者的唯一引用是可观察的 它会被垃圾收集并停止接收消息 假设我有一个带有列表框的控件 称为 消息 后面的代码如下 Short lived display of messages only while the us
  • jquery lavalamp 的问题

    由于某种原因 无论我点击哪个链接 我的背景颜色都会回到最左边的链接 有人知道如何让它保留在点击的链接上吗 css lamp float left margin 25px 0px 0px 90px clear both lavaLamp po
  • 异步编程 APM 与 EAP

    实际上有什么区别异步编程模型 and 基于事件的异步模式 使用哪种方法以及何时使用 The 异步编程模型 APM 是您看到的模型BeginMethod and EndMethod pairs 例如这里是一个Socket使用APM执行 var
  • 如果 Moose 构建器方法失败该怎么办?

    处理构建器方法中的失败的最佳方法是什么 例如 package MyObj use Moose use IO File has gt file name is gt ro isa gt Str required gt 1 has gt fil
  • 使用时间窗口的标签回填缺失数据

    我想根据时间 1天 2天 用不同的标签回填每一列 这是代码 from datetime import datetime timedelta import pandas as pd import numpy as np import rand
  • NSToolbar的标签区域可以画图吗?

    我有一个NSToolbarItem它使用类似于 Xcode 状态视图的视图 它目前没有标签 但我无法找到一种方法来绘制通常绘制项目标签的区域 我希望该视图能够像 Xcode 状态视图一样扩展到该区域 我知道像素的最底部部分NSToolbar
  • 将列表转储到 pickle 文件中并稍后检索[关闭]

    Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 我正在尝试保存字符串列表 以便以后可以访问它 使用pickle如何实现呢 一个说明性的例子可能会有所帮助 Pickling 将序列化您的列
  • 使用 Fold 依赖多个先前值来计算线性递归的结果

    I have a linear recurrence problem where the next element relies on more than just the prior value e g the Fibonacci seq
  • 我应该在创建通知之前调用 WakeLock 吗?

    我正在向 Android 应用程序添加通知 目前只有模拟器可供测试 收到通知时 将调用 GCMBaseIntentService 子类 GCMIntentService 中的 onMessage 方法 从这里我创建一个要显示的通知 如果我将
  • Kubernetes集群出站流量IP

    我在 Google Kubernetes Engine 上有一个 Kubernetes 集群 我想为集群的所有传出流量分配一个静态 IP 我已经保留了外部 IP 但无法使用 GCP 控制台将它们分配给集群 我找到了一个使用 cli 执行此操
  • 数据读取器检索数据

    我的数据库中有会员资格和预订表 其中包含属性 cust id 它是会员资格中的主键和预订中的参考键 当我执行数据读取器时 我希望它从会员表中读取 cust id 值 但它是从预订表中读取的 另外 当我比较两个 cust id 值时 1 个取
  • 通过 PayPal iOS SDK 进行 PayPal 实时交易的问题

    我正在为 iPad 开发 iOS 应用程序 版本 7 x 我们需要通过应用程序执行 PayPal 交易 我们包含了 PayPal iOS SDK 并参考他们的示例代码来执行交易 示例代码放置在here https github com pa
  • AWS Lambda 和 .NET Core - 使用 Linux 运行时?

    我正在用 C NET Core 编写 Alexa 技能 以便从 AWS Lambda 函数 在 Amazon Linux 上运行 运行 当我编译项目时 点网发布 我收到错误 找不到框架 NETCoreApp Version v1 0 的运行
  • 需要一点数学帮助来调整图像大小

    我有一个具有 X 宽度和 Y 高度值的图像 现在我想将高度设置为 60px 通过哪种计算我可以计算出图像正确调整大小的高度 我认为你正在努力保持纵横比 如果是这样 请使用以下命令 比率 原始高度 新高度 新宽度 原始宽度 比例
  • 在 Python (Pycharm) 中导入 numpy,安装了 Anaconda

    我对 python 很陌生 我正在尝试编写代码来导出一阶 ODE 因此 我需要某些软件包 例如 numpy 来执行此操作并安装了 Anaconda 当我尝试在 PyCharm 中使用 import numpy 命令时 它不起作用 我收到 M
  • 对产品列表进行分类的算法?拿2

    我问了一个类似的问题 https stackoverflow com questions 695347 algorithm to classify a list of products几周前就问过这个问题 但我没有正确地提出这个问题 所以我