字符串作为决策树/随机森林中的特征

2024-03-21

我是机器学习新手!

现在我正在做一些关于决策树/随机森林应用的问题。我正在尝试解决一个以数字和字符串(例如国家/地区名称)为特征的问题。现在,scikit-learn 库仅接受数字作为参数,但我想注入字符串以及它们携带大量知识。

我该如何处理这种情况,我可以通过某种机制将字符串转换为数字,例如Python中的散列。但我想知道在决策树问题中如何处理字符串的最佳实践。


1)如何添加“字符串”作为特征。

很少有算法可以原生处理任何形式的字符串,决策树不是其中之一。您必须将它们转换为决策树知道的东西(通常是数字或分类变量)。

如何将它们转换为特征:这很大程度上取决于字符串的性质。如果字符串是句子,你可以使用类似的东西词袋 http://en.wikipedia.org/wiki/Bag-of-words_model将每个单词映射到数字特征。有许多不同的策略来确定使用什么数值,但仅使用 0/1 表示不存在/存在通常是一个不错的基线。

对于国家/地区来说,这是没有意义的,因为你以错误的方式代表了你的特征。国家更类似于分类变量。只有 X 个国家,并且您必须具有 X 中的值(这可能不是严格绝对正确的,但这超出了重点)。 scikit-learn 不支持分类变量。您可以通过使用“伪造”它独热编码 http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html,但它的工作效果可能不如完全支持分类变量的库。

请注意,仅仅因为国家/地区可以表示为类别并不意味着它是处理它们的最佳方式。这在很大程度上取决于您的数据是什么以及您正在做什么。如果不了解所有细节,没有人可以为您解答。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

字符串作为决策树/随机森林中的特征 的相关文章

随机推荐

  • 将 Outlook 邮件正文另存为 PDF

    我正在使用 Outlook 和 C 我的学校练习是在不使用额外软件的情况下将电子邮件正文转换为 pdf 就我而言 我想保留电子邮件文本格式 以便解决我的问题 我考虑将电子邮件正文转换为 RTF 文件 然后使用 C 使用 Word 应用程序打
  • Carbon createFromFormat 意外结果

    createFromFormat 结果提前一个月 var dump GET archive var dump Carbon createFromFormat m Y GET archive Result string 11 2015 len
  • 无法导入 gsutil

    我觉得我把一切都设置正确了 我遵循了这些指示 https developers google com storage docs gsutil install install 并从 tar 文件安装 我的主目录现在有一个文件夹 gsutil
  • cvxpy:“sum_entries”未定义

    我正在尝试使用 CVXPY 解决 Python 中的投资组合优化问题 但收到错误 sum entries is not Defined 我正在使用 Anaconda 2 7 和 Jupyter 笔记本 我已经使用 conda pip ins
  • 了解 Azure 事件中心分区使用者模式

    Azure 事件中心使用分区使用者模式中描述的docs https learn microsoft com en us azure event hubs event hubs features 当涉及到现实世界场景时 我在理解该模型的消费者
  • 如何比较2个整数是否相等?

    如何在 C 中比较两个整数 我有一个用户输入 ID 即int 然后我就有了一个属于我的结构一部分的联系 ID 联系 ID 是int also 我需要比较它们是否相同 才能知道它存在 我做了这样的事情 if user input id com
  • Ctrl+D 后如何重新启动 stdin?

    运行一个需要来自终端的输入的程序 我可以通过 Ctrl D 关闭 stdin 之后有什么办法重新打开标准输入吗 In linux questions tagged linux and on POSIXy systems in general
  • 根据远程主机名更改 tmux 窗格的背景颜色

    如果我在单个窗格中从 tmux ssh 到远程服务器 是否可以根据服务器名称更改窗格的背景颜色 假设我所有的产品服务器都以prod XYZ开发服务器以dev XYZ 如果我通过 ssh 连接到这两台服务器 我可以根据我所在的服务器类型为它们
  • 有没有办法用 CSS 动画制作省略号动画?

    我正在尝试制作省略号动画 并且想知道 CSS 动画是否可以实现 所以它可能就像 Loading Loading Loading Loading Loading 基本上就这样继续下去 有任何想法吗 编辑 像这样 http playground
  • 如何在 CoffeeScript 中传递两个匿名函数作为参数?

    我想传递两个匿名函数作为 jQuery 悬停的参数 如下所示 element hover function do stuff on mouseover function do stuff on mouseout 只需一个就很容易 hover
  • git 错误; RPC失败;结果=22,HTTP 代码=401

    我正在尝试将一些颠覆代码和历史记录放入 TFS 中 通过 GIT 似乎是一个快速的胜利 并按照以下网址中的步骤进行操作 http www incyclesoftware com 2013 08 how easy its to migrate
  • 使用参数添加和删除事件监听器

    我正在写一个普通 JavaScript工具 启用后将事件侦听器添加到传递给它的每个元素 我想做这样的事情 var do something function obj do something for var i 0 i lt arr len
  • 如何将变量从 PHP 传递到 Python?

    我可以从 a 传递一个变量吗 php脚本到Python反之亦然 例如 myPHPScript php hello hello myPythonScript py print get the result from hello variabl
  • Android Studio 错误:增量输出目录应设置为输出目录

    我导入了一个github项目 https github com caarmen poet assistant https github com caarmen poet assistant到我的 Android Studio 当我单击 Ma
  • 如何更改菜单栏的字体颜色?

    如何更改 QML 菜单项的文本颜色MenuBar import QtQuick 2 4 import QtQuick Controls 1 3 import QtQuick Window 2 2 import QtQuick Dialogs
  • 在查询中使用变量表名

    有时我需要运行相同的 SQL Server 脚本 每次将每个表名称中的一两个字母更改为每次运行脚本时都不同的值 如何在脚本开头设置一次 这样我就不需要更改每个表名 这是该脚本的一个简化示例 实际上它包含更多的表 SELECT FROM T
  • Python:从url获取shoutcast/网络广播电台的名称

    我一直在尝试根据 python 中的 url 获取网络广播电台的名称 标题 但到目前为止还没有运气 网络广播电台似乎使用 HTTP 之外的其他协议 但如果我错了 请纠正我 例如 http 89 238 146 142 7030 http 8
  • CodeIgniter、模型、ORM,怎么处理?

    我从 CodeIgniter 开始 在 Google 中潜入几个小时后 我有点困惑 让我们尝试用一个简单的例子来解释我的问题 我有一个表 car 其中包含字段 name 和 color 因此我想要一个 php 类 Car 这样我的代码最终看
  • AWS Elastic Beanstalk:在运行 PHP 的 EC2 实例上终止 HTTPS

    我想在我的单实例 EBS 环境上允许 https 连接 我按照以下链接中的步骤操作 http docs aws amazon com elasticbeanstalk latest dg https singleinstance php h
  • 字符串作为决策树/随机森林中的特征

    我是机器学习新手 现在我正在做一些关于决策树 随机森林应用的问题 我正在尝试解决一个以数字和字符串 例如国家 地区名称 为特征的问题 现在 scikit learn 库仅接受数字作为参数 但我想注入字符串以及它们携带大量知识 我该如何处理这