使用张量流 tf-transform 进行数据标准化

2024-06-28

我正在使用 Tensorflow 对我自己的数据集进行神经网络预测。我做的第一个模型是与我计算机中的小数据集一起使用的模型。之后，我稍微更改了代码，以便使用具有更大数据集的 Google Cloud ML-Engine 在 ML-Engine 中实现训练和预测。

我正在标准化 panda 数据框中的特征，但这会引入偏差，并且我得到的预测结果很差。

我真正想要的是使用图书馆tf-transform对图中的数据进行标准化。为此，我想创建一个函数preprocessing_fn并使用 'tft.scale_to_0_1'. https://github.com/tensorflow/transform/blob/master/getting_started.md https://github.com/tensorflow/transform/blob/master/getting_started.md

我发现的主要问题是当我尝试进行预测时。我正在寻找互联网，但没有找到任何导出模型的示例，其中数据在训练中标准化。在我发现的所有示例中，数据在任何地方都没有标准化。

我想知道的是如果我在训练中对数据进行归一化，并发送一个包含新数据的新实例来进行预测，那么如何对这些数据进行归一化？

¿也许在 Tensorflow 数据管道中？进行标准化的变量保存在某个地方？

总之：我正在寻找一种方法来标准化模型的输入，然后新实例也变得标准化。

首先，您实际上并不需要 tf.transform 。您需要做的就是编写一个从训练/评估 input_fn 和服务 input_fn 调用的函数。

例如，假设您在整个数据集上使用了 Pandas 来计算出最小值和最大值

def add_engineered(features):
  min_x = 22
  max_x = 43
  features['x'] = (features['x'] - min_x) / (max_x - min_x)
  return features

然后，在您的 input_fn 中，通过调用 add_engineered 包装您返回的功能：

def input_fn():
  features = ...
  label = ...
  return add_engineered(features), label

在您的serving_input fn中，确保通过调用add_engineered类似地包装返回的功能（而不是feature_placeholders）：

def serving_input_fn():
    feature_placeholders = ...
    features = feature_placeholders.copy()
    return tf.estimator.export.ServingInputReceiver(
         add_engineered(features), feature_placeholders)

现在，您在预测时的 JSON 输入只需要包含原始的、未缩放的值。

这是此方法的完整工作示例。

https://github.com/GoogleCloudPlatform/training-data-analyst/blob/master/courses/machine_learning/feateng/taxifare/trainer/model.py#L130 https://github.com/GoogleCloudPlatform/training-data-analyst/blob/master/courses/machine_learning/feateng/taxifare/trainer/model.py#L130

tf.transform 提供了一个两阶段过程：一个用于计算最小值、最大值的分析步骤，以及一个用于将缩放比例插入到 TensorFlow 图中的图形修改步骤。因此，要使用 tf.transform，您首先需要编写一个数据流管道来进行分析，然后在 TensorFlow 代码中插入对 tf.scale_0_to_1 的调用。下面是执行此操作的示例：

https://github.com/GoogleCloudPlatform/cloudml-samples/tree/master/criteo_tft https://github.com/GoogleCloudPlatform/cloudml-samples/tree/master/criteo_tft

add_engineered() 方法更简单，也是我建议的方法。如果您的数据分布会随着时间的推移而变化，并且您希望自动化整个管道（例如用于连续训练），则需要 tf.transform 方法。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用张量流 tf-transform 进行数据标准化的相关文章

从 Eclipse 启动时创建新的 JFrame 时 Java 将关闭。没有抛出异常

我正在开发一个在 Eclipse 中开发的 Java 项目直到今天一切都很好昨天在完成我的项目之前我最后一次运行它以检查一切是否正常并且运行正常但是今天当我启动该项目并按下运行时我的应用程序就神秘地关闭了没有崩溃没有消
GLSL：检查是否支持扩展

您不能使用不受支持的扩展驱动程序将返回编译错误但是您可以直接从 GLSL 代码检查某些扩展的可用性吗有这样的事吗 version XXX core if supported EXT some extension extension E
Android：“无法初始化可视化引擎”

我三天前开始为 Android 编程今天我想使用 android Api 中的一些类来做一些更困难的事情我找到了 Visualizer 类第一次尝试时遇到了问题我在不同论坛上读到很多帖子人们有同样的问题无法初始化可视化引擎我将
当我在对象上调用函数时，为什么会在非对象上出现此函数调用错误？ [复制]

这个问题在这里已经有答案了 Error 致命错误调用成员函数中的非对象上的bind param var www web55 web pdftest events php 76号线 Code public function countDa
是否可以在 AlertDialog 中自定义正向和负向按钮？

是否可以在 AlertDialog 中自定义正向和负向按钮我需要用自定义替换默认的正面和负面外观 setPositiveButton android R string ok new DialogInterface OnClickListe
RuntimeError：无法缓存函数“__jaccard”：没有可用于文件“/usr/local/lib/python3.7/site-packages/librosa/util/matching.py”的定位器

我正在 Windows 10 机器上对 Flask 应用程序进行 dockerize docker 运行后出现以下错误 RuntimeError 无法缓存函数 jaccard 没有可用于文件 usr local lib python3 7
Dash ImportError：无法从“werkzeug.debug.tbtools”导入名称“get_current_traceback”

我正在尝试在 Pycharm 的 conda 环境中运行一个简单的破折号应用程序但是我遇到了标题中的错误奇怪的是我在互联网上找不到提到这个错误的地方除了here https community plotly com t dash w
Doctest 返回失败，但“预期”和“得到”完美匹配

我正在尝试做列表部分的第二个练习 http www openbookproject net thinkcs python english2e ch09 html exercises 如何像计算机科学家一样思考一书的内容我基本上必须将给定
Android 上方向改变时如何避免重新启动 Activity

我正在创建一个 Android 应用程序在其中在画布上绘制视图当设备的方向改变时活动将重新启动我不想这样如何避免在方向改变时重新启动 Activity 有多种方法可以做到这一点但正如给定的here https stackover
如何通过JQuery从不带扩展名的URL中获取页面名称

我有一个网址 http www example com keyword category php or http www example com keyword category php 4 我需要一个神奇的咒语它只给我页面名称categ
将用户控件绑定到 bool 属性的相反值

非常简单我想做同样的事情this https stackoverflow com questions 534575 how do i invert booleantovisibilityconverter但在winforms中谷歌似乎提
如何防止外部 CSS 添加和覆盖 ReactJS 组件样式

我有一个自定义的 ReactJS 组件我想以某种方式设置样式并将其作为插件提供给许多不同的网站但是当网站使用全局样式 Twitter bootstrap 或其他 css 框架时它会添加并覆盖我的组件的样式例如全局 css l
XAML：多次设置属性“资源”

我收到以下错误属性资源设置更多比一次这是我的 XAML
针对字段的 Elasticsearch 匹配列表

我有一个列表数组或任何你熟悉的语言例如姓名 John Bas Peter 我想查询name字段如果它与这些名称之一匹配一种方法是使用 OR 过滤器例如 filtered query match all filter or ter
如何将 JSLint 用于依赖于 JQuery 的代码段？

我对 Javascript 比较陌生我想通过 JSLint 运行我周末玩的那段代码这样它就可以指出我在哪里是个十足的白痴不幸的是我收到了大量关于缺少函数声明的错误这些函数声明是 JQuery javascript 库及其各种插件的
定义应保存 user.config 文件的自定义路径？

如果我重命名我编译的应用程序例如myapp exe to app exe然后当我运行重命名的可执行文件时会在此路径中生成新的用户设置文件夹 C Users User AppData Local CompanyName Executab
如何避免在 Scala 中编写令人困惑的 DSL

我读过一些评论指出 Scala 的灵活性使开发人员可以轻松编写难以理解和推理的 DSL DSL 之所以成为可能是因为 we can 有时 https stackoverflow com q 1181533 5986907 omit 和括
表格单元格中 ::after 上的位置在 Firefox 中不起作用？

以下代码应创建一个跨越其父元素宽度 100 的伪元素然而这在 Firefox 中不起作用但在 Chrome 中却有效火狐浏览器似乎忽略了 parent s position relative 这是一个错误吗 HTML div cla
如何使相对div居中？

我一直在尝试让以下代码工作几个小时但没有成功您能帮我将项目 div 居中吗即使页面放大和缩小时这是我的 HTML 和 CSS bottom position absolute top 100 left 0 right 0 backg
SQLDroid 和加密数据库

我的应用程序有一个已经存在的数据库已经存在是指我不在我的应用程序中创建数据库我只是连接到它并读取数据为了设置连接我使用 SQLDroid 现在我想知道是否有可能使用 SQLDroid 加密我的数据库否则我的数据库未加密任何人都

随机推荐

如何将 py_func 与返回 dict 的函数一起使用

我正在使用编写输入管道tf data Dataset 我想使用 python 代码来加载和转换我的样本代码返回张量字典不幸的是我不知道如何将其定义为传递给的输出类型tf py func 我有一个解决方法我的函数返回张量列表而不是字典
Firebase Crashlytics 控制台不显示崩溃日志

我已经按照文档实施了 crashlytics 但我的 firebase 控制台仍然没有崩溃连接 firebase 控制台和 logcat Firebase 控制台 https i stack imgur com byk9K jpg Log
可以在重量级模式下停止闪烁的 java 工具提示吗？

类似的问题如果在 JFrame 之外 Java 中的工具提示会闪烁吗 https stackoverflow com questions 4922182 tooltip flicker in java if outside jframe 不
docker build 错误检查上下文：'can't stat '\\?\C:\Users\username\AppData\Local\Application Data''

docker 构建在 Windows 10 上失败 docker 安装成功后使用以下命令构建 docker 映像时 docker build t drtuts latest Facing below issue 如果有人解决了同样的问题
PAW：用日期时间替换 json 结果中的时间戳

是否可以提示 PAW 结果中的整数值是时间戳并自动将其替换为日期时间 None
如何在 Django 中创建/使用自定义数据库函数

序幕这是SO中经常出现的一个问题 Django GEOS 中 PostGIS ST MakeValid 的等效项 https stackoverflow com questions 45631855 equivalent of postg
用于动态实时事件的 Tipsy jquery 插件无法正常工作

我在用着醉酒的 jquery 插件 http onehackoranother com projects jquery tipsy 为动态显示的元素创建工具提示工具提示适用于非动态元素因此我肯定包含了我需要的所有内容我正在使用 jqu
如何访问其他apk的assets文件夹下的文件？

当我们浏览任何apk时我们发现有一个名为assets的文件夹现在我想以编程方式访问该文件夹那么我应该如何进行呢程序的输入将是 apk 文件只是应用程序名称这将列出资产文件夹中的所有文件 AssetManager assetMan
如何在 Ruby on Rails 的 Ubuntu 服务器上以生产模式重新启动 Phusion Passenger + Apache？

我有 Apache phusion 乘客我已经把 RailsEnv production 在 etc apache2 sites available default 文件中并已重新启动 apache 但当我运行时 rails c gt R
PHP CLI 有几秒钟的延迟

当我在 CLI 模式下运行 PHP 时 CentOS 6 5 下的 PHP 5 6 6 使用 VirtualBox 作为虚拟机运行即使我只检查版本并且禁用 php ini 文件也会有几秒钟的延迟 time php n v PHP 5 6
字符串常量池与字符串池

我对这两件事感到困惑我需要帮助请澄清我的疑问字符串常量池和字符串池是否是同一个概念我面试的时候就面临这个问题我已经阅读了很多网站和博客但是我的疑问还没有消除请消除我的疑问提前致谢两者是同一件事字符串常量池包含consta
Sitecore 搜索谓词生成器多关键字搜索与提升无法按预期工作

我有包含以下字段的 sitecore 页面 lucene 文档 Title Filename Content 文件内容我正在创建这些搜索并有以下要求包含整个短语的点击title应首先返回字段包含整个短语的点击filename字段应该其
是否有任何 JavaScript 缩小器可以保留换行符？

来自客户端的错误报告总是在第 1 行报告错误因为文件已缩小这不是很有用我想在保留换行符的同时缩小代码以便获得有意义的行号有没有JavaScript缩小器 https en wikipedia org wiki Minificati
注入的类名编译器差异

考虑这段代码 struct foo int main foo foo a 我希望这是格式良好的声明类型的变量foo根据 class 2 中的规则 N4140 重点是我的 A 班级名称被插入到紧随其声明之后的作用域中班级名称被看到 The
如何对 SwiftyJSON JSON 对象进行子集化

我正在构建一个 iOS 应用程序其中我的一个 API 调用返回一个大型 JSON blob 我使用 SwiftyJSON 将其加载到 JSON 对象中例如它看起来像这样 data name object name id 1 descr
在JQuery中获取上个月的第一个和最后一个日期

我有这个脚本 var today new Date var dd today getDate var ddd today getDate 1 var dddd today getDate 2 var mm today getMonth 1
调试时无法评估表达式

当调试 asp net 代码针对 IIS 运行并使用 Visual Studio 2013 并在断点中并尝试使用快速监视评估变量时我经常遇到无法评估表达式的情况从 asp net 项目文件夹中删除 suo 似乎可以解决问题重新加
asp.net linkbutton onclientclick 和 postback

当我将 ASP NET LinkBut ton 与 OnClientClick 属性一起使用时我遇到了一些奇怪的行为 ASPX
阅读共享偏好

我正在为我的 Android 应用程序的设置菜单使用共享首选项它工作得很好但我不知道如何在我的代码中使用这些设置例如如何使用所选语言并在另一个活动中使用它
使用张量流 tf-transform 进行数据标准化

我正在使用 Tensorflow 对我自己的数据集进行神经网络预测我做的第一个模型是与我计算机中的小数据集一起使用的模型之后我稍微更改了代码以便使用具有更大数据集的 Google Cloud ML Engine 在 ML Engin

使用张量流 tf-transform 进行数据标准化

使用张量流 tf-transform 进行数据标准化 的相关文章

随机推荐

热门标签

使用张量流 tf-transform 进行数据标准化的相关文章