特征列嵌入查找

2023-11-26

我一直在使用tensorflow中的数据集和feature_columns（https://developers.googleblog.com/2017/11/introducing-tensorflow-feature-columns.html）。我看到它们具有分类特征以及从分类特征创建嵌入特征的方法。但是在处理 nlp 任务时，我们如何创建单个嵌入查找？

例如：考虑文本分类任务。每个数据点都会有很多文本列，但它们不会是单独的类别。我们如何为所有这些列创建和使用单个嵌入查找？

下面是我当前如何使用嵌入功能的示例。我正在为每一列构建一个分类特征，并使用它来创建嵌入。问题是同一单词的嵌入对于不同的列可能不同。

def create_embedding_features(key, vocab_list=None, embedding_size=20):
    cat_feature = \
        tf.feature_column.categorical_column_with_vocabulary_list(
            key=key,
            vocabulary_list = vocab_list
            )
    embedding_feature = tf.feature_column.embedding_column(
            categorical_column = cat_feature,
            dimension = embedding_size
        )
    return embedding_feature

le_features_embd = [create_embedding_features(f, vocab_list=vocab_list)
                     for f in feature_keys]

我认为你有一些误解。对于文本分类任务，如果您的输入是一段文本（一个句子），则应该将整个句子视为单个特征列。因此每个数据点只有一个文本列NOT很多专栏。此列中的值通常是所有标记的组合嵌入。这就是我们将 var-length 稀疏特征（未知数量的文本标记）转换为一个密集特征（例如，固定的 256 维浮点向量）的方式。

让我们从一个_CategoricalColumn.

cat_column_with_vocab = tf.feature_column.categorical_column_with_vocabulary_list(
    key='my-text',
    vocabulary_list=vocab_list)

请注意，如果您的词汇量很大，则应该使用categorical_column_with_vocabulary_file.

我们通过使用初始化器从检查点读取（如果我们有预先训练的嵌入）或随机化来创建嵌入列。

embedding_initializer = None
if has_pretrained_embedding:     
  embedding_initializer=tf.contrib.framework.load_embedding_initializer(
        ckpt_path=xxxx)
else:
  embedding_initializer=tf.random_uniform_initializer(-1.0, 1.0)
embed_column = embedding_column(
    categorical_column=cat_column_with_vocab,
    dimension=256,   ## this is your pre-trained embedding dimension
    initializer=embedding_initializer,
    trainable=False)

假设你有另一个密集特征price:

price_column = tf.feature_column.numeric_column('price')

创建您的特色栏

columns = [embed_column, price_column]

构建模型：

features = tf.parse_example(..., 
    features=make_parse_example_spec(columns))
dense_tensor = tf.feature_column.input_layer(features, columns)
for units in [128, 64, 32]:
  dense_tensor = tf.layers.dense(dense_tensor, units, tf.nn.relu)
prediction = tf.layers.dense(dense_tensor, 1)

顺便说一下，对于tf.parse_example要工作，这假设您的输入数据是tf.Example像这样（文本protobuf）：

features {
  feature {
    key: "price"
    value { float_list {
      value: 29.0
    }}
  }
  feature {
    key: "my-text"
    value { bytes_list {
      value: "this"
      value: "product"
      value: "is"
      value: "for sale"
      value: "within"
      value: "us"
    }}
  }
}

也就是说，我假设你有两种特征类型，一种是产品价格，另一种是产品的文字描述。你的词汇表将是以下的超集

["this", "product", "is", "for sale", "within", "us"].

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

tensorflow

tensorflowdatasets

特征列嵌入查找的相关文章

如何在google colaboratory上使用GPU升级tensorflow

目前google colaboratory使用tensorflow 1 4 1 我想升级到1 5 0版本每次当我执行时 pip install upgrade tensorflow命令 notebook实例成功将tensorflow版本升
在 Datalab 中使用 Python3，我无法将代表 Google Cloud Storage 存储桶中的文件的字符串列表作为带有张量流的 feed_dict 提供

我是 tf 新手在尝试处理某些文件时遇到问题这是代码摘录 xlabel to files list map dog bark subset of data with two files result gs some bucket som
查找张量流运算所依赖的所有变量

有没有办法找到给定操作通常是损失所依赖的所有变量我想用它来将该集合传递到optimizer minimize or tf gradients 使用各种set intersection 组合到目前为止我已经找到了op op input
张量流 - 向量中的前 k 个值到二进制向量

假设我有一个带有值的向量 0 4 1 2 8 7 0 2 如何获得前 k 个值的二进制向量 k 3 0 1 0 0 1 1 0 0 in 张量流 TensorFlow 的tf math top k https www tensorflow
Tensorflow：无法在 gradle 中解析

今天早上我打开 Android Studio 时 Gradle 尝试同步时出现以下错误 Error 103 13 Failed to resolve org tensorflow tensorflow android 按照他们的说明Gith
如何在 TensorFlow 中访问原型中的值？

我从tutorial https www tensorflow org extend tool developers 我们可以这样做 for node in tf get default graph as graph def node pr
TF map_fn 或 while_loop 用于不同形状的张量列表

我想处理不同形状的张量序列列表并输出另一个张量列表考虑每个时间戳上具有不同隐藏状态大小的 RNN 就像是输入 tf ones 1 2 2 tf ones 2 2 3 tf ones 3 2 1 输出 tf zeros 1 2 4 t
在基本 Tensorflow 2.0 中运行简单回归

我正在学习 Tensorflow 2 0 我认为在 Tensorflow 中实现最基本的简单线性回归是一个好主意不幸的是我遇到了几个问题我想知道这里是否有人可以提供帮助考虑以下设置 import tensorflow as tf 2
在 Tensorflow2 中将图冻结为 pb

我们通过图形冻结保存来自 TF1 的许多模型 tf train write graph self session graph def some path get graph definitions with weights output g
Tensorflow 训练期间 GPU 使用率非常低

我正在尝试为 10 类图像分类任务训练一个简单的多层感知器这是 Udacity 深度学习课程作业的一部分更准确地说任务是对各种字体呈现的字母进行分类数据集称为 notMNIST 我最终得到的代码看起来相当简单但无论如何我在训练期间
GPU 上的 AWS SageMaker [已关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在尝试在 AWS 上训练神经网络 Tensorflow 我有一些 AWS 积分据我了解 AWS
在 Windows 上，运行“导入张量流”会生成“没有名为“_pywrap_tensorflow”的模块”错误

在 Windows 上 TensorFlow 在执行后报告以下一个或两个错误import tensorflow陈述 No module named pywrap tensorflow DLL load failed 对我来说问题是 cuDN
使用 Keras 和 fit_generator 绘制 TensorBoard 分布和直方图

我正在使用 Keras 使用 fit generator 函数训练 CNN 这似乎是一个已知问题 https github com fchollet keras issues 3358TensorBoard 在此设置中不显示直方图和分布有
我想知道对象检测 api 中边界框的大小

我已经用过API https github com tensorflow models tree master object detection https github com tensorflow models tree master
ValueError：在 R 中使用 keras 模型时在用户代码中

我正在尝试使用 R 在 R 中运行一维 CNNkeras包裹我正在使用以下代码 library MASS library keras Create some data data Boston data lt Boston create a
Tensorflow ctc_loss_calculator：找不到有效路径

当运行我的神经网络双向 LSTM 进行音频识别时我使用连接主义时间分类 CTC 但在某些时候训练网络时我几乎每批都会收到来自 Tensorflow 的警告 W tensorflow core util ctc ctc loss cal
TensorFlow.js 调整 3D 张量大小

我有一个具有以下尺寸的 3D 张量宽度 x 高度 x 深度我需要将可变大小的体积调整为特定形状例如 256 x 256 x 256 不幸的是在 TensorFlow js 中他们有一组用于调整大小的方法例如tf image re
尝试校准keras模型

我正在尝试通过 Sklearn 实现来校准我的 CNN 模型CalibratedClassifierCV 尝试将其包装为KerasClassifier并覆盖预测功能但没有成功有人可以说我做错了什么吗这是模型代码 def create m
在自定义 keras 层的调用函数中传递附加参数

我创建了一个自定义 keras 层目的是在推理过程中手动更改前一层的激活以下是基本层它只是将激活值乘以一个数字 import numpy as np from keras import backend as K from keras
张量流如何处理复杂的梯度？

Let z是一个复变量 C z 是它的共轭在复分析理论中导数C z w r t z不存在但在张量流中我们可以计算dC z dz结果就是1 这是一个例子 x tf placeholder complex64 2 2 y tf redu

随机推荐

ASP .NET Core webapi在中间件中设置cookie

我试图在执行操作后设置一个 cookie 努力使其工作如果我从控制器而不是中间件设置它我就能看到cookie 我已经按照配置顺序进行了操作但什么也没有代码示例来自一个干净的 webapi 创建的项目所以如果有人想玩它很简单只需创
Python-从文本文件中查找行号[关闭]

Closed 这个问题需要多问focused 目前不接受答案我正在编写在文本文件中查找的代码并查看输入是否在其中 E g 我输入披萨我的文本文件包含 bread pizza pasta tomato 有没有办法打印披萨一词所在的行号
基于 os 系列的 Maven 条件

我正在尝试执行以下操作
压缩和未压缩的 .wav 文件

压缩和未压缩的 wav 文件有什么区别 The WAV格式是 Windows 中音频文件的容器格式 WAV 文件由标题和内容组成标头包含有关 WAV 文件中包含的音频的大小持续时间采样频率分辨率以及其他信息通常标头之后是实际的音
使用 print.xtable 更改表格的字体大小

我想使用 print xtable 更改表格的字体大小 Using print xT size tiny 有效但我不知道其他尺寸选项像 size 7pt 这样的东西会很好您可以使用以下命令选择特定的字体大小 fontsize
捕获更通用的异常类型是否有好处？

如果我们要捕捉特定形式的IOException 或任何其他类型的事实上我们只尝试捕获几个并为它们定义明确的输出说 FileNotFoundException ZipException 我们是否应该始终把它拖下来并用一个覆盖所有基地
Windows Phone 开发和单元测试

我希望启动一个针对 Windows Phone 的项目但由于缺乏单元测试支持我有点推迟了 1 我习惯于使用 NUnit XUnit 来满足我的大部分测试需求并使用 NSubstitute 之类的东西来进行模拟据我所知您不能将这些框
不抛出异常时的性能（C++）[重复]

这个问题在这里已经有答案了我已经阅读了很多有关 C 异常的内容并且我所看到的特别是异常性能是一个很难的话题我什至试图深入了解 g 的底层看看异常是如何在汇编中表示的我是一名 C 程序员因为我更喜欢低级语言不久前我决定使用
django-compressor 是否支持模板继承？

我在用着Django 压缩器压缩我网站的静态 CSS 和 Javascript 文件由于我通过 Amazon S3 提供网站的静态资产因此我还使用Django 存储将我的文件上传到 S3 这是我的问题我正在努力清理base html我
强制 attr=title 弹出 on 元素

有没有办法我可以强制元素在元素悬停时显示标题弹出窗口或者如果没有有没有办法我可以配置显示标题弹出窗口之前的超时时间默认情况下标题在悬停时显示您无法更改其行为
Javascript 或 Flash 导出至 CSV/Excel

是否有办法将 JSON 数据导出到 CSV Excel 而无需与服务器端进行任何交互仅使用 JavaScript 还是闪存我目前正在使用 ZeroClipboard 将值复制到剪贴板但我想从浏览器 FF Chrome IE 等直接将
net/http.rb:560:in `initialize': getaddrinfo: 名称或服务未知（SocketError）

timestamp nil def generate oauth url timestamp timestamp url CONNECT URL REQUEST TOKEN PATH oauth callback OAUTH CALLBAC
带有 v-for 的动态 v 模型

我有一个 v for 循环它将吐出多行输入我想将每个单独的行动态保存到数组对象中 v for table class table m 0 tbody tr td fund name td tr tbody table
来自电子邮件地址的域的正则表达式

任何人都可以帮助我使用正则表达式来返回电子邮件地址的末尾部分符号之后吗我是正则表达式的新手但想学习如何使用它而不是编写低效的 Net 字符串函数例如对于输入电子邮件受保护我需要 example com 的输出干杯蒂姆
$q.reject 和处理 AngularJS 链式承诺中的错误

我无法理解使用链接承诺进行错误处理的基本概念为了学习规则我写了一个简单的例子猜测结果会是什么但不幸的是它的行为并不像我想象的那样我已经阅读了多篇有关该主题的文章但由于我的英语水平不佳我可能无法获得详细信息无论如何这是我的
Python 文件变量 - 它是什么？

我刚刚开始使用 Python 由于我的背景是低级语言 java C 所以我无法真正理解一些东西因此在 python 中我们可以通过打开一个文本文件来创建一个文件变量然后像这样迭代它的行 f open sys argv 1 for l
正则表达式匹配任何大于 1 的整数

我最近刚刚开始学习正则表达式我正在尝试找出如何匹配任何大于 1 的数字的模式到目前为止我想出了 2 9 0 9 但它仅适用于最左边的数字不为 1 的情况例如 234有效但是124没有所以我想要实现的是个位数1不应匹配任何大于应匹配的
Postgres 是否支持嵌套或自治事务？

我遇到的情况是我必须将一部分代码作为其自己的事务提交我创建了一个表subtransaction tbl CREATE TABLE subtransaction tbl entryval integer 以及 plpython3u 语言中
如何在 Mac OSX 上安装 PCRE 开发标头

我刚刚将 MacBook Pro 升级到 Mavericks 当我访问时我本地的 Ruby on Rails 开发环境并没有立即运行localhost I see It works 并记得我需要启动 Phusion Passenger 所
特征列嵌入查找

我一直在使用tensorflow中的数据集和feature columns https developers googleblog com 2017 11 introducing tensorflow feature columns htm

特征列嵌入查找

特征列嵌入查找 的相关文章

随机推荐

热门标签

特征列嵌入查找的相关文章