如何合并数值模型和嵌入序列模型来处理 RNN 中的类别

2024-01-01

我想为我的分类特征构建一个带有嵌入的单层 LSTM 模型。我目前有数字特征和一些分类特征，例如位置，它不能进行单热编码，例如使用pd.get_dummies()由于计算复杂性，这正是我最初打算做的。

让我们想象一个例子：

样本数据

data = {
    'user_id': [1,1,1,1,2,2,3],
    'time_on_page': [10,20,30,20,15,10,40],
    'location': ['London','New York', 'London', 'New York', 'Hong Kong', 'Tokyo', 'Madrid'],
    'page_id': [5,4,2,1,6,8,2]
}
d = pd.DataFrame(data=data)
print(d)
   user_id  time_on_page   location  page_id
0        1            10     London        5
1        1            20   New York        4
2        1            30     London        2
3        1            20   New York        1
4        2            15  Hong Kong        6
5        2            10      Tokyo        8
6        3            40     Madrid        2

让我们看看访问网站的人。我正在跟踪数字数据，例如页面停留时间等。分类数据包括：位置（超过 1000 个唯一值）、Page_id（> 1000 个唯一值）、Author_id（超过 100 个唯一值）。最简单的解决方案是对所有内容进行 one-hot 编码，并将其放入具有可变序列长度的 LSTM 中，每个时间步对应于不同的页面视图。

上面的DataFrame将生成7个训练样本，序列长度可变。例如，对于user_id=2我将有 2 个训练样本：

[ ROW_INDEX_4 ] and [ ROW_INDEX_4, ROW_INDEX_5 ]

Let X是训练数据，我们看第一个训练样本X[0].

从上图中，我的分类特征是X[0][:, n:].

在创建序列之前，我将分类变量分解为[0,1... number_of_cats-1], using pd.factorize()所以数据在X[0][:, n:]是与其索引对应的数字。

我需要创建一个Embedding分别针对每个类别特征？例如。每个的嵌入x_*n, x_*n+1, ..., x_*m?

如果是这样，我如何将其放入 Keras 代码中？

model = Sequential()

model.add(Embedding(?, ?, input_length=variable)) # How do I feed the data into this embedding? Only the categorical inputs.

model.add(LSTM())
model.add(Dense())
model.add.Activation('sigmoid')
model.compile()

model.fit_generator() # fits the `X[i]` one by one of variable length sequences.

我的解决思路：

看起来像这样的东西：

我可以在每个分类特征 (m-n) 上训练 Word2Vec 模型，以对任何给定值进行矢量化。例如。伦敦将在 3 个维度上进行矢量化。假设我使用 3 维嵌入。然后我将所有内容放回到 X 矩阵中，该矩阵现在将有 n + 3(n-m)，并使用 LSTM 模型来训练它？

我只是认为应该有一种更简单/更聪明的方法。

正如您提到的，一种解决方案是对分类数据进行 one-hot 编码（或者甚至以基于索引的格式按原样使用它们），并将它们与数值数据一起馈送到 LSTM 层。当然，这里也可以有两个 LSTM 层，一个用于处理数值数据，另一个用于处理分类数据（采用单热编码格式或基于索引的格式），然后合并它们的输出。

另一种解决方案是为每个分类数据设置一个单独的嵌入层。每个嵌入层可能有自己的嵌入维度（正如上面所建议的，您可能有多个 LSTM 层来分别处理数值和分类特征）：

num_cats = 3 # number of categorical features
n_steps = 100 # number of timesteps in each sample
n_numerical_feats = 10 # number of numerical features in each sample
cat_size = [1000, 500, 100] # number of categories in each categorical feature
cat_embd_dim = [50, 10, 100] # embedding dimension for each categorical feature

numerical_input = Input(shape=(n_steps, n_numerical_feats), name='numeric_input')
cat_inputs = []
for i in range(num_cats):
    cat_inputs.append(Input(shape=(n_steps,1), name='cat' + str(i+1) + '_input'))

cat_embedded = []
for i in range(num_cats):
    embed = TimeDistributed(Embedding(cat_size[i], cat_embd_dim[i]))(cat_inputs[i])
    cat_embedded.append(embed)

cat_merged = concatenate(cat_embedded)
cat_merged = Reshape((n_steps, -1))(cat_merged)
merged = concatenate([numerical_input, cat_merged])
lstm_out = LSTM(64)(merged)

model = Model([numerical_input] + cat_inputs, lstm_out)
model.summary()

以下是模型摘要：

Layer (type)                    Output Shape         Param #     Connected to                     
==================================================================================================
cat1_input (InputLayer)         (None, 100, 1)       0                                            
__________________________________________________________________________________________________
cat2_input (InputLayer)         (None, 100, 1)       0                                            
__________________________________________________________________________________________________
cat3_input (InputLayer)         (None, 100, 1)       0                                            
__________________________________________________________________________________________________
time_distributed_1 (TimeDistrib (None, 100, 1, 50)   50000       cat1_input[0][0]                 
__________________________________________________________________________________________________
time_distributed_2 (TimeDistrib (None, 100, 1, 10)   5000        cat2_input[0][0]                 
__________________________________________________________________________________________________
time_distributed_3 (TimeDistrib (None, 100, 1, 100)  10000       cat3_input[0][0]                 
__________________________________________________________________________________________________
concatenate_1 (Concatenate)     (None, 100, 1, 160)  0           time_distributed_1[0][0]         
                                                                 time_distributed_2[0][0]         
                                                                 time_distributed_3[0][0]         
__________________________________________________________________________________________________
numeric_input (InputLayer)      (None, 100, 10)      0                                            
__________________________________________________________________________________________________
reshape_1 (Reshape)             (None, 100, 160)     0           concatenate_1[0][0]              
__________________________________________________________________________________________________
concatenate_2 (Concatenate)     (None, 100, 170)     0           numeric_input[0][0]              
                                                                 reshape_1[0][0]                  
__________________________________________________________________________________________________
lstm_1 (LSTM)                   (None, 64)           60160       concatenate_2[0][0]              
==================================================================================================
Total params: 125,160
Trainable params: 125,160
Non-trainable params: 0
__________________________________________________________________________________________________

然而，您可以尝试另一种解决方案：只为所有分类特征使用一个嵌入层。不过，它涉及一些预处理：您需要重新索引所有类别以使它们彼此不同。例如，第一个分类特征中的类别将从 1 到size_first_cat然后第二个分类特征中的类别将从size_first_cat + 1 to size_first_cat + size_second_cat等等。然而，在此解决方案中，所有分类特征都将具有相同的嵌入维度，因为我们仅使用一个嵌入层。

Update:现在我想了想，你还可以在数据预处理阶段甚至模型中重塑分类特征来摆脱TimeDistributed层和Reshape层（这也可能会提高训练速度）：

numerical_input = Input(shape=(n_steps, n_numerical_feats), name='numeric_input')
cat_inputs = []
for i in range(num_cats):
    cat_inputs.append(Input(shape=(n_steps,), name='cat' + str(i+1) + '_input'))

cat_embedded = []
for i in range(num_cats):
    embed = Embedding(cat_size[i], cat_embd_dim[i])(cat_inputs[i])
    cat_embedded.append(embed)

cat_merged = concatenate(cat_embedded)
merged = concatenate([numerical_input, cat_merged])
lstm_out = LSTM(64)(merged)

model = Model([numerical_input] + cat_inputs, lstm_out)

至于拟合模型，您需要分别为每个输入层提供其对应的 numpy 数组，例如：

X_tr_numerical = X_train[:,:,:n_numerical_feats]

# extract categorical features: you can use a for loop to this as well.
# note that we reshape categorical features to make them consistent with the updated solution
X_tr_cat1 = X_train[:,:,cat1_idx].reshape(-1, n_steps) 
X_tr_cat2 = X_train[:,:,cat2_idx].reshape(-1, n_steps)
X_tr_cat3 = X_train[:,:,cat3_idx].reshape(-1, n_steps)

# don't forget to compile the model ...

# fit the model
model.fit([X_tr_numerical, X_tr_cat1, X_tr_cat2, X_tr_cat3], y_train, ...)

# or you can use input layer names instead
model.fit({'numeric_input': X_tr_numerical,
           'cat1_input': X_tr_cat1,
           'cat2_input': X_tr_cat2,
           'cat3_input': X_tr_cat3}, y_train, ...)

如果您想使用fit_generator()没有区别：

# if you are using a generator
def my_generator(...):

    # prep the data ...

    yield [batch_tr_numerical, batch_tr_cat1, batch_tr_cat2, batch_tr_cat3], batch_tr_y

    # or use the names
    yield {'numeric_input': batch_tr_numerical,
           'cat1_input': batch_tr_cat1,
           'cat2_input': batch_tr_cat2,
           'cat3_input': batch_tr_cat3}, batch_tr_y

model.fit_generator(my_generator(...), ...)

# or if you are subclassing Sequence class
class MySequnece(Sequence):
    def __init__(self, x_set, y_set, batch_size):
        # initialize the data

    def __getitem__(self, idx):
        # fetch data for the given batch index (i.e. idx)

        # same as the generator above but use `return` instead of `yield`

model.fit_generator(MySequence(...), ...)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何合并数值模型和嵌入序列模型来处理 RNN 中的类别的相关文章

获取 .wav 文件长度或持续时间

我正在寻找一种方法来找出 python 中音频文件 wav 的持续时间到目前为止我已经了解了 pythonwave图书馆 mutagen pymedia pymad我无法获取 wav 文件的持续时间 Pymad给了我持续时间但它不一致
使用python查找txt文件中字母出现的次数

我需要从 txt 文件中读取该字母并打印 txt 文件中出现的次数到目前为止我已经能够在一行中打印内容但计数有问题有人可以指导吗 infile open grades txt content infile read for char
稀有对象的 python 类型注释，例如 psycopg2 对象

我了解内置类型但是我如何指定稀有对象例如数据库连接对象 def get connection and cursor gt tuple psycopg2 extensions cursor psycopg2 extensions conn
使用 django-rest-framework 设置对象级权限

尝试使用 django rest framework 最干净最规范地管理 django guardian 对象级权限我想将对象的读取权限 module view object 分配给在执行 POST 时发出请求的用户我的基于阶级的观点
在Python中从大文件中搜索单词列表

我是新蟒蛇我有一个单词列表和一个非常大的文件我想删除文件中包含单词列表中的单词的行单词列表按排序给出并且可以在初始化期间输入我正在努力寻找解决这个问题的最佳方法我现在正在进行线性搜索这花费了太多时间有什么建议么您可以使用i
从 Azure ML 实验中访问 Azure Blob 存储

Azure ML 实验提供了通过以下方式读取 CSV 文件并将其写入 Azure Blob 存储的方法 Reader and Writer模块但是我需要将 JSON 文件写入 blob 存储由于没有模块可以执行此操作因此我尝试在Ex
使用 Django 将文件异步上传到 Amazon S3

我使用此文件存储引擎在上传文件时将文件存储到 Amazon S3 http code welldev org django storages wiki Home http code welldev org django storages w
创建上下文后将 jar 文件添加到 pyspark

我正在笔记本上使用 pyspark 并且不处理 SparkSession 的创建我需要加载一个包含一些我想在处理 rdd 时使用的函数的 jar 您可以使用 jars 轻松完成此操作但在我的特定情况下我无法做到这一点有没有办法访问sp
在 python pandas 中，如何保存“网格图”？

我对 pandas 绘图工具很陌生在文档中以下命令非常方便 myplot rts ret hist bins 50 by rts primary mic 然而当我尝试从图中获取图形参考并保存它时问题就出现了 myfigure myp
Python Anaconda：如何测试更新的库是否与我现有的代码兼容？

我在 Windows 7 机器上使用 Python 2 7 Anaconda 安装进行数据分析和科学计算当新的库发布时例如新版本的 pandas patsy 等您建议我如何测试新版本与现有代码的兼容性是否可以在同一台机器上安装两个
运行 Python 单元测试，以便成功时不打印任何内容，失败时仅打印 AssertionError()

我有一个标准单元测试格式的测试模块 class my test unittest TestCase def test 1 self tests def test 2 self tests etc 我的公司有一个专有的测试工具它将作为命令行
Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
Plotly：如何检查基本图形结构（版本 4）

对于旧版本的plotly 例如在 Jupyterlab 中您可以简单地运行figure像这样检查你的图形的基础知识 Ouput data marker color red size 10 symbol 104 mode markers l
pandas 相当于 np.where

np where具有向量化 if else 的语义类似于 Apache Spark 的when otherwise数据帧方法我知道我可以使用np where on pandas Series but pandas通常定义自己的 API
Ubuntu systemd 自定义服务因 python 脚本而失败

希望获得有关 Ubuntu 中的 systemd 守护进程服务的一些帮助我写了一个 python 脚本来禁用 Dell XPS 上的触摸屏这更像是一个问题而不是一个有用的功能该脚本可以工作但我不想一直启动它这就是为什么我想到编写
如何指示 urwid 列表框的项目数多于当前显示的项目数？

有没有办法向用户显示 urwid 列表框在显示部分上方下方有其他项目我正在考虑类似滚动条的东西它可以显示条目的数量或者列表框顶部底部的单独栏如果这个行为无法实现有哪些方法可以实现这个通知在我的研究过程中我发现这个问题 ht
检测是否从psycopg2游标获取？

假设我执行以下命令 insert into hello username values me 我跑起来就像 cursor fetchall 我收到以下错误 psycopg2 ProgrammingError no results to fe
无法通过 Python 子进程进行 SSH

我需要通过堡垒 ssh 进入机器因此该命令相当长 ssh i
如何编写一个接受 int 或 float 的 C 函数？

我想用 C 语言创建一个扩展 Python 的函数该函数可以接受 float 或 int 类型的输入所以基本上我想要f 5 and f 5 5 成为可接受的输入我认为我不能使用if PyArg ParseTuple args i v
定义在文本小部件中双击时选择哪些字符

在 Windows 上双击文本小部件中的单词也将选择连接的标点符号有什么方法可以定义您想要选择的角色吗 tcl wordchars该变量的值是一个正则表达式可以设置它来控制什么被视为单词字符例如通过双击 Tk 中的文本来选择单

随机推荐

使用命名元组多处理对象 - Pickling 错误

我在想要放入多重处理的对象中使用命名元组时遇到问题我收到酸洗错误我尝试了其他 stackoverflow 帖子中的一些方法但没有成功这是我的代码的结构包主测试模块 import myprogram package of clas
Cassandra数据复制问题

我有一个 2 节点 cassandra 集群复制因子为 2 并且 AutoBootStrap true 启动期间一切正常两个节点都能看到对方我们将这些节点称为 A 和 B 通过节点 A 将一组键和列我们称之为 K1 添加到 cass
Swift 3：如何使用 AVVideoComposition 导出带有文本的视频

我正在尝试使用AVVideoComposition在视频顶部添加一些文本并保存视频这是我使用的代码 I 创建一个AVMutableComposition and AVVideoComposition var mutableComp AVM
避免每次都执行 adb tcpip 5555

我喜欢能够通过 WIFI 使用 ADB 来操作我的 Android 手机通过 USB 连接后我运行adb tcpip 5555 然后我可以断开 USB 并运行adb connect phone s IP 5555 我不喜欢的是每次我必
如何使用反应钩子获取网络摄像头？

我正在尝试使用 React hooks 将网络摄像头源显示在我的应用程序上我还需要能够从提要中捕获最新的图像我相信我有基础但缺少一些东西 import React useState useEffect from react expor
如何在 dynamodb 本地执行更新

目前我有 amazon dynamodb local 的本地图像每当我尝试对数据库执行更新操作时它都会创建一个重复行而不是更新现有记录我的表定义是 TableName commission KeySchema AttributeNam
禁用 Chromium“无法更新 Chromium”窗口通知

我们在触摸屏 Linux 上以 kiosk 模式运行 Google Chromium 我们经常收到无法更新 Chromium 窗口通知我们还没有找到可以阻止这种情况的标志有人有主意吗这个Bug似乎四处飘荡Debian https b
“代表”发送电子邮件

我收到了很多代表的电子邮件例如 AddThis 插件代表从 addThis com 发送电子邮件电子邮件受保护 cdn cgi l email protection 如何在 C ASP NET 中执行此操作另外如果我们使用 gm
Android 上视图背景颜色的动画变化

如何在 Android 上以动画方式改变视图的背景颜色例如我有一个背景色为红色的视图视图的背景颜色更改为蓝色如何在颜色之间实现平滑过渡如果无法通过视图来完成此操作则欢迎使用替代方案您可以使用新的属性动画 API http de
IList 构造函数参数和 AutoFixture

Using 自动夹具 http autofixture codeplex com 我正在尝试构造匿名实例Project f new Fixture Customize new AutoMoqCustomization p f CreateA
在 Django 中使用电子邮件地址或用户名登录用户

我正在尝试创建一个身份验证后端以允许我的用户使用他们的电子邮件地址或 Django 1 6 中的用户名和自定义用户模型登录当我使用用户名登录时后端可以工作但由于某种原因不能使用电子邮件登录有什么我忘记做的事情吗 from djang
我们可以使用亚马逊产品广告 API 只获取亚马逊 Prime 产品吗？

我已经搜索了如何使用亚马逊产品广告 API 现在我可以使用亚马逊产品广告 API 搜索不同的产品并且工作正常但据我所知我们只能从我们的帐户获得亚马逊 Prime 产品当我使用亚马逊网站登录亚马逊帐户并搜索任何产品时我只找到亚马逊
根据 csv 文件的列名创建选择列表，以便在 Shiny 中绘图

我正在尝试构建一个闪亮的应用程序我可以在其中上传 csv 文件并根据列名称填充 ui 中左列滑动栏列上的复选框根据为 y 轴选择的列和为 x 轴选择的列需要能够使用 ggplot 创建图表我的 ui R 看起来像这样 shiny
Google Calendar JavaScript api，将用户添加到具有“写入”访问权限的日历

我正在开发一个与 Google 日历相关的网站该网站使用 Google 的 JavaScript API 来检索公共日历的事件并将其呈现在网站上我现在可以在我的网站上创建新活动更新活动和删除活动并且可以毫无问题地在 Google 日
在 GCC 内联汇编中包装 CMPXCHG8B 的正确方法，32 位

我正在尝试为 ia32 的 CMPXCHG8B 编写 GCC 内联汇编不我不能使用 sync bool compare and swap 它必须在有或没有 fPIC 的情况下工作到目前为止我最好的 EDIT 毕竟不起作用请参阅下面我
obj-c 委托模式在 C++ 中的等价物是什么？

我对 objc 非常熟悉现在我正在尝试深入研究 C 我正在寻找 obj c 委托模式的 C 等效项您只需继承类协议而不是遵守协议一个小例子 class Delegate public Some pure virtual metho
集合 <__NSCFSet: 0x1b0b30> 在枚举时发生了变化。如何确定是哪一套？

我正在执行一堆核心数据插入在大约 20k 插入并每 1 2k 保存一次后我收到此错误 Terminating app due to uncaught exception NSGenericException reason Collect
Spring-boot：注册 mongodb 自定义转换器

我将此依赖项用于我的 Spring Boot 服务
在php中如何使用preg替换将url变成tinyurl

我需要将包含长 url 的文本字符串转换为相同的字符串但带有tinyurl 使用tinyurl api 例如转变 blah blah blah http example com news sport blah blah blah int
如何合并数值模型和嵌入序列模型来处理 RNN 中的类别

我想为我的分类特征构建一个带有嵌入的单层 LSTM 模型我目前有数字特征和一些分类特征例如位置它不能进行单热编码例如使用pd get dummies 由于计算复杂性这正是我最初打算做的让我们想象一个例子样本数据 data us

如何合并数值模型和嵌入序列模型来处理 RNN 中的类别

样本数据

如何合并数值模型和嵌入序列模型来处理 RNN 中的类别 的相关文章

随机推荐

热门标签

如何合并数值模型和嵌入序列模型来处理 RNN 中的类别的相关文章