我正在尝试建立一个模型reddit_score = f('subreddit','comment')
主要是作为一个示例,我可以在此基础上构建一个工作项目。
我的代码是here https://github.com/andrewm4894/my-google-cloudml-tensorflow-examples/tree/master/reddit_score.
我的问题是我看到罐头估算器例如DNN线性组合回归器 https://www.tensorflow.org/api_docs/python/tf/contrib/learn/DNNLinearCombinedRegressor必须具有属于以下部分的 feature_columnsFeatureColumn
class.
我有我的词汇文件,并且知道如果我只限于评论的第一个单词,我可以做类似的事情
tf.feature_column.categorical_column_with_vocabulary_file(
key='comment',
vocabulary_file='{}/vocab.csv'.format(INPUT_DIR)
)
但是如果我从评论中传递前 10 个单词,那么我不知道如何从像这样的字符串开始"this is a pre padded 10 word comment xyzpadxyz xyzpadxyz"
to a feature_column
这样我就可以构建一个嵌入来传递给deep
具有广泛而深入的模型特征。
看起来它一定是非常明显或简单的东西,但我一生都找不到任何具有这种特定设置的现有示例(罐装的宽和深、数据集 API 以及功能的混合,例如 subreddit 和原始文本功能,例如评论)。
我什至考虑自己进行词汇整数查找,这样comment
我传入的功能类似于 [23,45,67,12,1,345,7,99,999,999],然后也许我可以通过带有形状的 numeric_feature 获取它,然后从那里用它做一些事情。但这感觉有点奇怪。