FM模型

2023-11-04

FM模型

一、FM模型的意义

1、传统模型的缺点

忽略了特征之间的联系
特征高维、稀疏，容易爆炸

2、什么是FM模型

FM就是Factor Machine，因子分解机。
FM通过对两两特征组合，引入交叉项特征，提高模型得分；其次是高维灾难，通过引入隐向量（对参数矩阵进行矩阵分解），完成对特征的参数估计。

二、FM模型

1、对特征进行组合

一般的线性模型
y = ω 0 + ∑ i = 1 n w i x i y = {\omega _0} + \sum\limits_{i = 1}^n {{w_i}{x_i}} y=ω0+i=1∑nwixi
二阶多项式模型
y = ω 0 + ∑ i = 1 n w i x i + ∑ i = 1 n − 1 ∑ j = i + 1 n ω i j x i x j y = {\omega _0} + \sum\limits_{i = 1}^n {{w_i}{x_i}} + \sum\limits_{i = 1}^{n - 1} {\sum\limits_{j = i + 1}^n {{\omega _{ij}}{x_i}{x_j}} } y=ω0+i=1∑nwixi+i=1∑n−1j=i+1∑nωijxixj
上式中，n表示样本的特征数量，xi表示第i个特征。
与线性模型相比，FM模型多了后面特征组合的部分。

2、FM求解

从上面的式子可以看到，组合部分的特征相关参数有 n ( n − 1 ) / 2 n\left( {n - 1} \right)/2 n(n−1)/2个。但是对于稀疏数据来说，同时满足 x i , x j {x_i},{x_j} xi,xj都不为0的情况十分少，这就会导致 ω i j {{\omega _{ij}}} ωij无法通过训练得到。
为了求出 ω i j {{\omega _{ij}}} ωij，我们对每一个特征分量xi引入辅助向量 V i = ( v i 1 , v i 2 , ⋯ , v i k ) {V_i} = \left( {{v_{i1}},{v_{i2}}, \cdots ,{v_{ik}}} \right) Vi=(vi1,vi2,⋯,vik)。然后利用 v i v j T {v_i}v_j^T vivjT对 ω i j {{\omega _{ij}}} ωij进行求解。

那么 ω i j {{\omega _{ij}}} ωij组成的矩阵可以表示为：
在这里插入图片描述
求解 v i {v_i} vi和 v j {v_j} vj的具体过程如下：
∑ i = 1 n − 1 ∑ j = i + 1 n ⟨ ν i , ν j ⟩ x i x j = 1 2 ∑ i = 1 n ∑ j = 1 n ⟨ ν i , ν j ⟩ x i x j − 1 2 ∑ i = 1 n ⟨ ν i , ν i ⟩ x i x i = 1 2 ( ∑ i = 1 n ∑ j = 1 n ∑ f = 1 k v i , f v j , f x i x j − ∑ i = 1 n ∑ f = 1 k v i , f v j , f x i ) = 1 2 ∑ f = 1 k ( ( ∑ i = 1 n v i , f x i ) ( ∑ j = 1 n v j , f x j ) − ∑ i = 1 n v i , f 2 x i 2 ) = 1 2 ∑ f = 1 k ( ( ∑ i = 1 n v i , f x i ) 2 − ∑ i = 1 n v i , f 2 x i 2 ) \begin{array}{l} \sum\limits_{i = 1}^{n - 1} {\sum\limits_{j = i + 1}^n {\left\langle {{\nu _i},{\nu _j}} \right\rangle {x_i}{x_j}} } \\ = \frac{1}{2}\sum\limits_{i = 1}^n {\sum\limits_{j = 1}^n {\left\langle {{\nu _i},{\nu _j}} \right\rangle {x_i}{x_j}} } - \frac{1}{2}\sum\limits_{i = 1}^n {\left\langle {{\nu _i},{\nu _i}} \right\rangle {x_i}{x_i}} \\ = \frac{1}{2}\left( {\sum\limits_{i = 1}^n {\sum\limits_{j = 1}^n {\sum\limits_{f = 1}^k {{v_{i,f}}{v_{j,f}}{x_i}{x_j}} - \sum\limits_{i = 1}^n {\sum\limits_{f = 1}^k {{v_{i,f}}{v_{j,f}}{x_i}} } } } } \right)\\ = \frac{1}{2}\sum\limits_{f = 1}^k {\left( {\left( {\sum\limits_{i = 1}^n {{v_{i,f}}{x_i}} } \right)\left( {\sum\limits_{j = 1}^n {{v_{j,f}}{x_j}} } \right) - \sum\limits_{i = 1}^n {v_{i,f}^2x_i^2} } \right)} \\ = \frac{1}{2}\sum\limits_{f = 1}^k {\left( {{{\left( {\sum\limits_{i = 1}^n {{v_{i,f}}{x_i}} } \right)}^2} - \sum\limits_{i = 1}^n {v_{i,f}^2x_i^2} } \right)} \end{array} i=1∑n−1j=i+1∑n⟨νi,νj⟩xixj=21i=1∑nj=1∑n⟨νi,νj⟩xixj−21i=1∑n⟨νi,νi⟩xixi=21(i=1∑nj=1∑nf=1∑kvi,fvj,fxixj−i=1∑nf=1∑kvi,fvj,fxi)=21f=1∑k((i=1∑nvi,fxi)(j=1∑nvj,fxj)−i=1∑nvi,f2xi2)=21f=1∑k((i=1∑nvi,fxi)2−i=1∑nvi,f2xi2)
梯度
FM有一个重要的性质：multilinearity：若 Θ = ( ω 0 , ω 1 , ω 2 , ⋯ , ω n , v 11 , v 12 , ⋯ , v n k ) \Theta = \left( {{\omega _0},{\omega _1},{\omega _2}, \cdots ,{\omega _n},{v_{11}},{v_{12}}, \cdots ,{v_{nk}}} \right) Θ=(ω0,ω1,ω2,⋯,ωn,v11,v12,⋯,vnk)表示FM模型的所有参数，则对于任意的 θ ∈ Θ \theta \in \Theta θ∈Θ,存在与 θ \theta θ无关的 g ( x ) g\left( x \right) g(x)与 h ( x ) h\left( x \right) h(x),则二阶多项式模型可以表示为：
f ( x ) = g ( x ) + θ h ( x ) f\left( x \right) = g\left( x \right) + \theta h\left( x \right) f(x)=g(x)+θh(x)
从上式可以看到，如果我们得到了 g ( x ) g\left( x \right) g(x)与 h ( x ) h\left( x \right) h(x)，则对于参数 θ \theta θ的梯度为 h ( x ) h\left( x \right) h(x)。

当 θ = ω 0 \theta = {\omega _0} θ=ω0时，则：
f ( x ) = ∑ i = 1 n ω i x i + ∑ i = 1 n − 1 ∑ j = i + 1 n ( V i T V j ) x i x j + ω 0 × 1 f\left( x \right) = \sum\limits_{i = 1}^n {{\omega _i}{x_i}} + \sum\limits_{i = 1}^{n - 1} {\sum\limits_{j = i + 1}^n {\left( {V_i^T{V_j}} \right){x_i}{x_j}} } + {\omega _0} \times 1 f(x)=i=1∑nωixi+i=1∑n−1j=i+1∑n(ViTVj)xixj+ω0×1
最后一项1为 h ( x ) h\left( x \right) h(x)，其余项为 g ( x ) g\left( x \right) g(x)。可以看出此时的梯度为1。
当 θ = ω l , l ∈ ( 1 , 2 , ⋯ , n ) \theta = {\omega _l},l \in \left( {1,2, \cdots ,n} \right) θ=ωl,l∈(1,2,⋯,n)时，
f ( x ) = ω 0 + ∑ i = 1 n ω i x i + ∑ i = 1 n − 1 ∑ j = i + 1 n ( V i T V j ) x i x j + ω l × x l f\left( x \right) = {\omega _0} + \sum\limits_{i = 1}^n {{\omega _i}{x_i}} + \sum\limits_{i = 1}^{n - 1} {\sum\limits_{j = i + 1}^n {\left( {V_i^T{V_j}} \right){x_i}{x_j}} } + {\omega _l} \times {x_l} f(x)=ω0+i=1∑nωixi+i=1∑n−1j=i+1∑n(ViTVj)xixj+ωl×xl
此时梯度为 x l {x_l} xl
θ = v l m \theta = {v_{lm}} θ=vlm时
f ( x ) = ω 0 + ∑ i = 1 n ω i x i + ∑ i = 1 n − 1 ∑ j = i + 1 n ( ∑ s = 1 , i s ≠ l m , j s ≠ l m k v i s v j s ) x i x j + v l m × x l ∑ i ≠ l v i m x i f\left( x \right) = {\omega _0} + \sum\limits_{i = 1}^n {{\omega _i}{x_i}} + \sum\limits_{i = 1}^{n - 1} {\sum\limits_{j = i + 1}^n {\left( {\sum\limits_{s = 1,is \ne lm,js \ne lm}^k {{v_{is}}{v_{js}}} } \right){x_i}{x_j}} } + {v_{lm}} \times {x_l}\sum\limits_{i \ne l} {{v_{im}}{x_i}} f(x)=ω0+i=1∑nωixi+i=1∑n−1j=i+1∑n⎝⎛s=1,is=lm,js=lm∑kvisvjs⎠⎞xixj+vlm×xli=l∑vimxi
此时梯度为 x l ∑ i ≠ l v i m x i {x_l}\sum\limits_{i \ne l} {{v_{im}}{x_i}} xli=l∑vimxi。
综上， f ( x ) f\left( x \right) f(x)关于 θ \theta θ的偏导数为：

更详细的推导过程请看文章。

三、FM代码

1、数据集

本文使用的数据集为MovieLens100k Datase，数据包括四列，分别是用户ID，电影ID，打分，时间戳。

2、数据处理

要使用FM模型，我们首先要将数据处理成一个矩阵，矩阵的大小是用户数 * 电影数。使用的是scipy.sparse中的csr.csr_matrix实现这个矩阵。
函数形式如下csr_matrix((data, indices, indptr)
在这里插入图片描述
可以看到，函数接收三个参数，
第一个参数是数值（也就是图中的values）
第二个参数是每个数对应的列号（也就是图中的column indices）
第三个参数是每行的起始的偏移量（也就是图中的row offsets）
图中的例子，row offsets的前rows个元素代表每一行的第一个非零元素在values中的位置。第一行的第一个非零元素在values的位置为0，也就是1，第二行的第一个非零元素在values的位置为2，也就是2，以此类推。因此第一行有两个非零元素1,7，他们在行中的位置对应为column indices的0,1。
数据处理的代码

def vectorize_dic(dic,ix=None,p=None,n=0,g=0):
    '''
    :params:dic,特征列表字典，关键字是特征名
    :params:ix,索引
    :params:p,特征向量的维度
    '''
    if ix == None:
        ix = dict()
    nz = n * g
    col_ix = np.empty(nz,dtype = int)#随机生成一个大小为nz的数组，元素为整数
    i = 0
    #dict.get(k,d),dict[k] if dict[k] else d
    for k,lis in dic.items():
        #users和users的list，或者是items和items的list
        for t in range(len(lis)):
            #为编号为t的user或者item赋值
            ix[str(lis[t]) + str(k)] = ix.get(str(lis[t]) + str(k),0) + 1
            col_ix[i + t * g] = ix[str(lis[t]) + str(k)]
        i += 1
    row_ix = np.repeat(np.arange(0,n),g)#np.repeat(np.arange(0,3),2):[0 0 1 1 2 2]
    data = np.zeros(nz)
    if p == None:
        p = len(ix)
    ixx = np.where(col_ix < p)
    return csr.csr_matrix((data[ixx],(row_ix[ixx],col_ix[ixx])),shape=(n,p)),ix

分批次训练模型

def batcher(X_,y_=None,batch_size=-1):
    n_samples = X_.shape[0]
    if batch_size == -1:
        batch_size = n_samples
    if batch_size < 1:
        raise ValueError("参数batch_size={}是不支持的".format(batch_size))
    for i in range(0,n_samples,batch_size):
        upper_bound = min(i + batch_size,n_samples)
        ret_x = X_[i:upper_bound]
        ret_y = None
        if y_ is not None:
            ret_y = y_[i:i + batch_size]
            yield (ret_x,ret_y)

构建模型

x = tf.placeholder('float',[None,p])
y = tf.placeholder('float',[None,1])
w0 = tf.Variable(tf.zeros([1]))
w = tf.Variable(tf.zeros([p]))
v = tf.Variable(tf.random_normal([k,p],mean=0,stddev=0.01))
linear_terms = tf.add(w0,tf.reduce_sum(tf.multiply(w,x),1,keep_dims=True))
pair_interactions = 0.5 * tf.reduce_sum(tf.subtract(
    tf.pow(tf.matmul(x,tf.transpose(v)),2),
    tf.matmul(tf.pow(x,2),tf.transpose(tf.pow(v,2)))
),axis=1,keep_dims=True)
y_hat = tf.add(linear_terms,pair_interactions)
lambda_w = tf.constant(0.001,name='lambda_w')
lambda_v = tf.constant(0.001,name='lambda_v')
l2_norm = tf.reduce_sum(tf.add(
    tf.multiply(lambda_w,tf.pow(w,2)),
    tf.multiply(lambda_v,tf.pow(v,2))
))
error = tf.reduce_mean(tf.square(y - y_hat))
loss = tf.add(error,l2_norm)
train_op = tf.train.GradientDescentOptimizer(learning_rate=0.01).minimize(loss)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

FM模型的相关文章

Python BS4 Scraper 仅返回每个页面的前 9 个结果

我让这段代码按预期工作只是它并没有完全按预期工作一切似乎都很顺利直到我检查了我的 csv 输出文件并注意到我每页只得到前 9 个结果每页应该有 40 个结果因此我得到的结果少于预期的 25 有什么想法吗 import reques
无法在 python 中导入名称 GoogleMaps

我使用下面的代码来获取地址的纬度和经度 from googlemaps import GoogleMaps gmaps GoogleMaps api key address Constitution Ave NW 10th St NW Wa
“初始化 MCI 时出现问题”播放声音问题

我正在尝试使用 Playsound 播放代码文件夹中的文件但是每次运行代码时它似乎都能够调用该文件但我总是收到以下输出 playsound PlaysoundException Error 277 for command open p
AttributeError：模块“pandas”没有属性“read_csv”Python3.5

我已经成功使用pandas read csv很久以来当我尝试读取 csv 文件时突然开始出现错误 df pd read csv file csv encoding utf 8 错误是 AttributeError module pand
如何使用scrapy抓取xml url

你好我正在使用 scrapy 来抓取 xml url 假设下面是我的 Spider py 代码 class TestSpider BaseSpider name test allowed domains www example com s
PyQt：如何设置组合框项目可检查？

为了将 GUI 小部件数量保持在最低限度我需要找到一种方法来为用户提供下拉菜单项的选择这些菜单项可用于过滤掉 listWidget 项中显示的内容假设 listWidget 列出了 5 个不同类别的项目 Cat A Cat B Cat
Python Raspberry pi - 如果路径不存在，则跳过循环

我有一个收集温度文本文件中的值的功能它使用部分预定义的路径但是有时如果温度传感器未加载断开连接则路径不存在如果路径不可用如何设置条件或例外来跳过循环我想使用 continue 但我不知道要设置什么条件 def read
根据Python中两行之间的匹配创建一个带有[0,1]的新列

我正在尝试将多个列表或数据帧与一个大型基础数据帧进行比较然后对于任何匹配我想附加一个存储 1 匹配或 0 不匹配的列 df pd DataFrame Name A B C D ID 5 6 6 7 8 9 7 list1 5 6 8 9
在 LINUX 上使用 Python 连接到 OLAP 多维数据集

我知道如何在 Windows 上使用 Python 连接到 MS OLAP 多维数据集嗯至少有一种方法通常我使用 win32py 包并调用 COM 对象进行连接 import win32com client connection wi
通过Python通过蓝牙发送消息或数据

如何通过 python 通过蓝牙发送消息而无需输入数字等密钥身份验证我用过 pybluez 但我收到了这个错误 File send line 12 in
Jupyter 笔记本中未显示绘图

我正在尝试为 Anscombe 数据集创建 2x2 图加载数据集并分离数据集中的每个类 import seaborn as sns import matplotlib pyplot as plt anscombe sns load dat
按最小值分组并用另一列中的值填充 NA

我有一个如下所示的示例数据框 df pd DataFrame data uid 1 1 1 2 2 3 pagename home blah blah home blah blah startpage NA NA NA home home
使用 MinGW 链接到 Python

我不想创建一个嵌入Python解释器的跨平台程序并用MinGW编译它但是 Python 二进制发行版没有提供 MinGW 链接的库仅python32 lib对于 Visual C 并且 Python 源包不提供使用 MinGW 编译的
如何检索 SQLAlchemy 结果集的 python 列表？ [复制]

这个问题在这里已经有答案了我有以下查询来检索单列数据 routes query select schema stop times c route number schema stop times c stop id stop id dis
如何获取DataFrame.pct_change来计算每日价格数据的每月变化？

我知道可以用periods争论但是如何将分布在一个月内例如交易日的每日价格数据进行回报化呢示例数据是 In 1 df AAPL 2009 01 02 16 00 00 90 36 2009 01 05 16 00 00 94 18
Python：Scrapy返回元素后面的所有html，而不仅仅是元素的html

我遇到了 Scrapy 行为异常的问题几个月前我编写了一个简单的函数它返回给定 xpath 处的项目列表 def get html response path sel Selector text response page source
预训练 inception v3 模型的层名称（tensorflow）[重复]

这个问题在这里已经有答案了任务是获取a的每层输出预训练的 cnn inceptionv3 https www tensorflow org versions master tutorials image recognition index
Django：单击按钮加载另一个模板

我已经在 django 项目上工作了几个星期只是玩玩以便掌握它的窍门我有点困惑我现在有一个名为 home html 的模板我想知道是否可以将另一个名为 profile html 的模板设置为 home html 模板上的链接我有一
在 python 中使用 ftplib 时

这是导致错误的相关代码 ftp ftplib FTP server ftp login r user r pass change directories to the incoming folder ftp cwd incoming fil
重定向到破折号中的 url

我正在使用 dash 构建一个仪表板每当单击特定数据点时我都会创建一个唯一的 url 如何将用户重定向到此创建的 url 我正在使用下面给出的代码每当有人单击任何数据点时单击事件就会触发并执行回调函数 app layout html

随机推荐

MES管理系统项目失败的原因，总结三点

MES是一款管理系统建设效果参差不齐但是MES管理系统项目以胜利的寥寥无几因为MES管理系统主要面向管理人员管理人员希望打开工厂黑河然而工厂的数据来源基本都是由执行层提供的建设MES生产管理系统的诉求与国家统计局需求是一样的
Chat GPT介绍

推荐一个在线使用网站 ChatGPT Next Web chatnext top 可以免费使用但有次数限制体验一下ChatGPT还是不错的次数用完可以充钱28 8元成为永久会员我不是打广告我只想让更多的人体验和接触ChatGPT
android 难题,Android开发中遇到的难题与解决方案

引用资源文件错误导致运行失败无法确定错误位置解决方案在Android Studio的Terminal控制台输入 gradlew compileDebugSources 获取webView的高度 public void initVie
[windows][UI] WM_MOUSEACTIVATE

当用户单击一个非激活的顶级窗体或非激活的顶级窗体的子窗体时系统就会发送WM MOUSEACTIVATE消息还包括其他消息给顶级窗体或子窗体该消息在WM NCHITTEST消息之后但在button down消息之前当把 WM M
swift 类型判断 Dictory Array

一类型的判断 1 is 的介绍 Swift 中类型的判断的关键词是 is is操作用来判断某一个对象是否是某一个特定的类它会返回一个bool类型的值 2 is的使用方法 1 gt is 的一般判断 Swift 系统也会自动判断类型的一
C++/Python程序读取命令行参数

C 程序读取命令行参数 include
傅里叶变换（FT）数学解析推导学习总结

写在前面本文是一篇非常容易理解同时会很有收获的傅里叶变换推导教程文章是学习B站DR CAN老师傅里叶级数和傅里叶变换系列课程后的学习总结主要目的以个人复习巩固为主同时也分享给大家一些心得以及非常好的一位老师附上链接 DR CAN
串口的基本定义以及RS232,RS485和UART，USAT，SPI的联系和区别

1 什么是串口一个bit一个bit传输数据的方式称之为串口串行接口 2 串口的种类同步串口带有同步时钟线的串口传输方式异步串口不带同步时钟线的串口传输方式需要双方约定传输速度 3 串口的组成串口由物理电气层和协议层组成 3
java字符串判断相等_java判断字符串是否相等的方法

java判断字符串是否相等的方法 1 java中字符串的比较我们经常习惯性的写上if str1 str2 这种写法在java中可能会带来问题 example1 String a abc String b abc 那么a b将返回true
转载：算力计算

一 GOPS与FLOPS 1 1 FLOPS FLOPS定义是每秒所执行的浮点运算次数 floating point operations per second 的缩写它常被用来估算电脑的执行效能尤其是在使用到大量浮点运算的科学计算
1334. 阈值距离内邻居最少的城市

1334 阈值距离内邻居最少的城市原题链接完成情况解题思路参考代码 Dijkstra Dijkstra 小顶堆 Floyd martix方法原题链接 1334 阈值距离内邻居最少的城市 https leetcode cn prob
裸机服务器和虚拟机的用途和好处

裸机服务器用户可以根据需要自定义存储区域用户几乎可以在世界的每个角落访问他们的数据用户还将拥有最高级别的数据加密只有使用最新技术的用户才能访问由于这些服务器有专门的用户因此具有安全性和监管优势它具有很高的处理能力用户可以完全
Poi版本升级优化

Poi 3 17前后版本api使用差异 1 升级缘由最近公司prod环境出现因为Excel文件下载数据量过大导致应用out of memory 然后就需要找到内存溢出的原因及优化方案经分析得出以下结论 1 1 事故原因 1 应用场景发
四合天地软件测试系统,GZ-2017025软件测试赛题.-全国职业院校技能大赛.doc

GZ 2017025软件测试赛题全国职业院校技能大赛 doc 2017年全国职业院校技能大赛高职组软件测试项目竞赛任务书 2017年全国职业院校技能大赛高职组软件测试赛项执委会制 2017年5月目录一赛程说明3 二竞赛技
ElasticSearch启动流程指令及注意事项

elasticsearch es的集群部署第一步创建普通用户注意 ES不能使用root用户来启动必须使用普通用户来安装启动这里我们创建一个普通用户以及定义一些常规目录用于存放我们的数据文件以及安装包等创建一个es专门的用户必须
第一个python代码，第一个错误。python是对缩进严格要求的代码。

在编写第一个条件判断语句的代码中就遇到了第一个错误运行py时提示仔细对照了一下代码发现原来时缩进格式错误并很不明显条件语句的if换行一般是缩进四个空格但个人觉得以其按四个空格不如直接按一下tab键来得简洁明了我两种方法都试
SpringCloud 商城系统搭建之Ribbon (基于Ribbon + RestTemplate)

Spring Cloud 服务调用方式 Spring Cloud有两种服务调用方式一种是Ribbon RestTemplate 另一种是feign 在这一篇文章首先讲解下基于Ribbon RestTemplate Ribbon简介 Rib
自定义实现nn.CrossEntropyLoss损失函数

nn CrossEntropyLoss是在PyTorch中常用的交叉熵损失函数它主要用于解决多分类问题但也可以用于解决二分类问题该函数有两个输入参数第一个参数是网络的最后一层的输出是一个二维数组其中每个向量包含不同类别的概率值
蓝桥杯省赛C++A组B组题解整理（第十、九、八、七、六、五、四、三届）

写在前面的话19 03 24 从第八届蓝桥杯到第十届蓝桥杯我也是参加了三届蓝桥杯的老学姐啦更不更新第十届的题解取决于网上有没有流出题目但是第十届之后的题解将不会再更新了下面的这些真题大多是我在大一的时候刷的在大二的时候整理的在大
FM模型

FM模型一 FM模型的意义 1 传统模型的缺点忽略了特征之间的联系特征高维稀疏容易爆炸 2 什么是FM模型 FM就是Factor Machine 因子分解机 FM通过对两两特征组合引入交叉项特征提高模型得分其次是高维灾难通

FM模型

FM模型

一、FM模型的意义

1、传统模型的缺点

2、什么是FM模型

二、FM模型

1、对特征进行组合

2、FM求解

三、FM代码

1、数据集

2、数据处理

FM模型 的相关文章

随机推荐

热门标签

FM模型的相关文章