基于内容的课程推荐系统

2023-10-27

引言

基于Coursera课程数据集，将课程名称向量化，计算与目标课程标题向量最相似的课程向量，实现基于内容的课程推荐。

代码实现

准备实验环境与数据

import numpy as np 
import pandas as pd
from statistics import harmonic_mean
from langdetect import detect
from sklearn.feature_extraction.text import TfidfVectorizer, TfidfTransformer, CountVectorizer
from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics import f1_score
from sklearn.metrics.pairwise import cosine_similarity

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

输出：/kaggle/input/coursera-course-dataset/coursea_data.csv

展示原始数据

df = pd.read_csv('/kaggle/input/coursera-course-dataset/coursea_data.csv')
df.drop(['Unnamed: 0', 'course_organization'], axis=1, inplace=True)
df

	course_title	course_Certificate_type	course_rating	course_difficulty	course_students_enrolled
0	(ISC)² Systems Security Certified Practitioner…	SPECIALIZATION	4.7	Beginner	5.3k
1	A Crash Course in Causality: Inferring Causal…	COURSE	4.7	Intermediate	17k
2	A Crash Course in Data Science	COURSE	4.5	Mixed	130k
3	A Law Student’s Toolkit	COURSE	4.7	Mixed	91k
4	A Life of Happiness and Fulfillment	COURSE	4.8	Mixed	320k
…	…	…	…	…	…

将注册人数属性转换为数值类型

df = df[df.course_students_enrolled.str.endswith('k')]

df['course_students_enrolled'] = df['course_students_enrolled'].apply(lambda enrolled : eval(enrolled[:-1]) * 1000)
df

	course_title	course_Certificate_type	course_rating	course_difficulty	course_students_enrolled
0	(ISC)² Systems Security Certified Practitioner…	SPECIALIZATION	4.7	Beginner	5300.0
1	A Crash Course in Causality: Inferring Causal…	COURSE	4.7	Intermediate	17000.0
2	A Crash Course in Data Science	COURSE	4.5	Mixed	130000.0
3	A Law Student’s Toolkit	COURSE	4.7	Mixed	91000.0
4	A Life of Happiness and Fulfillment	COURSE	4.8	Mixed	320000.0
…	…	…	…	…	…

数据归一化

minmax_scaler = MinMaxScaler()
scaled_ratings = minmax_scaler.fit_transform(df[['course_rating','course_students_enrolled']])

df['course_rating'] = scaled_ratings[:,0]
df['course_students_enrolled'] = scaled_ratings[:,1]
df['overall_rating'] = df[['course_rating','course_students_enrolled']].apply(lambda row : harmonic_mean(row), axis=1)
df

	course_title	course_Certificate_type	course_rating	course_difficulty	course_students_enrolled	overall_rating
0	(ISC)² Systems Security Certified Practitioner…	SPECIALIZATION	0.823529	Beginner	0.004587	0.009122
1	A Crash Course in Causality: Inferring Causal…	COURSE	0.823529	Intermediate	0.018709	0.036586
2	A Crash Course in Data Science	COURSE	0.705882	Mixed	0.155100	0.254319
3	A Law Student’s Toolkit	COURSE	0.823529	Mixed	0.108027	0.190999
4	A Life of Happiness and Fulfillment	COURSE	0.882353	Mixed	0.384430	0.535534
…	…	…	…	…	…	…

产生推荐结果

df = df[df.course_title.apply(lambda title : detect(title) == 'en')]

vectorizer = TfidfVectorizer(stop_words='english')
vectors = vectorizer.fit_transform(df.course_title)

def recommend_by_course_title (title, recomm_count=10) : 
    title_vector = vectorizer.transform([title])
    cosine_sim = cosine_similarity(vectors, title_vector)
    idx = np.argsort(np.array(cosine_sim[:,0]))[-recomm_count:]
    sdf = df.iloc[idx].sort_values(by='overall_rating', ascending=False)
    return sdf

recommend_by_course_title('A Crash Course in Data Science')

	course_title	course_Certificate_type	course_rating	course_difficulty	course_students_enrolled	overall_rating
487	Introduction to Data Science in Python	COURSE	0.705882	Intermediate	0.468920	0.563503
486	Introduction to Data Science	SPECIALIZATION	0.764706	Beginner	0.372360	0.500843
864	What is Data Science?	COURSE	0.823529	Beginner	0.312010	0.452559
54	Applied Data Science	SPECIALIZATION	0.764706	Beginner	0.263730	0.392199
711	SQL for Data Science	COURSE	0.764706	Beginner	0.191310	0.306053
2	A Crash Course in Data Science	COURSE	0.705882	Mixed	0.155100	0.254319
825	Tools for Data Science	COURSE	0.764706	Beginner	0.143030	0.240986
171	Crash Course on Python	COURSE	0.882353	Beginner	0.095957	0.173089
1	A Crash Course in Causality: Inferring Causal…	COURSE	0.823529	Intermediate	0.018709	0.036586
594	Mathematics for Data Science	SPECIALIZATION	0.705882	Beginner	0.012674	0.024900

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

MOOC推荐与可视化分析

python

机器学习

sklearn

推荐系统

基于内容的课程推荐系统的相关文章

我如何在 python 2.6 中测试抽象方法

我有一个抽象类 import abc class Hello object metaclass abc ABCMeta abc abstractmethod def add self foo pass abc abstractmethod
只使用 Django 的某些部分？

我喜欢 Django 但对于一个特定的应用程序我只想使用它的一部分但我对 Django 的内部工作原理还不够熟悉所以也许有人可以指出我必须做什么的正确方向查看具体来说我想使用模型和数据库抽象 The 缓存API http doc
优化完美平方问题，类似于Python中的硬币找零

我这里有一个硬币兑换的解决方案 python 中的 leetcode 硬币兑换 https stackoverflow com questions 69517078 coin change leetcode in python 因为完全平方
如何修复 Apache mod_wsgi 的 Python 版本不匹配问题？

我收到此错误 Thu Jul 12 14 31 36 2012 error python init Python version mismatch expected 2 6 7 found 2 6 8 当尝试启动 Apache 服务器时在
如何使用 lxml 解析包含前缀但没有名称空间声明的 XML？

我有一堆使用前缀但没有相应名称空间声明的 XML 文件像这样的东西
pip 安装失败，SSL 证书验证失败 (_ssl.c:833)

我无法通过 pip install 安装任何外部 python 模块我已经正确安装了 python 但如果我使用 pip install 它会显示此错误这是我运行后的代码pip install pytesseract C Users 1
Spyder 导入模块出错

我正在尝试在 Spyder 中使用 sklearn 一开始当我尝试导入它时我收到 ImportError No module named sklearn 然后我用 PYTHONPATH 管理器设置 PATH 然后使用工具菜单中的更新模
使用 Pymongo 从 Windows 连接到 AWS 实例上的 MongoDB

此行反复抛出错误 client MongoClient ec2 12 345 67 89 us east 2 compute amazonaws com 27017 ssl True ssl keyfile C mongo pem 由于显而
如何从 Lua 调用 Python 函数？

我想从我的 lua 文件运行 python 脚本我怎样才能实现这个目标 Example Python代码 sum py file def sum from python a b return a b Lua code main lua f
Django 未在 404 页面上应用应用程序中的 CSS 文件

姜戈3 0 8 Python 3 7 x 我有一个包含一些应用程序的 Django 项目我正在尝试为 400 403 404 500 错误制作一些默认错误页面我已经这样做了并显示了适当的模板但没有任何样式或 JS 在 404 错
使用 boto3 从 s3 下载时使用 filename 作为文件名

我正在使用 boto3 上传文件如下所示 client boto3 client s3 aws access key id id aws secret access key key client upload file tmp test
Flask 中的 import 和 extends 有什么区别？

我正在阅读 Flask Web 开发在例4 3中 extends base html import bootstrap wtf html as wtf 我想知道 extends 和 import 有什么区别我认为它们在用法上很相似在什
如何在 Sublime 2 REPL Mac 中运行 Python 3

我的问题如下我安装了 sublime 2 和 sublime repl 插件一切正常我唯一需要的是更改在控制台内置的 sublimerepl 上运行的 python 版本我的意思是我有 python 2 7 5 预先安装了 mav
Celery：每个工作人员的 task_acks_late 的不同设置/向 celery 添加自定义选项

这个问题是后续问题django celery 禁用一个工作者的预取有错误吗 https stackoverflow com questions 58290045 django celery disable prefetch for one
如何加速 pandas 字符串函数？

我正在使用 pandas 矢量化 str split 方法来提取从上的拆分返回的第一个元素我还尝试使用 df apply 与 lambda 和 str split 来产生等效的结果使用 timeit 时我发现 df apply 的
Scrapy的redirect_urls异常.KeyError

我是 Scrapy 和 Python 的新手最近推出了我的第一个蜘蛛有一个功能似乎以前有效但现在它只适用于我试图废弃的一些网站代码行是 item url direct response request meta redirect u
Python 队列 get()/task_done() 问题

我的消费者端队列 m queue get queue task done
如何限制scrapy请求对象？

所以我有一个蜘蛛我认为它正在泄漏内存结果当我检查 telnet 控制台 gt gt gt prefs 时它只是从链接丰富的页面中抓取了太多链接有时它会超过 100 000 个现在我已经一遍又一遍地浏览文档和谷歌但我找不到一种方法
在Python中从CSV文件中获取随机行并找到相应的单词，就像测验一样

抱歉标题含糊不清想不出更好的表达方式我有一个包含德语英语单词的 CSV 文件如下所示 Ja Yes Nein No Katze Cat 我希望我的 python 脚本从 CSV 文件中打印一个随机的德语单词并要求他们输入英语单词
部署 Flask 应用程序时如何检测额外文件的更改并重新加载应用程序？ [关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案我在 Flask 中构建了一个小型 Web 应用程序并尝试将其部署在 Pythonanywhere 上在开发过程中

随机推荐

使用xmanager 远程操作linux

随着互联网的高速发展以及Linux企业应用的成熟 Linux被广泛应用于服务器领域如何实现Linux的远程管理成为网络管理员的首要任务我们经常见到的几种最为常用的windows下远程管理Linux服务器的方法基本上都是利用Secure
NPM使用技巧

NPM使用技巧前言技巧全局模块位置 PowerShell报错安装模块冲突 NPM介绍 NPM命令使用方法基本命令模块命令查看模块运行命令镜像管理常用模块 rimraf yarn 前言本文包含NodeJS中NPM包管理
ADO.NET的五个主要对象

文章目录 Connection Command DataAdapter DataSet DataReader ADO NET中的五个主要对象 Connection Command DataAdapter DataSet DataReader
vue+express+websocket+mongodb在线群聊工具

vue express websocket mongodb在线群聊工具目录 vue express websocket mongodb在线群聊工具 1 项目概述 2 项目运行 3 项目代码细节 3 1 后端 3 1 1 nodejs连接数
(五)逻辑架构

逻辑架构 1 逻辑架构剖析 1 1 服务器处理客户端请求 1 2 Connectors 1 3 第1层连接层 1 4 第2层服务层 1 5 第3层引擎层 1 6 存储层 1 7 小结 2 SQL执行流程 2 1 MySQL 中的 SQ
我们应该如何使用webstorm呢

WebStorm2020安装教程软件名称 WebStorm2020 软件语言简体中文软件大小 269 28MB 安装环境 Win10 Win8 Win7 64位下载链接百度网盘地址提取码 damd WebStorm是一款JavaS
Unity核心6——Animation

一动画窗口通过 Window gt Animation gt Animation 打开 Animation 窗口 Animation窗口主要用于在 Unity 内部创建和修改动画所有在场景中的对象都可以通过 Animation 窗口为
Latex的一些操作

ps 最近投个论文需要Latex排版于是简单使用一下记录一些基本步骤以防备用一下载与安装工具 texlive的下载与安装参见这个网友写的 https blog csdn net weixin 39892850 article
DeepJavaLibrary(DJL)框架的使用：在java上使用AlphaPose完成实时多人姿态估计任务

首先这里是完整的项目代码目录实现环境实现原理 DJL框架能帮我们做什么 Alphapose 实现步骤一导出alphapose模型导出yolov5 导出单人姿态估计网络二实现Translator 使用YoloTranslat
Java类的加载机制

一类的生命周期 1 加载的生命周期类从被加载到虚拟机内存中开始到卸载出内存为止它的整个生命周期包括加载 Loading 验证 Verification 准备 Preparation 解析 Resolution 初始化 Intial
URP源码学习（七）一些细节和理解

RT理解 RT是什么用在哪首先rt是一张特殊贴图这张贴图对应的是GPU上的FrameBuffer 一般用到的是颜色和深度从这张图取数据用于计算或是直接对这张图进行修改以得到想要的效果 FrameBuffer就是gpu里渲染结果的
【论文阅读-NeurIPS-2019】Coda: An End-to-End Neural Program Decompiler

Coda An End to End Neural Program Decompiler Conference NeurIPS 2019 这篇文章提出了一个新的反编译框架Coda 分为code sketch generation 和 err
Appium连接手机时报权限错误 requires:android.permission.WRITE_SECURE_SETTINGS

报错信息 java lang SecurityException Permission denial writing to settings requires android permission WRITE SECURE SETTINGS
ubuntu server 22.04 静态ip设置

ubuntu server 22 04 静态ip设置我一般配置ip都是在系统安装完成后才进行设置查看当前网络需要了解的是你该静态ip是该的哪个网卡的别搞错了 ifconfig ip a 这两个命令都是可以的修改配置文件 etc
C# 读写西门子PLC数据，包含S7协议和Fetch/Write协议，s7支持200smart，300PLC，1200PLC，1500PLC...

本文将使用一个gitHub开源的组件技术来读写西门子plc数据使用的是基于以太网的TCP IP实现不需要额外的组件读取操作只要放到后台线程就不会卡死线程本组件支持超级方便的高性能读写操作官方地址 http www hslcommu
关于java.servlet.*缺失问题

上图使用的tomcat版本为10 0 23 此问题目前出现在Tomcat10系列而 Javax servlet 标红不存在的原因是因为包名改了 Tomcat 10 用以下的 import import jakarta servlet
ESP12f/E(8266)以及STM32串口自动烧录电路

在使用CH340C芯片进行自动烧录时经常会用到RTS和DTR两个联络输出信号电脑烧录程序控制芯片这两个引脚的高低电平从而控制主控芯片IO0和reset引脚进行自动烧录并复位这两个信号都是低电平有效 STM32 这里需要注意的是使用的
jpa报错：check the manual that corresponds to your MySQL server version for the right

原因一 check the manual that corresponds to your MySQL server version for the right 因为表字段中使用了关键字 private String describe 解决
查看tensor的形状，行列大小

torch size是tuple 元组的子类因此他支持元组所有的操作如x size 0 import pandas as pd import numpy as np import torch x torch rand 5 3 print
基于内容的课程推荐系统

引言基于Coursera课程数据集将课程名称向量化计算与目标课程标题向量最相似的课程向量实现基于内容的课程推荐代码实现准备实验环境与数据 import numpy as np import pandas as pd from s