使用 Python 清理用户输入

2024-03-11

针对基于 Python 的 Web 应用程序清理用户输入的最佳方法是什么？是否有一个函数可以删除 HTML 字符和任何其他必要的字符组合以防止XSS http://en.wikipedia.org/wiki/Cross-site_scripting还是SQL注入攻击？

这是一个片段，它将删除不在白名单上的所有标签，以及不在属性白名单上的所有标签属性（因此您不能使用onclick).

它是一个修改版本http://www.djangosnippets.org/snippets/205/ http://www.djangosnippets.org/snippets/205/，在属性值上使用正则表达式以防止人们使用href="javascript:..."，以及其他描述于http://ha.ckers.org/xss.html http://ha.ckers.org/xss.html.
(e.g. <a href="ja	vascript:alert('hi')"> or <a href="ja vascript:alert('hi')">, etc.)

正如你所看到的，它使用了（很棒的）美丽汤 http://www.crummy.com/software/BeautifulSoup/图书馆。

import re
from urlparse import urljoin
from BeautifulSoup import BeautifulSoup, Comment

def sanitizeHtml(value, base_url=None):
    rjs = r'[\s]*(&#x.{1,7})?'.join(list('javascript:'))
    rvb = r'[\s]*(&#x.{1,7})?'.join(list('vbscript:'))
    re_scripts = re.compile('(%s)|(%s)' % (rjs, rvb), re.IGNORECASE)
    validTags = 'p i strong b u a h1 h2 h3 pre br img'.split()
    validAttrs = 'href src width height'.split()
    urlAttrs = 'href src'.split() # Attributes which should have a URL
    soup = BeautifulSoup(value)
    for comment in soup.findAll(text=lambda text: isinstance(text, Comment)):
        # Get rid of comments
        comment.extract()
    for tag in soup.findAll(True):
        if tag.name not in validTags:
            tag.hidden = True
        attrs = tag.attrs
        tag.attrs = []
        for attr, val in attrs:
            if attr in validAttrs:
                val = re_scripts.sub('', val) # Remove scripts (vbs & js)
                if attr in urlAttrs:
                    val = urljoin(base_url, val) # Calculate the absolute url
                tag.attrs.append((attr, val))

    return soup.renderContents().decode('utf8')

正如其他发帖者所说，几乎所有 Python 数据库库都会处理 SQL 注入，因此这应该可以涵盖您的情况。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Xss

使用 Python 清理用户输入的相关文章

python：查找围绕某个 GPS 位置的圆的 GPS 坐标的优雅方法

我有一组以十进制表示的 GPS 坐标并且我正在寻找一种方法来查找每个位置周围半径可变的圆中的坐标这是一个例子 http green and energy com downloads test circle html我需要什么这是一个圆
保存为 HDF5 的图像未着色

我目前正在开发一个将文本文件和 jpg 图像转换为 HDF5 格式的程序用HDFView 3 0打开似乎图像仅以灰度保存 hdf h5py File Sample h5 img Image open Image jpg data np
为什么从 Pandas 1.0 中删除了日期时间？

我在 pandas 中处理大量数据分析并每天使用 pandas datetime 最近我收到警告 FutureWarning pandas datetime 类已弃用并将在未来版本中从 pandas 中删除改为从 datetime 模块
元组有什么用？

我现在正在学习 Python 课程我们刚刚介绍了元组作为数据类型之一我阅读了它的维基百科页面但是我无法弄清楚这种数据类型在实践中会有什么用处我可以提供一些需要一组不可变数字的示例吗也许是在 Python 中这与列表有何不同每
将html数据解析成python列表进行操作

我正在尝试读取 html 网站并提取其数据例如我想查看公司过去 5 年的 EPS 每股收益基本上我可以读入它并且可以使用 BeautifulSoup 或 html2text 创建一个巨大的文本块然后我想搜索该文件我一直在使用
用枢轴点拟合曲线 Python

我有下面的图我想用 2 条线来拟合它使用 python 我设法适应上半部分 def func x a b x np array x return a x b popt pcov curve fit func up x up y 我想用另
使用字典映射数据帧索引

为什么不df index map dict 工作就像df column name map dict 这是尝试使用index map的一个小例子 import pandas as pd df pd DataFrame one A 10 B 2
在Python中连接反斜杠

我是 python 新手所以如果这听起来很简单请原谅我我想加入一些变量来生成一条路径像这样 AAAABBBBCCCC 2 2014 04 2014 04 01 csv Id TypeOfMachine year month year
如何在 Python 中解析和比较 ISO 8601 持续时间？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 Python v2 库它允许我解析和比较 ISO 8601 持续时间may处于不同单
为什么 PyYAML 花费这么多时间来解析 YAML 文件？

我正在解析一个大约 6500 行的 YAML 文件格式如下 foo1 bar1 blah name john age 123 metadata whatever1 whatever whatever2 whatever stuff thi
在Python中检索PostgreSQL数据库的新记录

在数据库表中第二列和第三列有数字将会不断添加新行每次每当数据库表中添加新行时 python 都需要不断检查它们当 sql 表中收到的新行数低于 105 时 python 应打印一条通知消息警告数量已降至 105 以下另一方面
如何使用 Mysql Python 连接器检索二进制数据？

如果我在 MySQL 中创建一个包含二进制数据的简单表 CREATE TABLE foo bar binary 4 INSERT INTO foo bar VALUES UNHEX de12 然后尝试使用 MySQL Connector P
pyspark 将 twitter json 流式传输到 DF

我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理但根据我的用例我需要所有字段twitter J
javascript 是否有等效的 __repr__ ？

我最接近Python的东西repr这是 function User name password this name name this password password User prototype toString function r
import matplotlib.pyplot 给出 AttributeError: 'NoneType' 对象没有属性 'is_interactive'

我尝试在 Pycharm 控制台中导入 matplotlib pyplt import matplotlib pyplot as plt 然后作为回报我得到 Traceback most recent call last File D Pr
仅第一个加载的 Django 站点有效

我最近向 stackoverflow 提交了一个问题标题为使用mod wsgi在apache上多次请求后Django无限加载 https stackoverflow com questions 71705909 django infini
如何使用原始 SQL 查询实现搜索功能

我正在创建一个由 CS50 的网络系列指导的应用程序这要求我仅使用原始 SQL 查询而不是 ORM 我正在尝试创建一个搜索功能用户可以在其中查找存储在数据库中的书籍列表我希望他们能够查询书籍表中的 ISBN 标题作者列目前它
如何在 Windows 命令行中使用参数运行 Python 脚本

这是我的蟒蛇hello py script def hello a b print hello and that s your sum sum a b print sum import sys if name main hello sys
Python：XML 内所有标签名称中的字符串替换（将连字符替换为下划线）

我有一个格式不太好的 XML 标签名称内有连字符我想用下划线替换它以便能够与 lxml objectify 一起使用我想替换所有标签名称包括嵌套的子标签示例 XML
在本地网络上运行 Bokeh 服务器

我有一个简单的 Bokeh 应用程序名为app py如下 contents of app py from bokeh client import push session from bokeh embed import server do

随机推荐

随机访问容器不适合内存？

我有一个对象数组例如图像它太大而无法放入内存例如 40GB 但我的代码需要能够在运行时随机访问这些对象做这个的最好方式是什么当然从我的代码的角度来看如果某些数据位于磁盘上或临时存储在内存中那应该没有关系它应该具有透明的访问
考虑夏令时，将本地时间转换为 UTC 时间，反之亦然

我知道如何将本地时间转换为 UTC 时间反之亦然但我在执行此操作时对夏令时 DST 处理感到非常困惑那么任何人都可以回答以下问题 1 时区之间转换时 java内部是否处理DST 2 时区转换时需要做什么 3 有什么好的文章可以更清楚地
任务应用执行失败：Android Studio 3.0 Beta 2 上的transformClassesWithDesugarForDebug 错误

我已将我的项目从 Android Studio 2 3 3 迁移到 Android Studio 3 0 Beta 2 现在我的项目无法运行我在控制台中收到以下消息错误任务 app transformClassesWithDesuga
android：使用Intent.ACTION_BOOT_COMPLETED还是...？

在 AndroidManifest 文件中我想在用户重新启动设备时捕获 BOOT COMPLETED 事件我正在添加此权限使用权限 android name android permission RECEIVE BOOT COMPLE
HTML 特殊字符在 Chrome 和 Mozilla 中转换为问号

HTML 特殊字符例如正在转换为在 Chrome 和 Mozilla 中它在 IE 中运行良好当我在网站的搜索框中使用特殊字符时 Chrome Mozilla 和 IE 的 url 有所不同搜索查询中的特殊字符转换为 E1 在
在 Angular 2/4 中使用 jQuery 的最简单、最短的方法

如何将 jQuery 与 Angular 结合使用 https stackoverflow com questions 30623825 how to use jquery with angular 如何将 jQuery 导入 Angula
设置 Powermockito 进行静态模拟

我想利用 Powermock 和 Mockito 来模拟一些静态方法调用我已遵循 SO 以及 PowerMock 的说明和示例入门 https code google com p powermock wiki GettingStarted
java.lang.NoClassDefFoundError：com.google.api.client.googleapis.extensions.android.gms.auth.GoogleAccountCredential

我正在尝试在我的 Android 应用程序中实现 Google Drive 并且得到java lang NoClassDefFoundError com google api client googleapis extensions and
在 if 条件下尝试解析

我正在 ASP NET C 中获取查询字符串数据我需要它的字符串值和 int Parse 值如果可以解析在示例中我跳过检查空值因为它对我的问题没有影响 value Request QueryString value id int
Heroku 中“Procfile 声明类型 -> (无)”的原因是什么？

我正在尝试将测试应用程序部署到 Heroku stack cedar 但每次我这样做时我的 Procfile 都会被忽略应该是这样说的 Procfile declares types gt web 但这样说 Procfile declar
扩展或自定义 cocoapods 的正确方法

在项目中使用cocoapods管理框架 pod 时扩展或自定义框架 pod 的正确方法是什么我知道可以直接编辑源代码但这似乎不是正确的解决方案据我所知 CocoaPods无意对框架进行任何改变和对框架做出贡献它们是仅将某些内容复制
将加权有环图转换为等效无环图

我有一个循环加权有向图目标是消除路径中存在的循环例如路径如下 from to weight a gt b 0 5 a gt c 0 5 c gt e 1 b gt d 1 d gt a 0 25 d gt f 0 75 图中的循环是由
通过 CloudFront Origin Access Identity 签名的 url 上传的文件无法通过 boto3 或 IAM 角色访问？

我接着是cloudfront文档http docs aws amazon com AmazonCloudFront latest DeveloperGuide private content restricting access to s3
如果添加新边，图的强连通分量的数量会如何变化

练习 22 5 1 CLRS如果一个新的图的强连通分量的数量如何改变添加了边缘某处 http student csuci edu douglas holmes253 Assignment6 html给出的答案是如果添加新边缘则可能会发
触发器以防止从表中删除任何内容

这个新的租赁历史表的触发器可以防止从表中删除 CREATE OR REPLACE TRIGGER RENTALHIS DEL BEFORE DELETE ON RENTALHISTORY BEGIN dbms output put lin
Vue.js 数据绑定样式背景图像不起作用

我试图将图像的 src 绑定到元素中但它似乎不起作用我收到无效表达式生成的函数体 backgroundImage url image The 文档 http vuejs org guide class and style html
EmberJS 一次设置多个属性

我通过一系列设置调用设置很多属性例如 this set prop1 value1 this set prop2 value2 有没有一种方法可以在一次调用中执行此操作类似于我创建对象时例如 this setMultiple prop1
location.hash立即消失

我正在构建一个实时搜索过滤方法我注意到当我使用该方法这是一个示例时它会在 URL 中显示后进行哈希处理它会立即被删除如果我将该哈希集移动到例如按钮的点击方法效果很好为什么 menu link click function w
使用 django 中的“额外字段”与额外字段的多对多关系

Django 文档给出this http docs djangoproject com en dev topics db models extra fields on many to many relationships将额外数据与 M2M
使用 Python 清理用户输入

针对基于 Python 的 Web 应用程序清理用户输入的最佳方法是什么是否有一个函数可以删除 HTML 字符和任何其他必要的字符组合以防止XSS http en wikipedia org wiki Cross site scripti

使用 Python 清理用户输入

使用 Python 清理用户输入 的相关文章

随机推荐

热门标签

使用 Python 清理用户输入的相关文章