使列表尽可能不排序的函数

2023-12-23

我正在寻找一个函数来使列表尽可能不排序。最好用Python。

背景故事：

我想检查 URL 状态并查看 URL 是否给出 404。我只是用asyncio and requests模块。没有什么花哨。

现在我不想让服务器超载，所以我想尽量减少同时检查同一域上的 URL。我的想法是对 URL 进行排序，使列表中彼此接近的项目（具有相同的排序键 = 域名）尽可能远离彼此。

带有数字的示例：

a=[1,1,2,3,3]  # <== sorted list, sortness score = 2
   0,1,2,3,4   # <== positions

可以未排序为：

b=[1,3,2,1,3]  # <== unsorted list, sortness score = 6
   0,1,2,3,4   # <== positions

我想说，我们可以通过对相等项（具有相同的键 = 域名）之间的距离求和来计算排序分数。较高的排序意味着更好的未排序。也许有更好的方法来测试不友善。

列表的排序得分a是2。1的距离总和是(1-0)=1，2的距离总和是0，3的距离总和是(4-3)=1。

列表的排序得分b是6。1的距离总和是(3-0)=3，2的距离总和是0，3的距离总和是(4-1)=3。

URL 列表看起来像（域，URL）元组列表：

[
   ('example.com', 'http://example.com/404'),
   ('test.com', 'http://test.com/404'),
   ('test.com', 'http://test.com/405'),
   ('example.com', 'http://example.com/405'),
   ...
]

我正在开发一个原型，它工作得还不错，但不是最佳的，因为我可以找到一些更好地手动排序的变体。

有人想尝试一下吗？

这是我的代码 https://www.mycompiler.io/view/8XpFD9W，但这不是很好:)：

from collections import Counter
from collections import defaultdict
import math


def test_unsortness(lst:list) -> float:
    pos = defaultdict(list)
    score = 0
    # Store positions for each key
    # input = [1,3,2,3,1] => {1: [0, 4], 3: [1, 3], 2: [2]}
    for c,l in enumerate(lst):
        pos[l].append(c)
    for k,poslst in pos.items():
        for i in range(len(poslst)-1):
            score += math.sqrt(poslst[i+1] - poslst[i])
    return score


def unsort(lst:list) -> list:
    free_positions = list(range(0,len(lst)))
    output_list = [None] * len(free_positions)
    for val, count in Counter(lst).most_common():
        pos = 0
        step = len(free_positions) / count
        for i in range(count):
            output_list[free_positions[int(pos)]] = val
            free_positions[int(pos)] = None  # Remove position later
            pos = pos + step
        free_positions = [p for p in free_positions if p]
    return output_list


lsts = list()
lsts.append( [1,1,2,3,3] )
lsts.append( [1,3,2,3,1] )       # This has the worst score after unsort()
lsts.append( [1,2,3,0,1,2,3] )   # This has the worst score after unsort()
lsts.append( [3,2,1,0,1,2,3] )   # This has the worst score after unsort()
lsts.append( [3,2,1,3,1,2,3] )   # This has the worst score after unsort()
lsts.append( [1,2,3,4,5] )

for lst in lsts:
    ulst = unsort(lst)
    print( ( lst, '%.2f'%test_unsortness(lst), '====>', ulst, '%.2f'%test_unsortness(ulst), ) )

#  Original               score             Unsorted               score
#  -------                -----             --------               -----
# ([1, 1, 2, 3, 3],       '2.00',  '====>', [1, 3, 1, 3, 2],       '2.83')
# ([1, 3, 2, 3, 1],       '3.41',  '====>', [1, 3, 1, 3, 2],       '2.83')
# ([1, 2, 3, 0, 1, 2, 3], '6.00',  '====>', [1, 2, 3, 1, 2, 3, 0], '5.20')
# ([3, 2, 1, 0, 1, 2, 3], '5.86',  '====>', [3, 2, 1, 3, 2, 1, 0], '5.20')
# ([3, 2, 1, 3, 1, 2, 3], '6.88',  '====>', [3, 2, 3, 1, 3, 2, 1], '6.56')
# ([1, 2, 3, 4, 5],       '0.00',  '====>', [1, 2, 3, 4, 5],       '0.00')

附言。我不只是在寻找随机函数，而且我知道有可以管理域负载的爬虫，但这是为了练习。

与其取消 URL 列表的排序，为什么不按域将它们分组，将每个 URL 放入一个队列中，然后以延迟（随机？）的方式异步处理它们？

在我看来，它比你想要实现同样的事情要简单一些，如果你有很多域，你总是可以限制此时同时运行的数量。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Algorithm

Sorting

使列表尽可能不排序的函数的相关文章

Huggingface 变形金刚模块未被 anaconda 识别

我正在使用 Anaconda python 3 7 Windows 10 我尝试通过安装变压器https huggingface co transformers https huggingface co transformers 在我的环境
Python实时读取串口数据

我正在使用 Python 中的脚本通过串行端口以 2Mbps 的速度从 PIC 微控制器收集数据 PIC 在 2Mbps 下完美定时工作 FTDI USB 串行端口在 2Mbps 下工作也很好均通过示波器验证我每秒发送消息大小约为 1
python中嵌套字典值的总和

我有一本这样的字典 data 11L a 2 b 1 a 2 b 3 22L a 3 b 2 a 2 b 5 a 4 b 2 a 1 b 5 a 1 b 0 33L a 1 b 2 a 3 b 5 a 5 b 2 a 1 b 3 a 1 b
将 2D Panda 的 DataFrame 列表转换为 3D DataFrame

我正在尝试创建一个将标签值保存到 2D DataFrame 的 Pandas DataFrame 这是我到目前为止所做的我正在使用读取 csv 文件pd read csv并将它们附加到列表中出于这个问题的目的让我们考虑以下代码 imp
使用 Matplotlib 的范围绘制图像的 3D 轮廓

正如我所介绍的here https stackoverflow com questions 18792624 fits image input to a range in plot python 在二维中我想知道如何缩放要绘制到绘图中
使用 Python 将阿拉伯语或任何从右到左书写系统的字符串打印到 Linux 终端

非常简单的例子是 city print city 我期望输出是但实际上输出是相反的字符串字母看起来有点不同因为它们有开始中间和结束形式我无法将其粘贴到此处因为复制粘贴会再次更正字符串的顺序如何在 Linux 终端上正确打印阿拉
Tensorflow 训练期间 GPU 使用率非常低

我正在尝试为 10 类图像分类任务训练一个简单的多层感知器这是 Udacity 深度学习课程作业的一部分更准确地说任务是对各种字体呈现的字母进行分类数据集称为 notMNIST 我最终得到的代码看起来相当简单但无论如何我在训练期间
使用 NumPy 的 Mittag-Leffler 函数的不稳定性

在尝试重现时Wolfram MathWorld 上的情节 http mathworld wolfram com Mittag LefflerFunction html 并试图帮助这个问题 https stackoverflow com qu
Django“模型”对象不可迭代

我有一张表其中显示了已注册的员工我想根据他们的数据库生成一个简单的 HTML 页面其中包括他们的姓名 id 职称等为此我将一个 id 传递给视图以便它可以获取相应用户的详细信息并向我显示一切正常直到出现错误对象不可迭代下面
完全定制的Python帮助用法

我正在尝试使用 Python 创建完全自定义的帮助用法我计划将其导入到许多我想要具有风格一致性的程序中但遇到了一些麻烦我不知道为什么我的描述忽略换行符尝试过和我无法让出现在 ARGS 行的换行符之后显然它们坐在自己的行
使用 argparse 指定默认文件名，但不使用 --help 打开它们？

假设我有一个对文件执行一些操作的脚本它在命令行上获取此文件的名称但如果未提供则默认为已知文件名 content txt 说与蟒蛇的argparse 我使用以下内容 parser argparse ArgumentParser des
t /= d 是什么意思？ Python 和错误

t current time b begInnIng value c change In value d duration def easeOutQuad swing function x t b c d alert jQuery easi
Unix 排序实用程序：使用十六进制字节值作为分隔符

我想知道是否可以使用十六进制值作为 Unix 的分隔符sort公用事业基本上我想做一些类似的事情 sort t x00
模拟类：Mock() 还是 patch()？

我在用mock http www voidspace org uk python mock index html使用Python 想知道这两种方法中哪一种更好阅读更Pythonic 方法一只需创建一个模拟对象并使用它代码如下 def
Tkinter 如何根据此组合框自动更新第二个组合框

我在 Tkinter Python 中遇到了组合框更新的问题我有两个组合框组合框A with values A B C and 组合框B 我想要的是当值A在组合框中选择A然后在组合框中B显示值 1 2 3 当值B在组合框中选择A然后在
收到“/：未找到事件。”使用 PyCharm 远程调试器时

当我使用 PyCharm 通过 ssh 进行远程调试时tcsh shell 服务器很多时候它停止工作并显示未找到事件更具体地说我在 pycharm 调试控制台中遇到以下内容 ssh username hostserver 22 p
如何使用 selenium 获取 javascript 结果？

我有以下代码 from selenium import selenium selenium selenium localhost 4444 chrome http some site com selenium start sel selen
Python itertools groupby 中令人不安的奇怪行为/错误？

我在用itertools groupby解析一个短的制表符分隔的文本文件文本文件有几列我想做的就是对具有特定值的所有条目进行分组x在特定的列中下面的代码对名为的列执行此操作name2 寻找变量中的值x 我尝试使用以下方法来做到这一点c
返回吃异常

我至少发现了以下行为weird def errors try ErrorErrorError finally return 10 print errors prints 10 It should raise NameError name E
IOError：在 Linux 上的 ReportLab 中使用 matplotlib PNG 时“解码器 zip 不可用”，适用于 Windows

我正在使用 ReportLab 打印 matplotlib 生成的图表我可以在我的 Windows 开发机器上毫无问题地执行此操作然而当我部署到 Ubuntu 服务器时渲染失败并出现所述错误我假设我缺少一个 Python 模块但

随机推荐

使用 constexpr-if 时出错：在 'constexpr' 之前预期有 '('

我正在尝试使用 if constexpr 来检查某些内容但遇到类似错误 constexpr 之前应有前面没有 if 的 else 到目前为止我检查我的代码没有任何问题我的编译标志是 g std c 17 main cpp includ
mac os x 下进程使用的内存

给定PID 如何获取进程当前使用的内存具体来说我正在寻找进程使用的私有物理内存 RAM 进程使用的交换空间但我对映射文件和共享内存不感兴趣简而言之我想确定通过终止 PID 将释放多少内存 RAM 和交换这有用吗您可以使用ps
Django 中的 2 个表单、1 个视图、2 个 SQL 表

我正在努力了解如何将两个 django 表单中的数据提交到两个单独的数据库表中相同的观点我只想要一个提交按钮尽管this https stackoverflow com questions 1395807 proper way to h
一个按钮是否可以有 2 种不同的背景颜色（以及 css 按钮）

我想要实现的就是这样的事情你好 hi 位于两种颜色的中间我让它适用于一种颜色和下面的另一种颜色但希望颜色在文本中间分开如果没有人能想出使用 css 的解决方案我将使用按钮图像尽量避免使用图像编辑当然CSS结果必须跨浏览器即
最后一个分叉的孩子不会死

我的主进程分叉了两次从而创建了两个子进程这两个孩子是这样相互沟通的 ls more 现在的问题是第二个孩子永远不会死这是为什么管道中的最后一个孩子什么时候真正死亡删除一个wait 调用显示了预期结果ls more但给出了一些进一
如何使用 SevenZipSharp 创建压缩的 SFX 文件？

我将了解如何使用 SevenZipSharp 库创建 SFX 首先我需要说我找不到任何属性来设置压缩级别等等当我尝试制作文件的 SFX 时出现以下错误 Object reference not set to an instance
WinForms 中的 WPF 控件 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我是 NET 世界的新手对 winform 的经验很少我想知道是否可以将WPF与Winforms混
JavaScript 中 FileReader#readEntries 可以读取的目录最大文件数

我正在创建一个 Chrome 应用程序我必须读取目录的文件并且我正在使用目录入口API https developer mozilla org en US docs Web API DirectoryEntry and 目录读取器API
如何创建一个程序来列出 Mac 中的所有 USB 设备？

我对 Mac OS X 操作系统的接触有限现在我开始使用 Xcode 并正在研究 I O 套件我需要在命令行工具下在 Xcode 中创建一个程序以便列出 Mac 系统中连接的所有 USB 设备请有过这方面经验的人帮帮我如果有人可以
Rails form_for collection_select 忽略 select_tag 接受的远程 ajax 调用

在让我的表单助手工作之前我使用以下内容作为我的选择下拉列表这非常适合调用我的 filter by city js erb 并更新一些其他值使用
Python 3.7：将代理应用于 pip 安装的所有部分，无法维护代理变量

我有以下问题我正在使用命令 pip install pyinstaller proxy http webdefence global blackspider com 80 trusted host pypi python org 我遇到的
通过正则表达式进行不区分大小写的有序单词搜索

我刚开始使用 Perl 中的正则表达式在尝试了各种在线教程之后我想要编写一个正则表达式来匹配顺序指定的不区分大小写的单词匹配我正在尝试确定字符串 A 是否由字符串 B 的单词或单词序列组成并且我想不区分大小写地执行此操作例如如果
React 无状态组件 - 性能和 PureRender

大家都说用stateless组件将提高应用程序性能然而我注意到在错误的地方使用无状态组件真的会reduce应用性能发生这种情况是因为无状态组件总是渲染即使属性没有改变如果是stateful我们可以使用的组件PureComponen
如何居中和左对齐图像？

我正在创建一个图像库希望图像的容器完全居中在页面上但图像保持对齐这是我想要的输出但是当我尝试做一个text align center在容器上 id gallery 我得到的图像显示如下我尝试效仿之前的堆栈溢出问题 CSS 居中块
从 Gradle 开始 [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我不知道像 Ant Maven 或
open()、_open() 和 fopen() 在 MSVC 编译器方面的区别？

我发现这三个函数都与打开文件有关 open https msdn microsoft com en us library ms235491 v vs 120 aspx 此 POSIX 函数已弃用使用符合 ISO C 标准的 open 反而
symfony2 和doctrine2 较短的实体名称

谁应该摆脱在 DQL 查询中使用命名空间我想为我的包中的所有学说请求分配默认名称空间在查询生成器中使用默认命名空间也是完美的我想拥有 dql select i from MyCompanyMySuperPuperBundle Issu
有没有办法检查Java中的流是否是有限的？ [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案我知道有infiniteJava 中的流有没有办法检查流是否是有限的像这样的方法isStreamFinite Stream
如何在 Windows 7 中更改 git shell 的起始目录

我下载并安装了 GitHub 提供的程序包括 Git Shell 问题是我想将 Git Shell 程序的主目录设置为自定义目录但我不知道该怎么做我尝试从 Git Shell 快捷方式的属性菜单中更改开始于字段但没有成功任何人
使列表尽可能不排序的函数

我正在寻找一个函数来使列表尽可能不排序最好用Python 背景故事我想检查 URL 状态并查看 URL 是否给出 404 我只是用asyncio and requests模块没有什么花哨现在我不想让服务器超载所以我想尽量减少同时检

使列表尽可能不排序的函数

使列表尽可能不排序的函数 的相关文章

随机推荐

热门标签

使列表尽可能不排序的函数的相关文章