在 C 中以均匀概率有效地从文本文件中选择随机行?

2024-02-23

这本质上是一个更受限制的版本这个问题 https://stackoverflow.com/questions/232237/whats-the-best-way-to-return-a-random-line-in-a-text-file-using-c.

假设我们有一个非常大的文本文件,包含大量行。

我们需要以统一的概率从文件中随机选择一行,但有一些限制:

  • 因为这是一个软实时应用程序,所以我们无法迭代整个文件。选择应该花费恒定的时间。
  • 由于内存限制,无法缓存该文件。
  • 由于文件允许在运行时更改,因此不能假定文件的长度是常量。

我的第一个想法是使用lstat()调用以获取总文件大小(以字节为单位)。fseek()然后可以用于直接访问随机字节偏移量,以 O(1) 的方式访问文件的随机部分。

问题是我们不能做类似读到下一个换行符然后就到此为止的事情,因为这会产生偏向于长行的分布。

我解决这个问题的第一个想法是读取直到前“n”个换行符(如果需要,回绕到文件的开头),然后从这个较小的集合中选择具有统一概率的行。可以安全地假设文件的内容是随机排序的,因此该子样本在长度方面应该是统一的,并且由于其起点是从所有可能的点中统一选择的,因此它应该将文件中的统一选择表示为所有的。所以,在pseudo-C,我们的算法看起来像:

 lstat(filepath, &filestat);
 fseek(file, (int)(filestat.off_t*drand48()), SEEK_SET);
 char sample[n][BUFSIZ];
 for(int i=0;i<n;i++)
     fgets(sample[i], BUFSIZ, file); //plus some stuff to deal with file wrap around...
 return sample[(int)(n*drand48())];

这似乎不是一个特别优雅的解决方案,而且我并不完全相信它会是统一的,所以我想知道是否有更好的方法来做到这一点。有什么想法吗?

编辑:经过进一步考虑,我现在非常确定我的方法不统一,因为起点更有可能位于较长的单词内,因此不统一。棘手!


从文件中选择一个随机字符(如您所述,通过 rand 和eek)。现在,我将应用以下算法,而不是查找关联的换行符,因为正如您所指出的那样,这是有偏差的:


Is the character a newline character?
   yes - use the preceeding line
   no  - try again

我不明白这除了均匀分布的线之外还能给出什么。效率取决于线路的平均长度。如果您的文件的行相对较短,则这可能是可行的,但如果该文件确实无法通过操作系统进行预缓存,则您可能会在物理磁盘查找中付出高昂的代价。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

在 C 中以均匀概率有效地从文本文件中选择随机行? 的相关文章

随机推荐

  • 使用委托和 Lambda 的奇怪行为

    作为在我正在开发的库中引入惰性格式化评估的一种方法 我定义了委托 public delegate string MessageFormatterDelegate string message params object arguments
  • 什么是Android UiThread(UI线程)

    有人可以向我解释一下 UI 线程到底是什么吗 在developer android com上它提到了runOnUiThread函数 公共最终无效runOnUiThread 可运行操作 从以下版本开始 API 级别 1 在 UI 线程上运行指
  • 如何让 NHibernate 停止使用 nvarchar(4000) 来插入参数字符串?

    我需要优化由域实体上的保存 插入查询 生成的查询 我已经使用 Fluent NHibernate 配置了 NHibernate 以下是 NHibernate 在插入用户对投票的响应期间生成的查询 exec sp executesql N I
  • 简洁表达数学公式的语法建议

    我正在 C 中开发功能域特定的嵌入式语言 以尽可能简洁 准确地将公式转换为工作代码 我在评论中发布了一个原型 大约有两百行长 现在我的语言看起来像这样 嗯 实际上看起来像这样 implies two nested loops j 0 N i
  • 如何阻止 GD2 在调整图像大小时洗掉颜色?

    我使用 CodeIgniter 1 7 开发了一个照片共享社区网站 成员上传的照片会自动调整为多种格式的大小 为此我使用 CodeIgniter Image Manipulation 类 该类内置于框架中 基本上是多个图像处理库的包装器 例
  • 如何在Android地图上的另一个图像中显示图像?

    我想在地图上的另一个图像中显示图像 like 这里红色的图像是不同的图像 而黑色的偶像图像是不同的 public Bitmap mergeBitmaps Bitmap manBitmap try Bitmap markerBitmap Bi
  • cakephp 3 显示没有时间的日期

    CakePHP 3 我有一个数据库字段 它是日期 不是日期时间也不是时间戳 当我显示 echo contact gt date 它会显示类似的内容2014 01 06 0 00 如何隐藏小时和分钟 I tried print this gt
  • Debian 9 + PHP7.0-FPM + NGINX 1.10.3-1 path_info 问题

    我正在使用 DigitalOcean Debian 9 PHP 7 0 NGINX 1 10 3 1 并尝试安装 Joomla CMS 但在第一个安装屏幕 example com installation index php 上 我注意到一
  • Selenium + Java 的 elementToBeClickable 问题

    所以 我有一个隐藏在警报下的元素 警报持续 10 秒 之后用户可以单击该元素 这是我处理这种情况的代码 WebElement create driver findElement By cssSelector div action menu
  • C# 根据 XSD 验证 XML [重复]

    这个问题在这里已经有答案了 可能的重复 使用 XSD 架构进行 Xml 验证 https stackoverflow com questions 572853 xml validation using xsd schema 我使用一些 C
  • 组合 ggplot2 对象时设置拼凑中的轴限制

    组合时ggplot2对象使用拼凑而成 https patchwork data imaginist com index html我希望能够有一个选项 可以轻松地为所有图设置一个选项 使其具有相同的 x 轴和 或 y 轴范围 reprex l
  • Busboy 文件上传中出现“Unexpected end of multipart form”错误

    我正在使用 Busboy 在 Node Express 应用程序中上传文件 我收到错误Unexpected end of multipart form和应用程序崩溃 每当我尝试治疗失眠的方法时 都没有效果 在显示 Busboy 不是构造函数
  • 创建 Uri uri 时应用程序崩溃

    package com example renu customlead import android content Context import android content ContextWrapper import android
  • 如何将参数发送到流中的引用方法(java 8)?

    我有一个活动列表 Activity 我想确定表单的数据结构Map String DateTime 不是持续时间或期间 DateTime这是必须的 映射 对于每项活动 在监控期间计算的总持续时间 班级活动有 activityLabel Str
  • 启用 viewBinding 功能失败(Android Studio 3.6)

    我已经安装了 Android Studio 3 6 Canary 12 并且我想使用viewBinding feature 根据文档 我将此代码放入我的 build gradle 应用程序模块 中 android viewBinding e
  • R 闪亮应用程序的 twitter bootstrap 弹出窗口 - html 被解释为文本内容 - 为什么?

    我想将 Twitter 引导框架中的弹出窗口添加到闪亮的应用程序中 一切正常 除了 认为html true标签没有效果 shinyUI pageWithSidebar headerPanel Header sidebarPanel acti
  • 如何跟踪服务 firebird

    如何使用delphi xe10跟踪服务firebird服务器的所有事件 这是我的代码 my TIBControlService Create Self my ServerName 127 0 0 1 3050 my Protocol TPr
  • Subversion 快速解决所有冲突

    当我遇到多个冲突时 有没有办法通过告诉 SVN 保留存储库中的版本来解决所有冲突 不幸的是 我们仍在使用 1 4 我相信如果你运行命令svn revert R 您基本上撤消了对工作副本的所有更改 如果存在冲突的文件 SVN 会放弃您的更改并
  • 使用时初始化缓存

    假设我有以下事件 做一点事 取东西 获取成功的东西 DoSomething做一些需要一些缓存数据的事情 当我触发事件时 我想查看缓存并对其执行某些操作 如果存在 如果没有 那么我想获取它 等待它进入缓存 然后重试 我想出了以下解决方案 但感
  • 在 C 中以均匀概率有效地从文本文件中选择随机行?

    这本质上是一个更受限制的版本这个问题 https stackoverflow com questions 232237 whats the best way to return a random line in a text file us