如何向后读取文件以有效地查找子字符串

2024-01-20

我有一个巨大的这种结构的日志文件：

“时间戳”：{“标识符”：值}

"1463403600":{"AA":74.42},
"1463403601":{"AA":29.55},
"1463403603":{"AA":24.78},
"1463403604":{"AA":8.46},
"1463403605":{"AA":44.84},
"1463403607":{"AA":87.05},
"1463403608":{"AA":54.81},
"1463403609":{"AA":93.1},
"1463403611":{"AA":77.64},
"1463403612":{"AA":33.39},
"1463403613":{"AA":69.2},

我想在给定的时间戳之后提取内容，例如：

std::ifstream * myfunc( uint32_t timestamp)

例子：

myfunc(1463403611);
/* returns
"1463403611":{"AA":77.64},
"1463403612":{"AA":33.39},
"1463403613":{"AA":69.2},
*/

日志文件很长 - 太长而无法将其保留在内存中。该代码将在资源有限的嵌入式设备（80Mhz，~10kB 可用内存）上运行，因此我正在寻找一些有效解决方案的想法。

日志文件可能有 500k+ 条目，并且 99% 的时间时间戳将位于最后 100 行，因此从文件的开头开始并检查每一行是否有正确的时间戳将非常低效。

所以我想我正在寻找一种解决方案来逐行向后读取文件。我真的没有一个解决方案如何在不将大块加载到内存的情况下有效地做到这一点。

我尝试从 EOF 开始读取 200 字节的块，但遇到了这样的问题：在许多情况下，该块将时间戳减半。我试图检测到这一点，并在需要时重新选择一些字节，但我感觉，必须有一个聪明的解决方案。

嗯，我发现这很有趣，所以我为它做了一个概念验证二分查找 https://en.wikipedia.org/wiki/Binary_search_algorithm idea.

这没有经过充分的测试，可能还有一些问题，但到目前为止似乎有效，并且演示了分而治之的思想。您检查文件的中间，然后根据是否太高或太低，将数据分成两部分并搜索相关的一半。您递归地执行此操作，直到足够接近为止。

#include <ctime>
#include <cmath>
#include <cstdlib>
#include <string>
#include <fstream>
#include <iostream>

// Don't use this, its just to show how many reads
// are being done to find the record.
int global_counter;

std::streampos find_stamp(std::istream& is, long stamp, std::streampos pos, std::streampos end)
{
    ++global_counter;

    if(pos == 0) // can't divide zero
        return 0;

    std::string s;
    long found_stamp;

    // extract nearest timestamp after pos
    is.seekg(pos);
    if(!(std::getline(std::getline(is, s, ','), s, '"') >> found_stamp))
        return end;

    // if its too big check first half of this region
    if(found_stamp > stamp)
        return find_stamp(is, stamp, pos / 2, pos);

    // if its not within 10 timestamp seconds check end half of this region
    if(stamp - found_stamp > 10)
        return find_stamp(is, stamp, (pos + end) / 2, end);

    // read record by record (prolly more efficient than skipping)
    pos = is.tellg();
    while(std::getline(std::getline(is, s, ','), s, '"') >> found_stamp)
    {
        if(found_stamp > stamp)
            return pos;
        pos = is.tellg();
    }
    return end;
}

void print_after(const std::string& filename, long stamp)
{
    // open at end of file (to get length)
    std::ifstream ifs(filename, std::ios::ate);

    std::streampos end = ifs.tellg();
    auto pos = end / 2; // start checking in middle

    // find position before required record
    // (may be in the middle of a record)
    if((pos = find_stamp(ifs, stamp, pos, end)) != end)
    {
        ifs.seekg(pos);

        std::string line;
        std::getline(ifs, line, ','); // skip to next whole record

        // print out all following recors
        while(std::getline(ifs, line, ','))
            std::cout << line;
    }
}

inline
std::string leading_zeros(int n, int zeros = 2)
{
    std::string s;
    for(int z = std::pow(10, zeros - 1); z; z /= 10)
        s += (n < z ? "0":"");
    return s + std::to_string(n);
}

int main()
{
    std::srand(std::time(0));

    // generate some test data
    std::ofstream ofs("test.txt");

    for(int i = 0; i < 1000; ++i)
    {
        ofs << '"' << leading_zeros(i, 10) << '"';
        ofs << ":{\"AA\":" << (std::rand() % 100);
        ofs << '.' << (std::rand() % 100) << "},\n";
    }

    ofs.close();

    global_counter = 0;
    print_after("test.txt", 993);

    std::cout << "find checked " << global_counter << " places in the file\n";
}

Output:

"0000000994":{"AA":80.6}
"0000000995":{"AA":11.90}
"0000000996":{"AA":16.43}
"0000000997":{"AA":53.11}
"0000000998":{"AA":68.43}
"0000000999":{"AA":79.77}
find checked 6 places in the file

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

file

C11

datamanagement

如何向后读取文件以有效地查找子字符串的相关文章

如何创建语法突出显示文本框[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案如何使用 C Net 创建语法突出显示文本框 Take 闪烁网 http scintillanet codeplex com 并采取其
为什么使用数组索引循环数组比指针访问慢？

我正在读Kochan的书 Programming in C 在第 14 页的指针和数组部分中 264 他说一般来说索引数组的过程比执行索引过程花费更多的时间访问指针内容的过程其实这也是主要原因之一为什么使用指针来访问数组的元素
C++：字符串流有什么好处？

谁能告诉我一些在 C 中使用字符串流的实际例子即使用流插入和流提取运算符输入和输出到字符串流您可以使用字符串流来转换任何实现operator lt lt 到一个字符串 include
为什么 fgets 接受 int 而不是 size_t？

功能如strcpy malloc strlen 和其他各种接受他们的参数或返回值作为size t代替int or an unsigned int出于显而易见的原因一些文件功能例如fread and fwrite use size t以及
带有嵌入 Flash 视频的 PDF 示例？

有谁知道我在哪里可以查看嵌入 Flash 视频的 PDF 示例我知道问这个问题很愚蠢因为你会认为任何面向技术的用户都应该能够使用谷歌找到一个但我真的找不到我的另一个问题是使用 C 中的 API 将 Flash 视频嵌入 PDF 文
析构函数与成员函数竞赛

当我在析构函数内时其他线程是否可能开始执行对象的成员函数遇到这种情况该如何处理呢 C 没有内在的保护来防止在删除对象后使用它忘记竞争条件另一个线程可以在完全删除你的对象后使用你的对象 Either 确保只有一个位置代码拥有该对象
C++ 并行任务的开销

我有以下简单的功能 include
将视频上传/保存到数据库或文件系统

我以前从未尝试过保存视频所以我对此了解不多我知道如果视频很小我可以转换为字节数组并保存到数据库但是为了提高效率我想了解如何将任何上传的视频保存到我的服务器文件中然后只保存该文件的文件路径我的数据库表中的视频我完全不知道如何开始
如何在Unity Inspector中创建多维数组？

如何在 Unity Inspector 中创建枚举多维数组并使其可序列化以便我可以从不同的脚本调用它 public enum colors red blue green yellow cyan white purple public in
我如何知道向量的实际最大大小？（不使用 std::vector::max_size）

在在线课程中我正在学习向量在其中一个例子中他们解释说 std vector max size 应该给我向量可以达到的最大大小我决定测试一下 include
用 OpenCL C 编写快速线性系统求解器

我正在编写一个 OpenCL 内核它将涉及求解线性系统目前我的内核太慢了提高线性系统部分的性能似乎是一个不错的起点我还应该注意我并没有尝试使我的线性求解器并行我正在研究的问题在宏观层面上已经是令人尴尬的并行以下是我编写的 C
是否自初始化 'A a = a;'允许吗？

此代码在运行时在复制构造函数中失败但编译器 MSVS2008 没有发出警告您能解释一下最好引用标准这段代码是否非法或什么我理解 A a a 永远不应该写在第一位但我正在寻找理论背景 class A public A p new
FFplay成功移入我的Winform中，如何设置它无边框？

用这个代码在 C 应用程序中显示 tcp 视频流来自 FFPLAY FFMPEG https stackoverflow com questions 14201894 show a tcp video stream from ffpla
如何解析多态 JSON 数组？

我有一个 JSON 格式的文件其中包含个人用户的记录一些用户的记录中间有一个评论字段我只想解析顶级项目全名贡献者姓名电子邮件使用 Newtonsoft JSON 解析器但我似乎无法让它识别单个对象当我将整个字符串解析为一个
将旧的 Unity 代码升级到 Unity 5

在触发按钮上播放动画的代码似乎不起作用我在 Youtube 上看到了一个视频内容很简单animation Play 它可以在该视频上运行但我无法让它在我的计算机上运行我做错了什么还是团结改变了它请帮助我在网上找不到解决方案所有
C++ 模板参数数量错误（2，应该是 1）

我使用 C 并行快速排序程序进行了测试如下所示首先使用列表作为容器然后我转移到通用容器类型但它报告了标题错误可以帮忙解决这个问题吗 include
Rx 在不同的线程上生产和消费

我试图通过此处的示例代码来简化我的问题我有一个生产者线程不断地输入数据并且我尝试在批次之间添加时间延迟来对其进行批处理以便 UI 有时间渲染它但结果并不如预期生产者和消费者似乎在同一个线程上我不希望批处理缓冲区在正在生成的线程上
SMTP 客户端在 C# 应用程序中显示错误“未采取请求的操作”

我正在尝试使用 hotmail 帐户设置电子邮件发送应用程序代码如下所示 MailMessage mail new MailMessage from to mail Subject Proba email mail Attachments
为什么 INT64_MIN 的定义不同？为什么他们的行为不同？

The stdint h我公司的标题是 define INT64 MIN 9223372036854775808LL 但在我项目的一些代码中一位程序员写道 undef INT64 MIN define INT64 MIN 92233720
从 C/C++ 程序进行 Ping

我想编写一个 C 或 C 程序给定一个 IP 地址对其进行 Ping 然后根据 Ping 是否成功执行进一步的操作这个怎么做尽情享受Ping 页面 http www ping127001 com pingpage htm 其中有一个

随机推荐

为什么当shared_ptr调用派生和基析构函数时，unique_ptr只调用基析构函数？ [复制]

这个问题在这里已经有答案了为什么以下代码的输出会根据我是否使用shared ptr or unique ptr 的输出shared ptr这是有道理的因为该对象已完全被破坏而在unique ptr 只有基类部分被破坏我以为当我使用智
Android：通过视频动态模糊表面

我正在构建一个 Android 应用程序其中 ExoPlayer 在 SurfaceView 的表面上播放视频并且我正在研究是否可以动态模糊播放的视频涉及首先生成要模糊的视图位图的模糊技术将不起作用因为 SurfaceView 的表
WIX 安装程序未正确显示 WixUI 对话框的自定义图像

In my WIX我正在使用自定义安装程序WixUIDialogBmp安装人员的图像Welcome and Completion页但如下图所示图像无法正确显示我正在尝试遵循这个官方文档 http wixtoolset org docu
解决这个分配珠子难题的算法？

假设你有一个圆圈如下所示 N点并且你有N珠子分布在槽中 Here s an example 每个珠子都可以顺时针移动X插槽这需要花费X 2美元您的目标是最终在每个槽中获得一颗珠子完成这项任务至少需要花多少钱这个问题更有趣的变体
加载后获取 Highcharts 系列数据

我试图在调用 Highcharts 图表并将其加载到页面后获取系列数据到目前为止我只成功地获得了一堆字符串这显然不是我想要的不知道是否有人可以帮助我解决这个问题 jQuery 代码 success function chartDat
Spring AOP 创建额外的 bean

我正在玩Spring AOP 这是一个简单的类 public class CModel extends Car private double torqueMeasure 1 public CModel System out println
如何使用 kubernetes python 客户端排空节点？

我正在尝试使用官方的 kubernetes 工作节点自动化kubernetes python 客户端 https github com kubernetes incubator client python 我目前正在寻找一种方法安全地将所有
Jena Fuseki 服务器命令未找到

我是 Jena Fuseki 服务器的新手根据链接http jena apache org documentation serving data index html http jena apache org documentation
如何在 jenkins 上使用 ant 从 .product 构建 eclipse rcp 应用程序

我想构建一个 Eclipse RCP 应用程序我有一个产品配置文件和一个带有许多第三方插件的目标平台从 Eclipse IDE 的导出工作完美无缺但这很难说是专业的所以我也想让它在詹金斯上工作构建服务器从 SVN 获取文件没有
matlab/octave - 广义矩阵乘法

我想做一个函数来概括矩阵乘法基本上它应该能够执行标准矩阵乘法但它应该允许通过任何其他函数更改两个二元运算符的乘积和目标是在 CPU 和内存方面尽可能高效当然它的效率总是低于 A B 但操作员的灵活性是这里的重点这是我阅读后可
`this.some_property` 在匿名回调函数中变为未定义

所以我不太明白为什么这个变量这个任务在我的目标对象内部的添加事件侦听器中变得未定义我有一种感觉它可能与异步编程有关我仍然不完全理解抱歉我有点 JS 菜鸟但是如果你们能向我解释我做错了什么以及什么可能是更好的解决方案那就太棒了
使用 Azure AD 多租户进行 Azure AD B2C 身份验证

我已按照本文配置了 Azure AD 多租户身份验证 https learn microsoft com en us azure active directory b2c identity provider azure ad multi t
如何刷新 iframe url？

我正在使用 ionic 创建一个应用程序其中使用 iframe 显示 URL 这是 HTML 代码这是角度js scope iframeHeight window innerHeight document getElementById
自适应卡 - 以字节为单位提供图像

我正在尝试将图像放入 Bot 框架中的自适应卡中如下所示 card Body Add new AdaptiveImage Type Image Url new Uri pictureUrl Size AdaptiveImageSize L
jQuery .val() 在更改选择框时返回未定义

我有一个带有一些日期的选择框我想在输入更改时获取所述日期的值我的价值总是变得不确定 date pick change function var values date pick selected val alert values Fid
在 C# 中直接在 DateTimePicker 上转到月份和年份

如果用户在我的中输入日期我该如何实现这一点DateTimePicker它会自动聚焦月份部分输入该月份部分后会转到年份部分因为我不希望他必须按右键才能聚焦有没有办法以编程方式执行此操作用户不可能已经单击月份或年份部分因为他使用键
构建管道的默认分支。这是什么意思？

在 Azure DevOps Services 的发布工作流程中在设置持续部署触发器时有一个选项构建管道的默认分支我不明白这意味着什么以及如何查看项目中不同管道的默认分支任何有关这方面的文档的参考也会有所帮助这也出现在管道中的其
如何将 DataFrame 的列名从字符串转换为整数

在下面的代码中我将一个字符串读入 DataFrame 但即使输入字符串的标头是数字它们也会作为字符串读入 1 2 有没有办法将它们作为数字读取或者随后将它们转换为数字 import pandas as pd from StringIO
java初学者：如何在哈希图中对键进行排序？

我是java新手正在学习哈希图的概念我很困惑哈希图中的键是如何排序的我知道它基于字符串长度但我很困惑当字符串长度相同时数据如何排序 import java util HashMap import java util Iterator
如何向后读取文件以有效地查找子字符串

我有一个巨大的这种结构的日志文件时间戳标识符值 1463403600 AA 74 42 1463403601 AA 29 55 1463403603 AA 24 78 1463403604 AA 8 46 1463403605 AA

如何向后读取文件以有效地查找子字符串

如何向后读取文件以有效地查找子字符串 的相关文章

随机推荐

热门标签

如何向后读取文件以有效地查找子字符串的相关文章