处理大量文本时防止内存问题

2024-01-12

我编写了一个程序，可以分析项目的源代码并根据代码报告各种问题和指标。

为了分析源代码，我加载项目目录结构中存在的代码文件并从内存中分析代码。该代码在传递给其他方法进行进一步分析之前会经过大量处理。

处理代码时，代码会传递给多个类。

有一天，我在我的团队的一个较大的项目上运行它，我的程序因为加载到内存中的源代码太多而崩溃了。这是目前的一个极端情况，但我希望将来能够处理这个问题。

避免内存问题的最佳方法是什么？

我正在考虑加载代码，对文件进行初始处理，然后将结果序列化到磁盘，这样当我需要再次访问它们时，我就不必再次经历操作原始代码的过程。这有道理吗？或者序列化/反序列化比再次处理代码更昂贵？

我想在解决这个问题的同时保持合理的性能水平。大多数时候，源代码会毫无问题地装入内存，那么有没有办法在内存不足时仅“分页”我的信息？有没有办法知道我的应用程序何时内存不足？

Update: 问题不在于单个文件填满内存，而是内存中的所有文件同时填满内存。我当前的想法是在处理它们时旋转磁盘驱动器

1.6GB 仍然可以管理，并且本身不会导致内存问题。低效的字符串操作可能会做到这一点。

当您解析源代码时，您可能会将其分成某些子字符串 - 标记或无论您如何称呼它们。如果您的令牌组合起来占整个源代码，那么内存消耗就会增加一倍。根据您执行的处理的复杂性，乘数可能会更大。我在这里的第一步是仔细研究如何使用字符串并找到一种优化它的方法 - 即在第一次传递后丢弃原始字符串，压缩空格，或使用原始字符串的索引（指针）而不是实际的子字符串 - 有许多技术在这里有用。

如果这些都没有帮助，那么我会诉诸于在磁盘之间交换它们

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

memorymanagement

处理大量文本时防止内存问题的相关文章

为什么相同的代码在同一台计算机上的执行时间可能不同？

我是 C 编程新手我编写了代码并希望获得它的运行时这就是我所做的每次运行代码时我都会得到不同的运行时值这样对吗或者我的代码有问题吗 int main int argc char argv time t start end sta
std::cout 和 std::wcout 有什么区别？

在c 中有什么区别std cout and std wcout 它们都控制流缓冲区的输出或将内容打印到控制台或者它们只是相似吗它们作用于不同的字符类型 std cout uses char作为字符类型 std wcout uses w
C++ 中本地类中的静态成员变量？

我知道我们不能宣布static本地类中的成员变量但其原因尚不清楚那么请问有人可以解释一下吗另外为什么我们不能访问非static函数内部定义的变量内部已经定义了局部类直接在局部类成员函数中在下面给出的代码中 int main i
Unix网络编程澄清

我正在翻阅这本经典书籍Unix网络编程 https rads stackoverflow com amzn click com 0139498761 当我偶然发现这个程序时第 6 8 节第 179 180 页 include unp h
如何将 #ifdef DEBUG 添加到 Xcode？

我的项目中有一些代码永远不应该在发布版本中使用但在测试时很有用我想做这样的事情 ifdef DEBUG Run my debugging only code endif 在 Xcode 4 中哪里添加 DEBUG 设置我尝试将其放入
读取文件特定行号的有效方法。（奖励：Python 手册印刷错误）

我有一个 100 GB 的文本文件它是来自数据库的 BCP 转储当我尝试导入它时BULK INSERT 我在第 219506324 行上收到一个神秘错误在解决此问题之前我想看看这一行但可惜的是我最喜欢的方法 import line
如何从 .resx 文件条目获取注释

资源文件中的字符串有名称值和注释 The ResXResourceReader类让我可以访问名称和值有办法看评论吗你应该能够得到Comment via ResXDataNode class http msdn microsoft co
无法在 Windows 运行时组件库的 UserControl 中创建依赖项属性

我想在用户控件内创建数据可绑定属性这个用户控件包含一个 Windows 运行时组件项目我使用下面的代码来创建属性 public MyItem CurrentItem get return MyItem GetValue Current
将 Excel 导入到 Datagridview

我使用此代码打开 Excel 文件并将其保存在 DataGridView 中 string name Items string constr Provider Microsoft Jet OLEDB 4 0 Data Source Dial
foo.setVisibility(View.GONE) 和parent.removeView(foo) 之间的区别

如果 foo 是一个视图那么有什么区别foo setVisibility View GONE and fooParent removeView foo 我对两个语句之前和之后视图的内存消耗特别感兴趣可见性设置为 GONE 的视图是否会消
Rx 中是否有与 Task.ContinueWith 运算符等效的操作？

Rx 中是否有与 Task ContinueWith 运算符等效的操作我正在将 Rx 与 Silverlight 一起使用我正在使用 FromAsyncPattern 方法进行两个 Web 服务调用并且我想这样做同步地 var o1
如何将整数转换为 void 指针？

在 C 中使用线程时我面临警告警告从不同大小的整数转换为指针代码如下 include
PlaySound 可在 Visual Studio 中运行，但不能在独立 exe 中运行

我正在尝试使用 Visual Studio 在 C 中播放 wav 文件我将文件 my wav 放入项目目录中并使用代码 PlaySound TEXT my wav NULL SND FILENAME SND SYNC 我按下播放按钮或
C++：.bmp 到文件中的字节数组

是的我已经解决了与此相关的其他问题但我发现它们没有太大帮助他们提供了一些帮助但我仍然有点困惑所以这是我需要做的我们有一个 132x65 的屏幕我有一个 132x65 的 bmp 我想遍历 bmp 并将其分成小的 1x8 列以获
上下文敏感与歧义

我对上下文敏感性和歧义如何相互影响感到困惑我认为正确的是歧义歧义语法会导致使用左推导或右推导构建多个解析树所有可能的语法都是二义性的语言是二义性语言例如 C 是一种不明确的语言因为 x y 总是可以表示两个不同的事物如下所述
如何使用 Mongodb C# 驱动程序连接多个集合

我需要将 3 个集合与多个集合合并在一起 lookup我在 C 驱动程序中尝试过它允许我 lookup用户采集但无法执行秒 lookup用于设置集合有人可以帮忙吗 db Transactions aggregate lookup fro
如何从main方法调用业务对象类？

我已将代码分为业务对象访问层如下所示 void Main Business object public class ExpenseBO public void MakeExpense ExpensePayload payload var
.NET中的LinkedList是循环链表吗？

我需要一个循环链表所以我想知道是否LinkedList是循环链表吗每当您想要移动列表中的下一个块时以循环方式使用它的快速解决方案 current current Next current List First 电流在哪里Linke
Server.MapPath - 给定的物理路径，预期的虚拟路径

我正在使用这行代码 var files Directory GetFiles Server MapPath E ftproot sales 在文件夹中查找文件但是我收到错误消息说给定物理路径但虚拟路径预期的我对在 C 中使用 Sys
如何使用 Word Automation 获取页面范围

如何使用办公自动化找到 Microsoft Word 中第 n 页的范围似乎没有 getPageRange n 函数并且不清楚它们是如何划分的这就是您从 VBA 执行此操作的方法转换为 Matlab COM 调用应该相当简单 Pub

随机推荐

使用 ToList() 与 new List(IEnumerable) 之间的性能差异

我很好奇在 IEnumerable 上使用 ToList 与仅调用列表构造函数 List IEnumerable 相比对性能的影响 Example int testArray new int 10 var list testArray To
将页面保存为 HTML 文件，包括通过 JavaScript/jQuery 新添加的元素

我有一个 Web 应用程序它使用 JavaScript 添加 HTML 元素如 div appendChild 功能当我使用 Firebug 检查添加 div 后时它会显示新添加的 div 但是当我在浏览器中查看源代码时它并没
命令历史记录的 Cygwin 快捷方式

如何在 cygwin 中搜索命令历史记录我不想一直按箭头键来执行控制台命令历史记录中的命令如果您使用默认编辑模式请执行 ctrl R 来回溯历史记录如果你已经设置了set o vi 使用vi编辑模式那么就是esc
哪些 numpy 操作是复制的，哪些是变异的？

是否有通用的经验法则来了解哪些操作numpy ndarray产生一个copy哪些值会就地改变它们我对 numpy 还很陌生我确信我最终会以艰难的方式学习但我想知道是否存在驱动可变性的一般原则可以帮助加快我的学习速度原地变异的函数
快速排序算法未正确分配主元

我观看了快速排序算法的精彩可视化 http www youtube com watch v Z5nSXTnD1I4 http www youtube com watch v Z5nSXTnD1I4 我觉得我真的理解了快速排序背后的原理并且
图像尺寸与画布尺寸不匹配

我做了这样的画布
VS Code PyLint 错误 E0602（未定义的变量）与 ProtoBuf 编译的 Python 结构

我使用 Visual Studio 很长时间了但它变得太复杂而难以维护现在我尝试转向 VS Code 但它抛出了许多对我来说没有意义的 PyLint 错误消息并且程序仍然按预期工作这些错误主要发生在从 GoogleProtoBuf
Google Maps API，是否可以突出显示特定街道？

是否可以使用 Google Maps API 突出显示街道我能找到的唯一接近这种效果的东西就是在它们上面画线但这工作量很大而且更不准确这些线条还将覆盖地名我想要的是突出显示某些街道名称就像您从 a 点导航到 b 点一样例如如
属性字符串中的上标分

我试图让我的标签看起来像这样但是使用属性字符串我设法得到了这个结果 My code NSString string NSString stringWithFormat 0 2f ask NSMutableAttributedString
使用 Java 8 Streams 将地图的地图转换为列表

我有一张地图 Map
根据上下文启用或禁用验证

介绍我有两个TextBox在我看来每个属性都绑定到我的视图模型中的某些属性 Property1 Property2 TextBox或者在某些布尔值和属性上启用并使用进行验证IDataErrorInfo在视图模型中视图中的一些样式 P
Android：以编程方式创建和发送 XML SOAP 请求

您好提前致谢我找到了这个教程我正在尝试模仿它 http lalit3686 blogspot com 2012 06 calling soap webservice using httppost html http lalit3686
使用 NginX 和 Laravel：URL 重写

我正在尝试在运行 CentOS 6 4 和 NginX 1 8 的 VPS 上设置 Laravel 框架我可以让其他一切都完美工作但我无法让更干净的 URL 工作例如使用 website com home 而不是 website co
如何在WebView Windows 10 UWP中调用javascript？

我正在尝试在 WebView 中加载 JavaScript 来进行一些计算并以字符串形式获取输出我尝试使用以下代码 string htmlFragment
确定 JavaScript 中浏览器窗口的位置？

由于各种愚蠢的原因我希望能够检测屏幕上浏览器窗口的矩形标题栏等等这可能吗还是 JavaScript 仅限于其页面的视图端口 Edit 我可能不清楚但视图端口是窗口中可见的页面部分这可能不是浏览器中常用的术语但在图形中很常见对
R如何在涉及3个变量的情况下创建类似数据透视表的数据框？

我在 R 中有以下数据框它为我提供了客户 1 2 和 3 的交易记录每行显示交易已进行的期间类型以及花费的金额 id lt c 1 2 3 1 1 2 3 2 2 period lt c calib valid valid calib
C++：将函数分配给 tr1::function 对象

我们的一个类提供了 tr1 function 回调对象但是当我尝试为其分配成员函数时出现编译器错误以下示例未经测试仅用于说明 Foo h class Foo public Foo std tr1 function
使用 foreach 循环清除 PHP 数组值的效率

哪个对于清除数组中的所有值更有效第一个需要我每次在第二个示例的循环中使用该函数 foreach array as i gt value unset array i Or this foreach blah blah as blah foo
如何从layout.xml中删除默认的cardview边框

我无法删除 CardView 的默认边框以前有人遇到过这个问题吗两条边界线重叠 CardviewDesign xml
处理大量文本时防止内存问题

我编写了一个程序可以分析项目的源代码并根据代码报告各种问题和指标为了分析源代码我加载项目目录结构中存在的代码文件并从内存中分析代码该代码在传递给其他方法进行进一步分析之前会经过大量处理处理代码时代码会传递给多个类有一天我在我

处理大量文本时防止内存问题

处理大量文本时防止内存问题 的相关文章

随机推荐

热门标签

处理大量文本时防止内存问题的相关文章