从 F# 中特定位置的二进制文件读取整数的性能问题

2024-01-09

今天早上我问here https://stackoverflow.com/questions/24381090/performance-issue-with-reading-integers-from-a-binary-file-at-specific-locations为什么我的 Python 代码比我的 F# 版本慢很多，但我想知道 F# 版本是否可以变得更快。我有什么想法可以创建以下代码的更快版本，从具有 32 位整数的二进制文件中读取唯一索引的排序列表？请注意，我尝试了两种方法，一种基于 BinaryReader，另一种基于 MemoryMappedFile (以及 Github 上的更多内容 https://github.com/samuelbosch/blogbits/blob/master/geosrc/AsciiToBin.fsx).

module SimpleRead            
    let readValue (reader:BinaryReader) cellIndex = 
        // set stream to correct location
        reader.BaseStream.Position <- cellIndex*4L
        match reader.ReadInt32() with
        | Int32.MinValue -> None
        | v -> Some(v)

    let readValues fileName indices = 
        use reader = new BinaryReader(File.Open(fileName, FileMode.Open, FileAccess.Read, FileShare.Read))
        // Use list or array to force creation of values (otherwise reader gets disposed before the values are read)
        let values = List.map (readValue reader) (List.ofSeq indices)
        values

module MemoryMappedSimpleRead =

    open System.IO.MemoryMappedFiles

    let readValue (reader:MemoryMappedViewAccessor) offset cellIndex =
        let position = (cellIndex*4L) - offset
        match reader.ReadInt32(position) with
        | Int32.MinValue -> None
        | v -> Some(v)

    let readValues fileName indices =
        use mmf = MemoryMappedFile.CreateFromFile(fileName, FileMode.Open)
        let offset = (Seq.min indices ) * 4L
        let last = (Seq.max indices) * 4L
        let length = 4L+last-offset
        use reader = mmf.CreateViewAccessor(offset, length, MemoryMappedFileAccess.Read)
        let values = (List.ofSeq indices) |> List.map (readValue reader offset)
        values

为了进行比较，这里是我最新的 numpy 版本

import numpy as np

def convert(v):
    if v <> -2147483648:
        return v
    else:
        return None

def read_values(filename, indices):
    values_arr = np.memmap(filename, dtype='int32', mode='r')
    return map(convert, values_arr[indices])

Update与我之前所说的相反，我的 python 仍然比 F# 版本慢很多，但由于我的 python 测试中的错误，它看起来并非如此。将此问题留在这里，以防对 BinaryReader 或 MemoryMappedFile 有深入了解的人知道一些改进。

通过使用 reader.BaseStream.Seek 而不是 reader.BaseStream.Position，我设法使 SimpleReader 速度提高了 30%。我还用数组替换了列表，但这并没有改变很多。

我的简单阅读器的完整代码现在是：

open System
open System.IO

let readValue (reader:BinaryReader) cellIndex = 
    // set stream to correct location
    reader.BaseStream.Seek(int64 (cellIndex*4), SeekOrigin.Begin) |> ignore
    match reader.ReadInt32() with
    | Int32.MinValue -> None
    | v -> Some(v)

let readValues indices fileName = 
    use reader = new BinaryReader(File.Open(fileName, FileMode.Open, FileAccess.Read, FileShare.Read))
    // Use list or array to force creation of values (otherwise reader gets disposed before the values are read)
    let values = Array.map (readValue reader) indices
    values

完整代码和其他语言版本位于GitHub https://github.com/samuelbosch/blogbits/tree/master/geosrc/binreaders.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

从 F# 中特定位置的二进制文件读取整数的性能问题的相关文章

捕获特定的 WebException (550)

假设我创建并执行一个System Net FtpWebRequest 我可以用catch WebException ex 捕获此请求引发的任何与 Web 相关的异常但是如果我有一些逻辑只想在由于以下原因引发异常时执行 550 file
使用 DependencyResolver 通过 MVC 3 进行控制器实例化时出错

我正在使用 MVC 3 并在应用程序启动时使用以下代码 UnityContainer container new UnityContainer new UnityMappings container DependencyResolver S
删除 TableLayoutPanel 中的特定行

我有 TableLayoutPanel 我以编程方式添加行用户基本上选择一个属性然后与一些控件一起显示在表中我想我在这里有一个一般性的理解问题我会尽力解释它每行中的控件之一是删除按钮该按钮应该删除它所在的行我所做的是将事件
如何使用AutoMapper按照类中定义的顺序映射对象？

给定这两个对象我使用非常不同的对象来更好地阐明 public class Car public string Brand get set public int Speed get set public class Apple public
如何检查 NTAccount 对象代表组还是用户？

使用返回的访问规则时 GetAccessRules True True GetType System Security Principal NTAccount 如何判断每个规则中引用的 NTAccount 对象是用户帐户还是组 Update
有没有办法在不重新编译的情况下覆盖 .NET Windows 服务名称？

我有一个 Windows 服务可执行文件我知道它是用 NET 编写的我需要将其安装在不同的服务名称下以避免冲突安装无论如何都不提供指定服务名称如果我只能访问二进制文件当我使用 installutil 安装它时是否可以覆盖服务名称
.Net应用程序设置路径

默认情况下 Windows 应用程序设置保存在该目录中 USERPROFILE Local Settings Application Data
将 xml 反序列化为类，list<> 出现问题

我有以下 XML
插入记录后如何从SQL Server获取Identity值

我在数据库中添加一条记录identity价值我想在插入后获取身份值我不想通过存储过程来做到这一点这是我的代码 SQLString INSERT INTO myTable SQLString Cal1 Cal2 Cal3 Cal4 SQ
将文本叠加在图像背景上并转换为 PDF

使用 NET 我想以编程方式创建一个 PDF 它仅包含一个背景图像其上有两个具有不同字体和位置的标签我已阅读过有关现有 PDF 库的信息但不知道如果适用哪一个对于如此简单的任务来说最简单有人愿意指导我吗 P D 我不想使用生成的
恢复上传文件控制

我确实阅读了以下帖子 C 暂停恢复上传 https stackoverflow com questions 1048330 pause resume upload in c 使用 HTTP 恢复上传 https stackoverflow
变量替换为字符串

我可以做类似的事情吗 s said s blah name blah 在 VB NET 中写字越来越痛苦name said blah blah 在VB NET 14 对于VS2015 中您可以使用字符串插值 https msdn mic
如何强制我的 .NET 应用程序以管理员身份运行？

一旦我的程序安装在客户端计算机上如何强制我的程序以管理员身份运行Windows 7的您需要修改嵌入到程序中的清单这适用于 Visual Studio 2008 及更高版本项目添加新项目选择应用程序清单文件改变
ThreadPool.SetMinThreads 不创建任何新线程

我想弄清楚到底有什么影响ThreadPool SetMinThreads makes 根据官方文档 https learn microsoft com en us dotnet api system threading threadpool
Windows DPAPI - 如何处理熵？

我正在使用 Windows DPAPI 来加密一些敏感数据密码存储在注册表中这一切都运行良好但我想知道是否有人可以澄清我对 NET 中可选提供给 ProtectedData Protect 的熵字节的理解熵字节数组似乎类似
如何防止在 ActiveX 方法调用期间重新进入 WPF 事件处理程序？

我们从 WPF 和 STA 应用程序中调用 ActiveX 组件上的方法此调用是通过以下方式后期绑定执行的 res ocx GetType InvokeMember methodName flags null ocx args 其中 oc
WPF DataGrid 验证/绑定模式错误

我创建了一个非常简单的新项目仅测试 Microsoft WPF DataGrid 行为不涉及其他我只使用标准的 DataGrid
从同一个类中的另一个构造函数调用构造函数

我有一个带有两个构造函数的类 C 这是代码片段 public class FooBar public FooBar string s constructor 1 some functionality public FooBar int i
在Linux中，找不到框架“.NETFramework，Version=v4.5”的参考程序集

我已经设置了 Visual studio 来在我的 Ubuntu 机器上编译 C 代码我将工作区我的代码加载到 VS 我可以看到以下错误 The reference assemblies for framework NETFramewo
DataTable.GetChanges() 不断返回 NULL

我正在尝试获取存在于的所有行allData但不在removeData public static DataTable RemoveDuplicateRows DataTable allData DataTable removeData re

随机推荐

将逻辑放入 SQL 中的优点和缺点？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案在一份新工作中我刚刚接触到将逻辑放入 SQL 语句的概念在 MySQL 中一个愚蠢的例子是这样的 SELECT P LastName IF
像素化整个网页

我了解如何缩放小画布以制作具有厚实而不是模糊像素的大画布有什么方法可以让整个网页显示为厚实的 2x2 或 3x3 像素吗即用最近邻缩放来放大它我想使用普通 HTML 但将其像素化以获得仿 8 位外观很酷的主意我想如果你不关心性能的
哪种连接语法更好？

因此我们正在从 Informix 迁移到 Sql Server 我注意到 Informix 中的查询是这样编写的 select col1 col2 col3 col4 col5 from tableA tableB where table
SOAP 错误：正在解析 WSDL：无法从 url 加载

执行以下行时我收到此错误 client new soapclient https example com xxx pgw wsdl xyz wsdl Error SoapFault SOAP ERROR Parsing WSDL Coul
Google App Engine 数据存储区的 ListProperty 的最大大小/限制是多少？

我使用 GAE 很长时间但找不到列表属性的最大长度是多少我被读了文档 https developers google com appengine docs python datastore typesandpropertyclasses
对深度不可变类型进行延迟初始化是否需要锁？

如果我有一个深度不可变的类型所有成员都是只读的如果它们是引用类型成员那么它们也引用深度不可变的对象我想在类型上实现一个延迟初始化的属性如下所示 private ReadOnlyCollection
将数据库中的结果拆分为 10 个“块”

下午我需要有人将 1200 多个结果拆分为 10 个块以便我可以使用 Amazon MWS API 处理这些结果任何人都可以提供有关我如何执行此操作的任何指导吗 List
为什么这个协议“只能作为通用约束”？

我正在尝试在 Swift 中执行以下操作 protocol ProtocolWithAlias typealias T protocol AnotherProtocol func someFunc gt ProtocolWithAlias
IE只读文本区域问题

当我动态更改其只读属性时我在 IE7 和 IE8 但不是其他浏览器中看到文本区域存在问题文本区域最初被定义为只读当用户在文本框内单击时我将 readOnly 设置为 false 此时如果我输入任何普通字符它们不会显示事实
TensorflowAssign 要求两个张量的形状匹配。左侧形状= [20] 右侧形状= [48]

我是 TensorFlow 菜鸟我已经通过 Deeppose 的开源实现训练了一个 TensorFlow 模型现在必须针对一组新图像运行该模型该模型接受了大小图像的训练100 100所以我将新的图像集调整为相同的大小我有149用于运
npm 不支持 Node.js

npm 不支持 Node js v15 5 0 和 v14 15 3 npm 版本 5 6 0 我是通过命令升级的 npm i g npm upgrade但我没有得到版本 6 我总是得到版本 5 6 0 我还根据以下内容尝试了不同的 Nod
R data.table 奇怪的值/引用语义

这是一个后续问题this https stackoverflow com questions 62740267 is r data table documented to pass by reference as argument 检查这个
我的应用因无效原因被 Instagram Basic Display API 审核拒绝

我正在开发一个应用程序允许用户在我的应用程序中连接他们的 Instagram 个人资料因此我的应用程序中的其他连接用户可以访问他们的 Instagram 个人资料这类似于Tinder已经在他们的应用程序中实现了参考这个链接 htt
如何通过GLSL在THREE.js中实现MeshNormalMaterial？

我想实现一个像这样的着色器网格法线材质 https threejs org docs api materials MeshNormalMaterial 但我不知道如何将法线转换为颜色在 THREE js 中我的测试1 varying v
隐式转换，是否需要导入？

I write object MyString implicit def stringToMyString s String new MyString s class MyString str String def camelize str
如何在 C# 3.0 中比较两个通用列表？ [复制]

这个问题在这里已经有答案了可能的重复 C 中有比较集合的内置方法吗 https stackoverflow com questions 43500 is there a built in method to compare collect
ExecJS::ProgramError：意外的标记：名称（选项）

我的应用程序在本地环境中运行良好我试图git pushHeroku 的构建我的命令是 bundle install git add git commit am abcdef git push heroku master 然后我遇到了资产
将 pandas DataFrame 写入 sql 时出现无效列名错误

当我尝试将数据帧写入 ms sql server 时如下所示 cnxn sqlalchemy create engine mssql pyodbc HOST PORT DATABASE driver SQL Server df to sq
尽管未兑现的承诺，脚本还是结束了

考虑一下 async function const arr await new Promise r gt arr push r console log done 脚本终止于await并且日志从未打印到标准输出我不明白为什么你的代码没有任
从 F# 中特定位置的二进制文件读取整数的性能问题

今天早上我问here https stackoverflow com questions 24381090 performance issue with reading integers from a binary file at spec

从 F# 中特定位置的二进制文件读取整数的性能问题

从 F# 中特定位置的二进制文件读取整数的性能问题 的相关文章

随机推荐

热门标签

从 F# 中特定位置的二进制文件读取整数的性能问题的相关文章