中文查询带来意想不到的高召回率

2023-12-14

我们对中文查询的召回率出乎意料地高。我成功地使用仅具有 2 个属性的简单数据模型重现了最小用例。

复制

  1. 使用zh-Hans.microsoft分析器为中文产品描述定义属性DescriptionZhCn

  2. 在 DescriptionZhCn 中使用以下值填充两条记录

    Contoso减振接杆

    Contoso 缩径接柄

  3. 使用选项 searchMode=all、queryType=full、searchFields=DescriptionZhCn、api-version=2019-05-06 进行搜索,并在搜索参数中包含以下值:

    减振接杆

    缩径接柄

EXPECTED

当搜索减振接杆时,我希望只包含描述为“Contoso 减振接杆”的记录。当搜索缩径接柄时,我只期望记录“Contoso 缩径接柄”。

ACTUAL

搜索减振接杆或缩径接杆意外返回两条记录。唯一共同的字是第三个字“接”。

我已经验证了 zh-Hans.microsoft 分析器的输出,它将两个中文字符串拆分为 4 个标记。例如。

减振接杆 => 减 振 接 杆

我的查询仅匹配其中一个标记。我正在使用 searchMode=all。为什么我的查询匹配?这是一个错误吗?任意输入Yanoosh, Liam?


None

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

中文查询带来意想不到的高召回率 的相关文章

  • 为什么nodejs HTTP响应中不能写汉字?

    这是我的小代码 var http require http var port 9002 var host ip
  • 如何在不强制兼容模式的情况下让IE8显示汉字?

    所有解决方案这个问题说使用 它之所以有效 是因为它强制浏览器在兼容性视图中呈现 即就像 IE7 一样 但当用户实际使用 IE7 或许多其他浏览器 时 字符不会显示 相反 我看到了正方形 还有其他人遇到过这种情况吗 你是怎么处理的 在CSS中
  • 实际使用中最常见的非 BMP Unicode 字符有哪些? [关闭]

    Closed 这个问题需要多问focused 目前不接受答案 根据您的经验 到目前为止 哪些 Unicode 字符 代码点 BMP 基本多语言平面 之外的范围是最常见的 这些是需要 UTF 8 中的 4 个字节或 UTF 16 中的代理项
  • azure 搜索按分数排序和过滤

    我想知道如何使用 azure 搜索按分数过滤和排序结果 我试过 https domaine net indexes indexName email protected 20desc count true Return object stdC
  • Azure 搜索:搜索单词的单数版本,但结果中仍包含复数版本

    我对我在自定义分析器 以及 fr microsoft 分析器 中注意到的特殊行为有疑问 下面的分析 API 测试是使用 fr microsoft 分析器显示的 但当我使用 text contains search custom analyz
  • 使用vbscript将汉字写入文本文件

    我正在尝试使用以下命令将一些汉字写入文本文件 Set myFSO CreateObject Scripting FileSystemObject Set outputFile myFSO OpenTextFile getOutputName
  • '

    简短的故事 我无法将像 这样的实体存储在 MySQL 数据库中 无论是通过使用 Ruby on Rails 应用程序中的文本字段 使用默认的 UTF 8 编码 还是通过直接使用 MySQL GUI 输入它应用程序 据我所知 所有的汉字和部首
  • 如何在Azure中搜索包含引号的文本(转义单引号)?

    我有一个关于 azure 搜索的查询 如下所示 results indexClient Documents Search
  • Flutter 从服务器获取的日语字符解码错误

    我正在使用 Flutter 构建移动应用程序 我需要取一个json来自服务器的文件 其中包含日语文本 退回的一部分json is id egsPu39L5bLhx3m21t1n userId MCetEAeZviyYn5IMYjnp use
  • 在 Azure 搜索上上传文档后,我可以立即删除它吗?

    1 假设我使用Azure搜索API上传一个新文档 POST indexes index name docs index api version api version 2 我收到 HTTP 代码 201 的响应 文档已成功创建 3 我再次使
  • Azure 认知搜索文本翻译技能 50k 字符限制

    我们正在使用 Azure 认知搜索来索引各种文档 例如Word 或 PDF 文件 存储在 Azure Blob 存储中 我们希望能够翻译提取的非英语文档内容 并将翻译结果存储到索引中的专用字段中 目前 内置的文本翻译认知技能最多支持输入 5
  • 维基百科上的汉字编码是什么?

    我在维基百科上查看中文字符的编码 但无法弄清楚它们正在使用什么 例如 的 被编码为 E7 9A 84 see here http upload wikimedia org wikipedia commons thumb a ae E7 9A
  • 如何在 Azure 搜索 REST API 上使用“id”删除特定文档?

    我想知道如何删除Azure搜索索引中的特定文档 我想通过 REST API 使用 id 来删除文档 我曾寻找过 但找不到路 odata context https xxxx metadata docs value search score
  • 日语字符的正则表达式

    我正在 Struts 中进行国际化 我想为日语和英语用户编写 Javascript 验证 我知道英语的正则表达式 但不知道日语用户的正则表达式 是否可以为两个用户编写一个基于 Unicode 进行验证的正则表达式 请帮我 下面是一个正则表达
  • 检测 Windows 字体大小(100%、125% 和 150%)

    我创建了一个应用程序 该应用程序在用户选择 125 或 150 之前都可以完美运行 这会破坏我的申请 后来我找到了通过检测DPI来找到字体大小的方法 在使用中文版 Windows 7 的用户开始使用我的应用程序之前 这种方法一直运行良好 整
  • 如何分割日语文本?

    使用 Java 分割日语文本的最佳方法是什么 例如 对于以下文本 私 名前 私 行 我需要以下输出 私 名前 私 行 可以使用黑字吗 您可以使用java text BreakIterator String TEXT 私 名前 私 行 Bre
  • Azure 搜索是否提供 Etag 来管理添加、更新或删除文档的并发性?

    如何管理 Azure 搜索中的并发 https learn microsoft com en us azure search search howto concurrency 这里据说Azure Search提供了乐观并发模型 资源上没有锁
  • Azure 搜索和破折号

    我正在使用 Azure 搜索并尝试对文档执行搜索 看起来好像是这样做的 indexes blah docs api version 2015 02 28 search abc 1003 返回与此相同的结果 indexes blah docs
  • 日语/字符的编程技巧[关闭]

    Closed 这个问题需要多问focused help closed questions 目前不接受答案 我有一个想法 可以编写一些网络应用程序来帮助我 也许还有其他人 更好地学习日语 因为我正在学习日语 我的问题是该网站主要是英文的 所以
  • 在 C++ 中处理汉字字符

    我有一个用 C 编写的 Windows 桌面应用程序 名为 Timestamp 使用 NET 称为 CLR 我还有用本机 c 编写的 DLL 项目 名为 Amscpprest 并使用 CPPREST SDK 从服务器获取 json 数据并将

随机推荐

  • 使用 Javascript 的仅会话 cookie

    我想知道是否可以使用 Javascript 创建仅会话 cookie 当浏览器关闭时 cookies 应该被删除 我无法在服务器上使用任何内容 因为该网站仅是 HTML 所以没有使用服务器端脚本 我在这里读到了一些相关内容 http blo
  • 埃拉托斯特尼筛法 - 寻找素数 Python

    只是澄清一下 这不是作业问题 我想为我正在构建并遇到的数学应用程序找到素数埃拉托斯特尼筛法方法 我已经用 Python 编写了它的实现 但速度非常慢 比如说 如果我想找到所有小于 200 万的素数 需要 gt 20 分钟 我此时停止了 我怎
  • WPF 日历:绑定到 MVVM 命令?

    我正在将 WPF 日历连接到 MVVM 视图模型 我不确定如何将日期选择和月份更改绑定到 MVVM ICommand 对象 例如 要处理选定的日期更改 我将在 XAML 中将什么对象绑定到视图模型中相应的命令属性 据我所知 我被代码隐藏中的
  • 动态惰性列表

    大家好 我想做this懒惰者动态 我首先尝试过使用图像 但它会强制关闭 如果我的方法有误 请指导 这是代码 public class Test extends Activity ListView list LazyAdapter adapt
  • Breeze.js 混合 DTO 和实体

    在沃德的文章中 Breeze 服务器 随心所欲 典型的业务应用程序至少有 200 个领域模型 类型 90 以上的时间我通过网络发送的数据的形状 电线与我的商业模型中实体的形状相同 当客户实体的形状与实体的形状不一致时 服务器端业务实体 我可
  • Android studio - 应用程序在跨步时崩溃

    当我在调试模式下进行单步执行 快捷键 F8 时 我在 Android studio 中遇到崩溃 如果我设置断点 那么它会跳转到下一个断点 使用快捷键 F9 我遇到以下错误 A zygote jdwp handler cc 1221 Chec
  • 使用“set time_zone = ...”连接到数据库后更改时区

    我试图在连接到数据库后立即将时区更改为 欧洲 伦敦 这是我原来的代码 pdo new PDO mysql host localhost dbname exampletable exampleuser examplepassw array P
  • 从 Django 中的表单发送 DELETE 请求

    我正在尝试从 Django 中的表单发送 DELETE 请求 并从 jQuery 获取帮助 参考下面的链接 https baxeico wordpress com 2014 06 25 put and delete http request
  • 如何将依赖项注入到XUnit中的IClassFixture中?

    我正在使用 XUnit 需要在运行测试套件之前执行一些操作 所以 我尝试使用XUnit的IClassFixture功能 但我找不到将依赖项注入 Fixture 类的方法 我的代码结构如下 public class MyFixture IDe
  • 计算 gluLookAt、glOrtho 和 glFrustum

    我正在做一项绘制线框过剩标准对象的作业 这看起来很简单 但我们被告知不能使用 gluAtLook glOrtho glFrustrum 但必须使用 glTranslate glScale 和 glRotate 如何在不使用 glMatrix
  • 如何获取IP地址列表?

    我有一系列 IP 地址 1 48 0 0 1 51 255 255 如何获取IP地址列表 from struct import from socket import for ip in xrange unpack I inet pton A
  • 0 到 100 之间数字的正则表达式?

    它不应该允许前导零 例如099 允许的值应如下所示 35 99 1 2 3 100 这是我尝试过的 createCoupon discountAmount bind input propertychange function this va
  • 减少播放远程视频内容时的初始延迟

    您好 使用 MPMoviePlayerController 将视频流式传输到应用程序中 但是 加载需要很长时间 我希望能够预先缓冲视频 有什么建议么 Use MPMoviePlayerControllerInstance prepareTo
  • Python - 在对齐的列中打印 CSV 字符串列表

    我编写了一段与两者完全兼容的代码片段Python 2 and Python 3 我写的片段解析数据它构建了输出为 CSV 字符串列表 该脚本提供了一个option to 将数据写入CSV file or 将其显示给stdout 虽然我可以轻
  • 在 Python 正则表达式中指定匹配新行的不同方法

    我发现有不同的方法来匹配 python 正则表达式中的新行 例如 下面代码中使用的所有模式都可以匹配新行 str abc n123 pattern n print outputs new line pattern2 n print outp
  • 通过 svn+ssh 更改 Subversion 提交的用户名

    我在这里遇到了 Subversion 配置问题 我在本地 Linux 系统上通过 svn ssh 检查了一个项目 所以 svn info 报告的内容如下 URL svn ssh MYUSERNAME server svn project t
  • 使用 Guice 和 DAO 模式进行依赖注入

    对于我正在从事的一个小型副项目 我一直在尝试实现一些 DAO 模式来与数据库交互 并开始使用 Guice 这是我第一次 来为我处理 DI 现在我有这个类层次结构 DAOImpl接受对类类型的引用 以便我的数据库客户端 mongo morph
  • 在 R doParallel 'foreach' 中找不到函数 - { 中的错误:任务 1 失败 - “无法找到函数“raster””

    我第一次尝试在我的机构使用高性能集群 但遇到了无法解决的问题 以下代码返回错误 ptime lt system time r lt foreach z 1 length files combine cbind dopar raster lt
  • 如何在 .NET MVC 5 中存储会话数据

    我可以使用HttpContext ApplicationInstance Context使用类来存储会话数据Session功能 或者有更好的方法来做到这一点 通常 会话可作为控制器操作中的属性使用 public ActionResult I
  • 中文查询带来意想不到的高召回率

    我们对中文查询的召回率出乎意料地高 我成功地使用仅具有 2 个属性的简单数据模型重现了最小用例 复制 使用zh Hans microsoft分析器为中文产品描述定义属性DescriptionZhCn 在 DescriptionZhCn 中使