Azure 认知搜索文本翻译技能 50k 字符限制

2023-12-30

我们正在使用 Azure 认知搜索来索引各种文档,例如Word 或 PDF 文件,存储在 Azure Blob 存储中。我们希望能够翻译提取的非英语文档内容,并将翻译结果存储到索引中的专用字段中。

目前,内置的文本翻译认知技能最多支持输入 50,000 个字符。我们拥有的文档最多可以包含 1 MB 的文本。根据文档,可以使用内置的分割技能将文本分割成块,但是没有任何技能可以将翻译后的块重新合并在一起。我们的目标是将所有提取的文本翻译并存储在 Edm.String 类型的一个索引字段中,而不是数组中。

除了为此目的通过 Web API 创建自定义认知技能之外,有什么方法可以在索引时翻译大文本块?


是的合并技能 https://learn.microsoft.com/en-us/azure/search/cognitive-search-skill-textmerger实际上会这样做。如下定义您的技能集中的技能。此技能的“文本”和“偏移量”输入是可选的,您可以使用“itemsToInsert”指定要合并在一起的文本(指定翻译输出的适当来源)。如果您想在每个合并部分之前或之后插入一个空格,请使用 insertPreTag 和 insertPostTag。

{
  "@odata.type": "#Microsoft.Skills.Text.MergeSkill",
  "description": "Merge text back together",
  "context": "/document",
  "insertPreTag": "",
  "insertPostTag": "",
  "inputs": [
    {
      "name": "itemsToInsert", 
      "source": "/document/translation_output/*/text"
    }
  ],
  "outputs": [
    {
      "name": "mergedText", 
      "targetName" : "merged_text_field_in_your_index"
    }
  ]
}
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Azure 认知搜索文本翻译技能 50k 字符限制 的相关文章

  • Azure 搜索 - 作为第一个或单个结果完全匹配

    我使用基于丰富的 Lucene 查询解析器语法的 Azure 搜索 我将 1 定义为距离符号的附加参数 但我面临的问题是 即使存在完全匹配 实体也没有排序 例如 blue 1 将返回 blues blue glue 或者当搜索 P002 等
  • Azure 搜索突出显示带双引号的短语

    我们有一个天蓝色的Web应用程序 其中有一个搜索框 当我们输入带双引号的文本 例如 应用程序服务 时 它会正确列出带有 应 用程序服务 的记录 但它不仅突出显示 应用程序服务 而且还突出显示 应用程序服务 以及 服务 如果单独找到它们 可以
  • 在 Azure 搜索中使用 StartsWith 进行搜索

    我有一个场景 我必须使用 Azure 搜索使用供应商名称来搜索供应商 例如 下面是供应商列表 印孚瑟斯科技有限公司 印孚瑟斯 BPM 有限公司 信息解决方案 印孚瑟斯公司技术 戴尔电脑 第一信息系统公司 我的搜索场景是 当搜索文本为Info
  • Azure 搜索是否处理同义词

    Azure 搜索 可以根据同义词进行搜索吗 例如 如果我搜索 鞋类 系统应该获取以下结果 鞋类的同义词 如鞋子 凉鞋等 我进行了很多搜索 但未能找到有关它的适当文档 我能找到的最接近的是一个帖子说它还不支持 但这是一个旧帖子 https s
  • 如何在 Azure 搜索中忽略重音符号?

    Azure 搜索是否支持某种忽略重音字符的方式 例如 如果有人搜索e它应该包括 搜索中的字符 或者我们是否需要在构建 Azure 搜索索引时添加一些转换 欢迎任何建议 谢谢 是的 请在您的现场使用 ASCII 折叠分析仪 为此 请将字段上的
  • 如何在Azure中搜索包含引号的文本(转义单引号)?

    我有一个关于 azure 搜索的查询 如下所示 results indexClient Documents Search
  • 在 Azure 搜索上上传文档后,我可以立即删除它吗?

    1 假设我使用Azure搜索API上传一个新文档 POST indexes index name docs index api version api version 2 我收到 HTTP 代码 201 的响应 文档已成功创建 3 我再次使
  • 如何使用 Azure Search Like 语法

    在我的Azure搜索中 我有两个文档 其中一列称为 描述 还有两个这样的记录 Description XARATM KONE Description ATM RCOR 我的问题是 当我使用 Azure 搜索搜索我的记录时 喜欢 https
  • Azure 认知搜索文本翻译技能 50k 字符限制

    我们正在使用 Azure 认知搜索来索引各种文档 例如Word 或 PDF 文件 存储在 Azure Blob 存储中 我们希望能够翻译提取的非英语文档内容 并将翻译结果存储到索引中的专用字段中 目前 内置的文本翻译认知技能最多支持输入 5
  • 在 azure 搜索中索引字典属性

    我有一个具有 type 属性的 DTODictionary
  • 当结果具有相同分数时在 Azure 搜索中进行分页

    我在电子商务网站上使用 Azure 搜索 现在在搜索页面上遇到分页问题 当我重新加载搜索页面时 我可以获得不同的产品顺序 因此 当我使用分页时 我可以在不同页面上看到相同的产品 这一点至关重要 我开始研究出了什么问题 我在 Microsof
  • 如何在 Azure 搜索 REST API 上使用“id”删除特定文档?

    我想知道如何删除Azure搜索索引中的特定文档 我想通过 REST API 使用 id 来删除文档 我曾寻找过 但找不到路 odata context https xxxx metadata docs value search score
  • Azure 搜索 - 推广旧数据

    我正在创建 Azure 搜索评分配置文件 在我的数据集中 我有一个Edm DateTimeOffset字段称为ExpiresOn 我正在使用这个字段来推广某些文档 为此 我使用了这样的新鲜度函数 name Aging functions t
  • 为什么分页时可能会从 Azure 搜索中获得重复的结果?

    有时在使用时Azure 搜索的分页 https learn microsoft com en us azure search search pagination page layout结果中可能存在重复的文档 下面是一个分页请求的示例 GE
  • 获取 Azure 搜索中的实际匹配数

    Azure 搜索一次最多返回 1 000 个结果 对于客户端上的分页 我想要总数匹配项 以便能够在底部显示正确数量的分页按钮 并能够告诉用户有多少结果 但是 如果超过一千个 我如何获得实际数量 我只知道有at least1 000 场比赛
  • 使用 lucene 模糊搜索和 Azure 搜索的同义词

    我希望能够同时处理模糊搜索和同义词 我尝试了多种方法 但无法使其正常工作 我的索引中有这些值 white black light dark 这个同义词规则 white light black dark 如果我执行查询queryType fu
  • Azure 搜索是否提供 Etag 来管理添加、更新或删除文档的并发性?

    如何管理 Azure 搜索中的并发 https learn microsoft com en us azure search search howto concurrency 这里据说Azure Search提供了乐观并发模型 资源上没有锁
  • Azure 搜索和破折号

    我正在使用 Azure 搜索并尝试对文档执行搜索 看起来好像是这样做的 indexes blah docs api version 2015 02 28 search abc 1003 返回与此相同的结果 indexes blah docs
  • AzureSearch-从数据源检测索引架构时出错

    我通过 REST API 在 Azure 搜索上创建了一个数据源 我使用 API 而不是门户 因为我有一个尚未在门户上处理的 rowversion 数据类型 我可以在门户上查看数据源 当我尝试将数据源导入索引时 出现以下错误 从数据源检测索
  • DotNet Core Azure 搜索 SDK - 过滤结果

    我们正在尝试将筛选器功能实现到 Azure 认知 搜索中 我希望找到一些不错的 SDK 方法来隐藏所有丑陋的部分 但到目前为止我发现的唯一示例如下 source https learn microsoft com en us azure s

随机推荐