给定文档，选择相关片段

2024-05-21

当我在这里提出问题时，自动搜索返回的问题的工具提示给出了问题的前一点，但其中相当一部分没有给出任何比理解问题更有用的文本。标题。有谁知道如何制作一个过滤器来删除问题中无用的部分？

我的第一个想法是修剪仅包含某个列表中的单词的任何前导句子（例如，停用词，加上标题中的单词，加上 SO 语料库中与标签相关性非常弱的单词，也就是说，它们同样可能出现在任何问题中，无论其标签如何）

自动文本摘要

听起来你有兴趣自动文本摘要 http://en.wikipedia.org/wiki/Automatic_summarization。要全面了解该问题、所涉及的问题以及可用的算法，请查看 Das 和 Martin 的论文自动文本摘要综述 http://www.cs.cmu.edu/~nasmith/LS2/das-martins.07.pdf (2007).

简单的算法

一种简单但相当有效的摘要算法是从原始文本中选择有限数量的包含最频繁内容词的句子（即最频繁的句子不包括停止列表 http://en.wikipedia.org/wiki/Stop_words字）。

Summarizer(originalText, maxSummarySize):
   // start with the raw freqs, e.g. [(10,'the'), (3,'language'), (8,'code')...]
   wordFrequences = getWordCounts(originalText)
   // filter, e.g. [(3, 'language'), (8, 'code')...]
   contentWordFrequences = filtStopWords(wordFrequences)
   // sort by freq & drop counts, e.g. ['code', 'language'...]
   contentWordsSortbyFreq = sortByFreqThenDropFreq(contentWordFrequences)

   // Split Sentences
   sentences = getSentences(originalText)

   // Select up to maxSummarySize sentences
   setSummarySentences = {}
   foreach word in contentWordsSortbyFreq:
      firstMatchingSentence = search(sentences, word)
      setSummarySentences.add(firstMatchingSentence)
      if setSummarySentences.size() = maxSummarySize:
         break

   // construct summary out of select sentences, preserving original ordering
   summary = ""
   foreach sentence in sentences:
     if sentence in setSummarySentences:
        summary = summary + " " + sentence

   return summary

使用此算法进行摘要的一些开源包是：

Classifier4J（Java）

如果您使用 Java，则可以使用分类器4J http://classifier4j.sourceforge.net/的模块简单摘要器 http://classifier4j.sourceforge.net/subprojects/core/apidocs/net/sf/classifier4J/summariser/SimpleSummariser.html.

使用发现的例子here http://classifier4j.sourceforge.net/usage.html#Using_ISummariser，我们假设原文是：

Classifier4J is a java package for working with text. Classifier4J includes a summariser. A Summariser allows the summary of text. A Summariser is really cool. I don't think there are any other java summarisers.

如以下代码片段所示，您可以轻松创建一个简单的一句话摘要：

// Request a 1 sentence summary
String summary = summariser.summarise(longOriginalText, 1);

使用上面的算法，这将产生Classifier4J includes a summariser..

N 分类器 (C#)

如果您使用 C#，则有一个 Classifier4J 到 C# 的端口，称为N分类器 http://nclassifier.sourceforge.net/

Tristan Havelick 的 NLTK 总结器 (Python)

Classifier4J 的摘要器有一个正在开发中的 Python 端口，使用 Python 构建自然语言工具包（NLTK） http://www.nltk.org/可用的here http://groups.google.com/group/nltk-dev/browse_thread/thread/a95f5ee53b020478?pli=1.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

给定文档，选择相关片段的相关文章

解释 scipy.stats.entropy 值

我正在尝试使用scipy stats 熵来估计库尔巴克莱布勒 KL 两个分布之间的散度更具体地说我想使用 KL 作为衡量标准来确定两个分布的一致性但是我无法解释 KL 值例如 t1 numpy random normal 2 5
Python statsmodel.api 逻辑回归 (Logit)

所以我尝试使用 python 的 statsmodels api 对二进制结果进行逻辑回归进行预测我按照教程使用 Logit 当我尝试对测试数据集进行预测时每个记录的输出都是 0 到 1 之间的小数它不应该给我零和一吗或者我是否必须
如何使用 R 或 PowerShell 从文本文件中提取数据？

我有一个包含如下数据的文本文件 This is just text Username SOMETHI C Text Account DFAG Finish time 1 JAN 2011 00 31 58 91 Process ID 202
使用 scipy、python、numpy 进行非线性 e^(-x) 回归

下面的代码为我提供了一条最佳拟合线的平坦线而不是沿着 e x 模型的一条适合数据的漂亮曲线谁能告诉我如何修复下面的代码以使其适合我的数据 import numpy as np import matplotlib pyplot as pl
在 SQL Server 中通过标准差消除异常值

我试图通过标准差消除 SQL Server 2008 中的异常值我只想要特定列中包含该列平均值的 1 标准差范围内的值的记录我怎样才能做到这一点如果您假设事件呈钟形曲线分布则只有 68 的值与平均值相差 1 个标准差以内 95 的值
如何定义“f_n-chi-square”函数并使用“uniroot”求置信区间？

I want to get a 95 confidence interval for the following question 我已经写了函数f n在我的 R 代码中我首先使用 Normal 随机采样 100 个样本然后定义函数h
计算互相关函数？

In R 我在用ccf or acf计算成对互相关函数以便我可以找出哪个移位给我带来最大值从它的外观来看 R给我一个标准化的值序列 Python 的 scipy 中是否有类似的东西或者我应该使用fft模块目前我正在这样做 xcor
除非 POS 显式，否则 WordNetLemmatizer 不会返回正确的引理 - Python NLTK

我正在对 Ted 数据集成绩单进行词形还原我注意到一些奇怪的事情并非所有单词都被词形还原要说的是 selected gt select 哪个是对的然而 involved gt involve and horsing gt horse
验证 Transformer 中多头注意力的实现

我已经实施了MultiAttention head in Transformers 周围有太多的实现所以很混乱有人可以验证我的实施是否正确 DotProductAttention 引用自 https www tensorflow org
Python模块可以访问英语词典，包括单词的定义[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 python 模块它可以帮助我从英语词典中获取单词的定义当然有enchant 这可以帮助我检查该单词是否存在于英语中
给定文档，选择相关片段

当我在这里提出问题时自动搜索返回的问题的工具提示给出了问题的前一点但其中相当一部分没有给出任何比理解问题更有用的文本标题有谁知道如何制作一个过滤器来删除问题中无用的部分我的第一个想法是修剪仅包含某个列表中的单词的任何前导句子例如
使用 SciKit-learn 和大型数据集进行文本分类

首先我昨天开始学习Python 我正在尝试使用 SciKit 和大型数据集 250 000 条推文进行文本分类对于该算法每条推文都将表示为 4000 x 1 向量因此这意味着输入为 250 000 行和 4000 列当我尝试在
如何使用动词时态/语气制作稀疏匹配器模式？

我一直在尝试使用动词时态和情绪为 spacy 匹配器创建一个特定的模式我发现了如何使用 model vocab morphology tag map token tag 访问使用 spacy 解析的单词的形态特征当动词处于虚拟语气模式
从 Penn Treebank 格式的文本中提取子句

说我有一句话 After he had eaten the cheese Bill went to the grocery 在我的程序中我得到以下输出 PARSE TREE ROOT S SBAR IN After S NP PRP he
与heroku配合使用的统计引擎

我有一个 Heroku Rails 应用程序需要处理一些重要的数字并且我需要使用像 R 这样的统计库更糟糕的是 MatLab 我正在寻找以下任何问题的答案是否有不需要二进制文件的功能齐全的统计包 GEM 是否可以将 R 二进制文件作
了解单目标迷宫的 A* 启发式

我有一个像下面这样的迷宫 P
字符串在哪些地方比 StringBuilder 更有用？

关于字符串和字符串生成器之间的差异已经提出了很多问题大多数人认为字符串生成器比字符串更快我很想知道字符串生成器是否太好了那么为什么字符串会存在呢此外有人可以给我一个例子其中字符串比字符串生成器更有用吗 StringBuilder
MySQL 将表的校验和存储在另一个表中

语境我们有包含大量表的大型数据库他们中的大多数 99 都使用innodb 我们希望有一个日常流程来监视哪个表已被修改当他们使用 innodb 的值时Update time from SHOW table STATUS from inf
将 R 中的时间数据绘制为各种分辨率（分钟、小时、秒等）

我有一些 CSV 数据例如 Timestamp Count 2009 07 20 16 30 45 10 2009 07 20 16 30 45 15 2009 07 20 16 30 46 8 2009 07 20 16 30 46 6
有条件地为 R 中置信带之外的数据点着色

我需要对下图中置信带之外的数据点与带内的数据点进行不同的着色我是否应该在数据集中添加一个单独的列来记录数据点是否在置信区间内您能举个例子吗示例数据集 Dataset from http www apsnet org education

随机推荐

查找总和为给定数字的值组合的函数

这个帖子查找提供的 Sum 值的组合 https stackoverflow com a 20194023 1561176呈现函数subsets with sum 它在数组中查找总和等于给定值的值的组合但由于这个帖子已经有6年多了我发这
Bootstrap 3 / 显示模式不适用于 javascript 方式

我用Modal http getbootstrap com javascript modalsBootstrap 3 0 的功能我有这个代码 a href myNestedContent Open the modal containing
如何为不同操作系统/Python 版本编译 Python C/C++ 扩展？

我注意到一些成熟的Python库已经为大多数架构 Win32 Win amd64 MacOS 和Python版本提供了预编译版本针对不同环境交叉编译扩展的标准方法是什么葡萄酒虚拟机众包我们使用虚拟机和Hudson http hud
在 VS2008 的 XAML 编辑器中禁用 Intellisense？

有没有办法在 Visual Studio 2008 的 XAML 编辑器中禁用 Intellisense 打字时通常会消耗很大的性能有时我会等待十秒或更长时间直到列表自动弹出似乎在选项 gt 文本编辑器 gt XAML 中 Inte
查询联系人 - 有时返回空游标

我正在尝试查询联系人的显示名称 Override public void onActivityResult int requestCode int resultCode Intent data switch requestCode case
Swing：创建可拖动组件...？

我在网上搜索了可拖动 Swing 组件的示例但我发现示例不完整或不起作用我需要的是一个摇摆组件那可以是dragged通过鼠标在另一个组件内被拖拽的时候应该已经改变它的位置而不仅仅是跳到目的地我很欣赏无需非标准 API 即
如何检查设备上是否安装了文本转语音 (TTS) 的特定语言数据？

我正在创建一个使用文本转语音的应用程序我希望用户能够离线使用它因此我检查设备上是否安装了 TTS 数据以下是执行此操作的代码 Check tts data is installed Intent checkTTSIntent new
RichFaces 应用程序，我应该使用 rich:dataTable 还是 jQGrid，优缺点吗？

继从here https stackoverflow com questions 3899649 ok to wrap jsf components generated html with own divs using jquery aft
如何调试 Gulp 任务？

如何调试我的中定义的 gulp 任务gulpfile js使用诸如 Google Chrome 调试器之类的调试器逐行单步执行任务的代码对于 Node js 6 3 版本您可以使用 inspect flag https nodejs o
在 javascript 中使用 xPath 解析具有默认命名空间的 XML

我需要创建一个 XML xPath 解析器所有解析都必须在客户端进行使用 JavaScript 我创建了一个 javascript 来执行此操作在默认名称空间发挥作用之前一切看起来都正常我根本无法查询具有默认命名空间的 XML 我
C++ Boost ASIO 简单的周期性定时器？

我想要一个非常简单的周期性计时器每 50 毫秒调用我的代码我可以创建一个始终休眠 50 毫秒的线程但这很痛苦我可以开始研究用于制作计时器的 Linux API 但它不可移植 I d like使用升压我只是不确定这是否可能 boost
ggplot2 的 fortify 函数出错

我在 ggplot2 中使用 fortify 方法时收到此错误 Error in function classes fdef mtable unable to find an inherited method for function pr
在门户中查看 Azure WebJob 计划？

我创建了一个简单的 Azure WebJob 并通过 Visual Studio 集成制定了每天运行一次的计划我已经部署了 WebJob 并看到它列在我在 Azure 上的应用程序中 schema http schemastore org
Apache Beam Pipeline 写表后查询表

我有一个 Apache Beam Dataflow 管道它将结果写入 BigQuery 表然后我想查询该表以获取管道的单独部分但是我似乎无法弄清楚如何正确设置此管道依赖性我编写的新表然后想要查询与一个单独的表连接以进行某些过滤
嵌入式二进制资源 - 如何枚举嵌入的图像文件？

我按照中的说明进行操作这本书 http www apress com book view 9781430225492 关于资源等的章节我不太明白的是如何替换它 images Add new BitmapImage new Uri Ima
以 Rails 形式处理 MongoMapper EmbeddedDocument

首先我对一般编程和 Rails 都是新手我选择 Rails 是因为它看起来是一种很容易上手的语言对于我的项目我将 MongoMapper 与 Rails 结合使用我正在尝试以与文档相同的形式处理嵌入文档我有以下模型 class
在 for 循环比较中使用集合大小

Java 中 Collections 的 size 方法是否有编译器优化考虑以下代码 for int i 0 i
根据列中的部分字符串匹配选择数据框行

我想根据列中字符串的部分匹配从数据框中选择行例如列 x 包含字符串 hsa 使用sqldf if它有一个like语法我会做类似的事情 select from lt gt where x like hsa 很遗憾 sqldf不支持该语法
小于或等于

使用暂停命令我发现错误位于此代码的第一行 if choice 1 if energy gt m2enc set a enemhp enemhp m1hpd earmr pause set a energy energy m1enc set
给定文档，选择相关片段

当我在这里提出问题时自动搜索返回的问题的工具提示给出了问题的前一点但其中相当一部分没有给出任何比理解问题更有用的文本标题有谁知道如何制作一个过滤器来删除问题中无用的部分我的第一个想法是修剪仅包含某个列表中的单词的任何前导句子例如

给定文档，选择相关片段

给定文档，选择相关片段 的相关文章

随机推荐

热门标签

给定文档，选择相关片段的相关文章