如何在 Bash 或 grep 或批处理中删除 HTML 文件的所有链接并将它们存储在文本文件中

2024-03-10

我有一个文件是HTML http://en.wikipedia.org/wiki/HTML，它有大约 150 个锚标记。我只需要这些标签的链接，又名，<a href="*http://www.google.com*"></a>。我只想得到http://www.google.com http://www.google.com part.

当我运行 grep 时，

cat website.htm | grep -E '<a href=".*">' > links.txt

这会将整行返回给我，它在不是我想要的链接上找到，所以我尝试使用cut http://linux.die.net/man/1/cut命令：

cat drawspace.txt | grep -E '<a href=".*">' | cut -d’”’ --output-delimiter=$'\n' > links.txt

除了它是错误的，而且它不起作用给我一些关于错误参数的错误......所以我假设该文件也应该被传递。也许喜欢cut -d’”’ --output-delimiter=$'\n' grepedText.txt > links.txt.

但如果可能的话，我想用一个命令来做到这一点......所以我尝试做一个AWK http://en.wikipedia.org/wiki/AWK命令。

cat drawspace.txt | grep '<a href=".*">' | awk '{print $2}’

但这也不会运行。它要求我提供更多意见，因为我还没有完成......

我尝试编写一个批处理文件，它告诉我 FINDSTR 不是内部或外部命令...所以我假设我的环境变量被搞乱了，而不是修复我尝试在 Windows 上安装 grep 的问题，但这给了我同样的错误....

问题是，从其中删除 HTTP 链接的正确方法是什么？HTML http://en.wikipedia.org/wiki/HTML？这样我就会让它适合我的情况。

附：我读过很多链接/Stack Overflow 帖子，显示我的参考文献会花费太长的时间...如果需要示例 HTML 来显示该过程的复杂性，那么我将添加它。

我还有一台 Mac 和 PC，我在它们之间来回切换以使用它们的 shell/batch/grep 命令/终端命令，所以或者或都会帮助我。

我还想指出我位于正确的目录中

HTML:

<tr valign="top">
    <td class="beginner">
      B03&nbsp;&nbsp;
    </td>
    <td>
        <a href="http://www.drawspace.com/lessons/b03/simple-symmetry">Simple Symmetry</a>  </td>
</tr>

<tr valign="top">
  <td class="beginner">
    B04&nbsp;&nbsp;
  </td>
  <td>
      <a href="http://www.drawspace.com/lessons/b04/faces-and-a-vase">Faces and a Vase</a> </td>
</tr>

<tr valign="top">
    <td class="beginner">
      B05&nbsp;&nbsp;
    </td>
    <td>
      <a href="http://www.drawspace.com/lessons/b05/blind-contour-drawing">Blind Contour Drawing</a> </td>
</tr>

<tr valign="top">
    <td class="beginner">
        B06&nbsp;&nbsp;
    </td>
    <td>
      <a href="http://www.drawspace.com/lessons/b06/seeing-values">Seeing Values</a> </td>
</tr>

预期输出：

http://www.drawspace.com/lessons/b03/simple-symmetry
http://www.drawspace.com/lessons/b04/faces-and-a-vase
http://www.drawspace.com/lessons/b05/blind-contour-drawing
etc.

$ sed -n 's/.*href="\([^"]*\).*/\1/p' file
http://www.drawspace.com/lessons/b03/simple-symmetry
http://www.drawspace.com/lessons/b04/faces-and-a-vase
http://www.drawspace.com/lessons/b05/blind-contour-drawing
http://www.drawspace.com/lessons/b06/seeing-values

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

bash

shell

awk

grep

cut

如何在 Bash 或 grep 或批处理中删除 HTML 文件的所有链接并将它们存储在文本文件中的相关文章

subprocess.Popen args 参数的最大长度是多少？

我在用Popen http docs python org library subprocess html using the subprocess modulesubprocess 模块中的函数来执行命令行工具 subprocess Po
bash、zsh ：声明 [*] （天哪）

我正在使用具有以下语法的 bash 脚本 declare a THIS 这在 zsh 中似乎是非法的我收到未找到匹配项 THIS 错误谁能帮我把它翻译成 zsh 吗另外什么是语法是什么意思我知道我们正在声明一个数组但为什么要
将所有脚本参数复制到另一个变量

我需要复制所有脚本参数并将它们传递给另一个脚本我尝试这样做 args printargs sh args echo printargs sh args 但在这种情况下如果我使用包含空格的参数调用我的父脚本例如 script sh ar
从重定向到日志文件的程序输出中删除进度条

我正在运行一个程序它会输出进度条我是这样做的 python train py tee train log The train log看起来像下面这样这是1号线 Training 这是2号线 000 valid 100 2630 263
shell 脚本：错误的解释器：使用 pwd 时没有这样的文件或目录

我想用 for 循环遍历目录中的文件但这出现了 echo bad interpreter No such file or directory code bin bash count 0 dir pwd echo dir FILES ls
如何使用 bash 脚本关闭所有终端，在每个终端中有效地按 Ctrl+Shift+Q

我经常打开许多终端其中一些正在运行重要的进程例如服务器而另一些则没有运行任何东西并且可以关闭如果您按重要则会弹出确认提示Cntrl Shift Q在其中如下所示我想要一个 bash 脚本它可以关闭所有终端但将重要终端
子 shell 何时继承其父 shell 环境？

什么情况下将shell的环境传递给子shell 子 shell 始终从父 shell 获取所有变量 man bash将描述所有使用子shell的情况主要是 command command command and command 所谓环境只
退出 bash 脚本但保持进程运行

我正在运行服务器需要使用参数执行以下命令这些脚本目前工作得很好但问题是当我运行脚本时我无法返回到控制台它在控制台中保持运行如果我强行停止它那么该过程也会停止我想继续运行该进程并返回到控制台 bin sh php home st
将 stdout 作为命令行 util 的文件名传递？

我正在使用一个命令行实用程序该实用程序需要传递文件名以将输出写入例如 foo o output txt 它唯一写入的东西stdout是一条消息表明它运行成功我希望能够通过管道传输写入的所有内容output txt到另一个命令行实用程
访问 bash 命令行参数 $@ 与 $*

在许多 SO 问题和 bash 教程中我发现可以通过两种方式访问 bash 脚本中的命令行参数 gt cat testargs sh bin bash echo you passed me echo you passed me 结果是 g
Linux 文本文件操作

我有一个格式的文件 a href a href a href a href 我需要选择之后但之前的文本并将其打印在行尾添加后例如 a href http www wowhead com search Su a a a a a
使用 Jenkins 运行 ios-sim

我正在尝试使用以下命令从命令行启动我的应用程序ios sim https github com downloads pegli ios sim ios sim xcode4 3 tar gz但这就是我得到的 Started by user
从 bash 脚本运行节点

很简单我正在尝试使用 cron 自动运行 nodejs 脚本但是脚本本身似乎无法运行该文件我的脚本很简单 usr bin env node node var node assets js update js 但是在运行此命令时它返
使用Sed查找并替换json字段

我有一组 json 文件其中在最后一个键值对之后有需要替换的逗号 RepetitionTime 0 72 TaskName WM Manufacturer Siemens ManufacturerModelName Skyra Magne
linux下如何获取昨天和前天？

我想在变量中获取 sysdate 1 和 sysdate 2 并回显它我正在使用下面的查询它将今天的日期作为输出 bin bash tm date Y d m echo tm 如何获取昨天和前天的日期这是另一种方法对于昨天来说 da
找不到 NGINX brew 安装命令

I do brew install nginx and get gt Downloading http nginx org download nginx 1 2 2 tar gz Already downloaded Library Cac
Bash 脚本 - 迭代 find 的输出

我有一个 bash 脚本其中需要迭代 find 命令输出的每一行但似乎我正在迭代 find 命令中的每个单词以空格分隔到目前为止我的脚本看起来像这样 folders find maxdepth 1 type d for i in f
MP4 到 DASH（bash 脚本）

我有一个网站用户可以在其中上传视频文件我想使用 DASH 流式传输所有内容以获得自适应比特率流式传输因此我编写了一个 bash 脚本由 cron 运行将所有 mp4 文件转换为 DASH 但它无法正常工作出了什么问题例如使
如何从 powershell 中设置 bash 的环境变量？

使用powershell我该如何设置 https askubuntu com q 1205227 45156 the 环境 https stackoverflow com q 5327495 262852变量这里特别 https sta
列出破折号中当前定义的函数？

我想列出当前定义的函数dash 有什么办法可以做到这一点吗我能想到的最接近的是type它可以用来测试一个函数是否存在但除此之外我很困惑附我说的是dash在这里不是bash or zsh 看看 exec c 似乎没有没有表是静态

随机推荐

如何使用react（没有NODE.js）链接/引用html文件中的多个脚本？

我正在使用react js而不使用node js 并且我想在我的html文件中链接多个脚本文件但我不能基本上这是我的代码
Cypher 加载 CSV 急切且操作持续时间长

我正在加载一个包含 85K 行的文件 19M 服务器有2个核心 14GB RAM 运行centos 7 1和oracle JDK 8 这可能需要5 10分钟使用以下服务器配置 dbms pagecache memory 8g cypher
' for dependency？' aria-label='如何修复 sbt 的 [warn] Skipped generated '' for dependency？'> 如何修复 sbt 的 [warn] Skipped generated '' for dependency？

当我跑步时makePom在 sbt 中我得到 warn Skipped generating
SecurityAgentPlugin 不再在 Yosemite 上工作 (SFAuthorizationPluginView)

我们开发了一个授权插件它使用 SFAuthorizationPluginView 向用户呈现 UI 这个例子是基于旧的名称和密码示例 https developer apple com library mac samplecode N
更新日期 + mysql 中的一年

当我想在 mysql 表中设置数值 1 时我使用例如 UPDATE table SET number number 1 WHEN 如何设置日期一年 Thanks 你可以使用DATE ADD http dev mysql com doc
在 IPython 控制台中运行内核的问题

我的 Python Spyder 软件版本 4 0 1 在 IPython 控制台中运行内核时遇到问题因此我尝试了很多方法来解决该问题例如在 Anaconda 提示符中运行一些命令或将设置设置为默认模式我什至更新了我的 anaco
如何使用 STL 算法查找 2D 数组中列值的最大值和最小值

我有一个 2D 数组整数向量的向量其中包含如下 int 值 34 19 89 45 21 34 67 32 87 12 23 18 我想找到列值而不是行值的最大值和最小值最好使用STL算法 std max element std
SQL Server 中的临时表

我正在研究在sql server 中创建临时表我成功创建了临时表但是当我尝试查看数据时它显示无效的对象名称谁能告诉敌人临时表存在多长时间如果我以 userid devloper 和 pwd 0999 身份登录到 sql serve
覆盖/更新浏览器cookie

我有一个 Express 4 x 应用程序我将 cookie 传递给浏览器 res cookie foo bar1 maxAge 99999999999 它在遥远的未来到期然而 5 分钟后我收到来自同一用户的另一个请求我想给他们一个
我们应该始终绑定 SQL 语句吗？

我一直在研究PDObindValue 我知道使用 PDO 准备 SQL 语句可以防止 SQL 注入的发生代码示例 stmt dbh gt prepare SELECT FROM articles WHERE id id AND title
在 Vite.js 项目中使用 `compilerOptions.baseUrl` ？

我正在尝试从 Create React App 迁移到 Vite js 但我遇到了导入别名问题在创建 React 应用程序中我有一个jsconfig json文件与compilerOptions baseUrl set to src 所以
填充 Pandas 数据框中两列之间的数字

我有一个带有以下几列的 Pandas 数据框 id start end 1 101 101 2 102 104 3 108 109 我想用附加行填充开始和结束之间的空白因此输出可能如下所示 id number 1 101 2 102 2
交换 NSMutableArray 中的元素

是否有任何特殊方法可以使 NSMutableArray 中的元素交换更容易或更直接交换ObjectAtIndex 与ObjectAtIndex http developer apple com library mac documentat
使用可能挂起的 API 强制取消任务

我目前正在使用串行端口并且我使用的 API 有时会挂在读取上即使设置了自己的超时也是如此这不是一个大问题但是当发生这种情况并且挂起的线程需要关闭时我需要做一些工作我已经尝试过以下操作但它一直给我带来问题因为 API 调用没有终
如何使用 fetch api 发布表单数据？

My code fetch api xxx body new FormData document getElementById form headers Content Type application x www form urlenco
如何在对象切片时生成编译器警告/错误

我想知道是否可以让编译器发出警告错误代码如下所示 Note 1 年这是不好的编程风格我们应该避免这种情况但我们正在处理遗留代码希望编译器可以帮助我们识别这种情况 2 我更喜欢使用编译器选项 VC 来禁用或启用对象切片如果有 c
从 Shiny (R) pt 下载 png。 2

这与我之前问过的一个问题有关从 Shiny R 下载 png https stackoverflow com questions 26764481 downloading png from shiny r 我现在已经创建了多个闪亮的图并下
如何将 jar 文件包含到 Oracle 中的 Java 存储过程中？

我正在实现一个存储过程现在需要能够将 jar 文件包含到我的存储过程中这些文件不属于 JRE 的标准部署我怎样才能做到这一点据我所知 Oracle 9 不可能做到这一点感谢帮助使用 loadjava 工具它也接受 jar 文件
用Python的pyaudio列出所有音频设备（portaudio绑定）

I tried import pyaudio p pyaudio PyAudio for i in range p get device count print p get device info by index i 但我没有获得所有设备
如何在 Bash 或 grep 或批处理中删除 HTML 文件的所有链接并将它们存储在文本文件中

我有一个文件是HTML http en wikipedia org wiki HTML 它有大约 150 个锚标记我只需要这些标签的链接又名 a href a 我只想得到http www google com http www goog

如何在 Bash 或 grep 或批处理中删除 HTML 文件的所有链接并将它们存储在文本文件中

如何在 Bash 或 grep 或批处理中删除 HTML 文件的所有链接并将它们存储在文本文件中 的相关文章

随机推荐

热门标签

如何在 Bash 或 grep 或批处理中删除 HTML 文件的所有链接并将它们存储在文本文件中的相关文章