python 使用 youtube_dl 检索自动字幕并转换为文字记录

2024-03-31

从youtube中提取的自动英文字幕包含不可读形式的信息和重复的文本信息。

welcome<00:00:01.790><c> my</c><00:00:02.790><c> name</c><c.colorCCCCCC><00:00:02.820><c> is</c><00:00:03.210><c> Helga</c></c><c.colorE5E5E5><00:00:03.449><c> Vieira</c><00:00:03.929><c> and</c><00:00:04.080><c> this</c></c>

00:00:04.670 --> 00:00:04.680 align:start position:0%
welcome my name<c.colorCCCCCC> is Helga</c><c.colorE5E5E5> Vieira and this
 </c>

My code:

def captions_test02(url):
    ydl = youtube_dl.YoutubeDL({'writesubtitles': True, 'allsubtitles': True, 'writeautomaticsub': True})
    res = ydl.extract_info(url, download=False)
    if res['requested_subtitles'] and res['requested_subtitles']['en']:
        print('Grabbing vtt file from ' + res['requested_subtitles']['en']['url'])
        response = requests.get(res['requested_subtitles']['en']['url'], stream=True)
        f1 = open("testfile01.txt", "w")
        f1.write(response.text)
        f1.close()
        if len(res['subtitles']) > 0:
            print('manual captions')
        else:
            print('automatic_captions')
    else:
        print('Youtube Video does not have any english captions')

if __name__ == '__main__':
    captions_test02("https://www.youtube.com/watch?v=tCTqNZW0wIk&t=2s")

对于获得正确的成绩单有什么建议吗？初始点：https://shkspr.mobi/blog/2018/09/convert-webvtt-to-a-transcript-using-python/ https://shkspr.mobi/blog/2018/09/convert-webvtt-to-a-transcript-using-python/

要消除时间戳并获得更好的成绩单，您可以使用正则表达式：

def captions_test02(url):
    ydl = youtube_dl.YoutubeDL({'writesubtitles': True, 'allsubtitles': True, 'writeautomaticsub': True})
    res = ydl.extract_info(url, download=False)
    if res['requested_subtitles'] and res['requested_subtitles']['en']:
        print('Grabbing vtt file from ' + res['requested_subtitles']['en']['url'])
        response = requests.get(res['requested_subtitles']['en']['url'], stream=True)
        f1 = open("testfile01.txt", "w")
        new = re.sub(r'\d{2}\W\d{2}\W\d{2}\W\d{3}\s\W{3}\s\d{2}\W\d{2}\W\d{2}\W\d{3}','',response.text)
        f1.write(new)
        f1.close()
        if len(res['subtitles']) > 0:
            print('manual captions')
        else:
            print('automatic_captions')
    else:
        print('Youtube Video does not have any english captions')

if __name__ == '__main__':
    captions_test02("https://www.youtube.com/watch?v=d1CDP6sMuLA")

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

youtubedl

python 使用 youtube_dl 检索自动字幕并转换为文字记录的相关文章

上传时的 Google Drive API——这些额外的空行从何而来？

总结一下该程序我从我的 Google 云端硬盘下载一个文件然后在本地计算机中打开并读取一个文件 file a txt 然后在我的计算机中打开另一个文件 file b txt 处于附加模式并且在使用这个新的 file b 更新我的 Go
如何使用 colorchecker 在 opencv 中进行颜色校准？

我有数码相机获取的色彩检查器图像我如何使用它来使用 opencv 校准图像按照以下颜色检查器图像操作您是想问如何进行颜色校准或如何使用 OpenCV 进行校准为了进行颜色校准您可以使用校准板的最后一行灰色调以下是您应该逐步进行
TensorFlow：带有轴选项的 bincount

在 TensorFlow 中我可以使用 tf bincount 获取数组中每个元素的计数 x tf placeholder tf int32 None freq tf bincount x tf Session run freq feed
NumPy linalg.eig

我有这个烦人的问题但我还没有弄清楚我有一个矩阵我想找到特征向量所以我写 val vec np linalg eig mymatrix 然后我得到了 vec 我的问题是当我小组中的其他人对相同的矩阵 mymatrix 做同样的事情时
在 python 3 中使用子进程

我使用 subprocess 模块在 python 3 中运行 shell 命令这是我的代码 import subprocess filename somename py in practical i m using a real fil
Python 使用 Gstreamer 访问 USB 麦克风时遇到问题，以便在 Raspberry Pi 上使用 Pocketsphinx 执行语音识别

所以Python的表现就好像它根本听不到我的麦克风发出的任何声音问题就在这里我有一个Python 2 7 假设使用的脚本Gstreamer通过以下方式访问我的麦克风并为我进行语音识别口袋狮身人面像我在用着脉冲音频我的设备是树莓派我的
“一旦获取切片就无法更新查询”。最佳实践？

由于我的项目的性质我发现自己不断地从查询集中取出切片如下所示 Thread objects filter board requested board id order by updatedate 10 但这给我带来了实际对我选择的元素进
PyTorch 给出 cuda 运行时错误

我对我的代码做了一些小小的修改以便它不使用 DataParallel and DistributedDataParallel 代码如下 import argparse import os import shutil import time
根据 Pandas 中的列表对多列进行排序

感谢有关如何根据 pandas 中的倍数列表对给定多列进行排序的任何提示如下所示 import pandas as pd sort a a d e sort b s1 s3 s6 sort c t1 t2 t3 df pd DataFra
Pandas：如何将数据框插入 Clickhouse

我正在尝试将 Pandas 数据框插入 Clickhouse 这是我的代码 import pandas import sqlalchemy as sa uri clickhouse default localhost default ch
如何从 JSON 响应重定向？

所以我尝试使用 Flask 和 Javascript 上传器 Dropzone 上传文件并在上传完成后重定向文件上传正常但在烧瓶中使用传统的重定向 return redirect http somesite com 不执行任何操作页面
Python Django-如何从输入文件标签读取文件？

我不想将文件保存在我的服务器上我只想在下一页中读取并打印该文件现在我有这个 index html
Python：我不明白 sum() 的完整用法

当然我明白你使用 sum 与几个数字然后它总结所有但我正在查看它的文档我发现了这一点 sum iterable start 第二个参数 start 的作用是什么这太尴尬了但我似乎无法通过谷歌找到任何示例并且对于尝试学习该语言的
为什么我应该使用 WSGI？

使用 mod python 一段时间了我读了越来越多关于 WSGI 有多好的文章但没有真正理解为什么那么我为什么要切换到它呢有什么好处这很难吗学习曲线值得吗为了用 Python 开发复杂的 Web 应用程序您可能会使用更全面
`pyqt5'错误`元数据生成失败`

我正在尝试安装pyqt5使用带有 M1 芯片和 Python 3 9 12 的 mac 操作系统我怀疑M1芯片可能是原因我收到一个错误metadata generation failed 最小工作示例 directly in the t
带有 RotatingFileHandler 的 Python 3 记录器超出 maxBytes 限制

我使用以下代码来限制日志文件的大小最小示例 import logging from logging handlers import RotatingFileHandler Set up logfile and message loggin
OSX 上的 locale.getlocale() 问题

我需要获取系统区域设置来执行许多操作最终我想使用 gettext 翻译我的应用程序我打算在 Linux 和 OSX 上分发它但我在 OSX Snow Leopard 上遇到了问题 python Python 2 5 2 r252 60
导入错误：无法导入名称“时间戳”

我使用以下代码在 python 3 6 3 中成功安装了 ggplot conda install c conda forge ggplot 但是当我使用下面的代码将其导入笔记本时出现错误 from ggplot import Impor
bs4 `next_sibling` VS `find_next_sibling`

我在使用时遇到困难next sibling 并且类似地与next element 如果用作属性我不会得到任何返回但如果用作find next sibling or find next 然后就可以了来自doc https www cru
tkinter：打开一个带有按钮提示的新窗口[关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案用户如何按下 tkinter GUI 中的按钮来打开新窗口我只需要非常简单的解决方案如果代码也能被解释那就太好了这

随机推荐

线程“main”中出现异常 java.lang.UnsatisfiedLinkError：java.library.path 中没有 jep

下载 jep 后我有 libjep so 文件并且我还设置了环境变量LD LIBRARY PATH in bashrc如下所示 export LD LIBRARY PATH LD LIBRARY PATH usr local lib py
允许格式化/缩进/清理 JSP 代码的 Eclipse 最好的免费插件是什么？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我知道IntelliJ有一个选项可以选择JSP文件中的所有代码右键单击然后选择格式这可以很好地格
如何在UWP中获取可用的串口？

我正在寻找可以获取 UWP 应用程序中的串行端口列表的 API 由于 System IO Ports 不适用于 UWP 您能否建议以下代码的任何替代方案 string ports SerialPort GetPortNames 首先将此项目
当类型可为空时不调用自定义模型绑定器

我有一个名为的自定义结构TimeOfDay它在视图模型中使用如下 public class MyViewModel public TimeOfDay TimeOfDay get set 我创建了一个名为的自定义模型绑定器TimeOfDayM
如何使用 Docker Compose 使用另一个容器中的命令？

我有两个 Dockerfile 一个用于 adonis 带有nodedocker hub 镜像和另一个 mongo 镜像带有mongodocker hub 镜像 mongo service 必须依赖于 adonis 服务因为我只想在启
使用 Moment.js 设置日期格式并减去天数

我想要一个变量以以下格式保存昨天的日期DD MM YYYY使用 Moment js 那么如果今天是15 04 2015 我想减去一天并有14 4 2015 我尝试过一些这样的组合 startdate moment format DD MM
忽略 Json.net 中的空字段

我有一些数据必须序列化为 JSON 我正在使用 JSON NET 我的代码结构与此类似 public struct structA public string Field1 public structB Field2 public stru
如何允许 Image nextjs 配置的所有域？

我有各种图像网址并随着时间的推移而变化图像是通过网址地址获取的而不是本地或来自私人存储为了渲染
UIImageView 中的视网膜/非视网膜图像

我的应用程序中有一个 300 x 300 大小的 UIImageView 它可以很好地显示我的图像我的图像都是 600 x 600 或更大 UIImageView 只是为我调整它们的大小我的问题是由于这些图像本质上都是视网膜图像即所
如何从容器外部调整/编辑/添加/更改 kafka docker 容器参数

我们有如下的 kafka docker 容器在 Linux redhat 7 5 上我们根据在容器上创建了 kafka 服务 https docs confluence io 5 0 0 installation docker doc
如何在 SwiftUI 中将自定义字体系列设置为整个应用程序的默认字体

在 SwiftUI 中您可以获得所有这些方便的小 Font 便利访问器例如Font caption Font title Font body etc e g VStack Text Some Title font Font title
使用 Web 服务将文档上传到共享点的最简单方法

我想上传到选定的文档从我的系统我有它的路径到 Sharepoint 上的目标路径可以是列表或文件夹我正在使用 Web 服务 C 远程访问共享点我阅读了各种解决方案例如使用 CopyIntoItems 方法但没有得到正确的示例
如何在地图应用程序中实现稳定的缩放

我正在实现一个具有点击拖动和缩放功能的应用程序类似于 Google 地图我已经设法实现平移和缩放但是缩放点当前位于坐标处0 0 放大和缩小时网格在坐标处的位置0 0保持固定而所有其他坐标都距离该点更近更远相反我希望能够实现
Firebase 分析日志事件在 Electron 的生产版本中不起作用

我用了一个firebase https www npmjs com package firebase用于使用实时数据库的软件包我想实现 firebase 分析因此我使用相同的软件包并编写分析代码 import as firebase f
尝试创建视图时出现“CREATE TABLE 语句中的语法错误”[重复]

这个问题在这里已经有答案了当我尝试在 Access 中运行以下 CREATE VIEW 语句时不断收到错误消息 CREATE TABLE 语句中的语法错误 CREATE VIEW SeanWalshOrders cNo cName st
在运行时为 JTable 创建行标题

我刚刚开始工作JTable 这是我的表示例添加行按钮将行添加到表中我想为此表创建行标题我怎样才能实现这个目标有人可以帮我吗示例表的代码是 package test import javax swing import java aw
无状态 Web 应用程序有哪些好处？

似乎一些 Web 架构师的目标是拥有一个无状态的 Web 应用程序这是否意味着基本上不存储用户会话或者还有更多的事情吗如果只是存储用户会话不这样做有什么好处减少内存使用想象一下如果谷歌存储每个用户的会话信息更容易支持服务器群
如何在SQLAlchemy中删除多个表

受到这个问题的启发如何在 SQLAlchemy 中删除表 https stackoverflow com questions 35918605 how to delete a table in sqlalchemy 我最终提出了一个问题
更改Windows下的默认套接字缓冲区大小[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我无法更改的应用程序正在丢弃一些传入的 UDP 数据包我怀疑接收缓冲区溢出是否有注册表设置可以使默认缓冲区大于 8KB From th
python 使用 youtube_dl 检索自动字幕并转换为文字记录

从youtube中提取的自动英文字幕包含不可读形式的信息和重复的文本信息 welcome lt 00 00 01 790 gt

python 使用 youtube_dl 检索自动字幕并转换为文字记录

python 使用 youtube_dl 检索自动字幕并转换为文字记录 的相关文章

随机推荐

热门标签

python 使用 youtube_dl 检索自动字幕并转换为文字记录的相关文章