我正在尝试包装一小段方便的 C++ 代码,旨在使用 VFW 在 Windows 上生成视频+音频,C++ 库存在here http://www.farbrausch.de/%7Efg/code/aviwriter/描述说:
使用 Windows 视频(因此不可移植)。如果你愿意的话很方便
快速在某个地方录制视频,而不必费力地走过
VfW 自己提供文档。
我想在 Python 上使用 C++ 库,所以我决定使用 swig 来包装它。
问题是,我在编码音频时遇到了一些问题,出于某种原因,我试图理解为什么生成的视频被破坏,音频似乎没有正确写入视频文件中。这意味着,如果我尝试使用 VLC 或任何类似的视频播放器打开视频,我会收到一条消息,指出视频播放器无法识别音频或视频编解码器。视频图像很好,所以这肯定是我将音频写入文件的方式有问题。
我附上了 swig 接口和一个小的 Python 测试,试图成为原始版本的端口c++ test http://www.farbrausch.de/%7Efg/code/aviwriter/test.cpp.
aviwriter.i
%module aviwriter
%{
#include "aviwriter.h"
%}
%typemap(in) (const unsigned char* buffer) (char* buffer, Py_ssize_t length) %{
if(PyBytes_AsStringAndSize($input,&buffer,&length) == -1)
SWIG_fail;
$1 = (unsigned char*)buffer;
%}
%typemap(in) (const void* buffer) (char* buffer, Py_ssize_t length) %{
if(PyBytes_AsStringAndSize($input,&buffer,&length) == -1)
SWIG_fail;
$1 = (void*)buffer;
%}
%include "aviwriter.h"
test.py
import argparse
import sys
import struct
from distutils.util import strtobool
from aviwriter import AVIWriter
if __name__ == "__main__":
parser = argparse.ArgumentParser()
parser.add_argument("-audio", action="store", default="1")
parser.add_argument('-width', action="store",
dest="width", type=int, default=400)
parser.add_argument('-height', action="store",
dest="height", type=int, default=300)
parser.add_argument('-numframes', action="store",
dest="numframes", type=int, default=256)
parser.add_argument('-framerate', action="store",
dest="framerate", type=int, default=60)
parser.add_argument('-output', action="store",
dest="output", type=str, default="checker.avi")
args = parser.parse_args()
audio = strtobool(args.audio)
framerate = args.framerate
num_frames = args.numframes
width = args.width
height = args.height
output = args.output
writer = AVIWriter()
if not writer.Init(output, framerate):
print("Couldn't open video file!")
sys.exit(1)
writer.SetSize(width, height)
data = [0]*width*height
sampleRate = 44100
samples_per_frame = 44100 / framerate
samples = [0]*int(samples_per_frame)
c1, s1, f1 = 24000.0, 0.0, 0.03
c2, s2, f2 = 1.0, 0.0, 0.0013
for frame in range(num_frames):
print(f"frame {frame}")
i = 0
for y in range(height):
for x in range(width):
on = ((x + frame) & 32) ^ ((y+frame) & 32)
data[i] = 0xffffffff if on else 0xff000000
i += 1
writer.WriteFrame(
struct.pack(f'{len(data)}L', *data),
width*4
)
if audio:
for i in range(int(samples_per_frame)):
c1 -= f1*s1
s1 += f1*c1
c2 += f2*s2
s2 -= f2*c2
val = s1 * (0.75 + 0.25 * c2)
if(frame == num_frames - 1):
val *= 1.0 * (samples_per_frame - 1 - i) / \
samples_per_frame
samples[i] = int(val)
if frame==0:
print(f"i={i} val={int(val)}")
writer.WriteAudioFrame(
struct.pack(f'{len(samples)}i', *samples),
int(samples_per_frame)
)
writer.Exit()
我不认为samples
生成不正确,因为我已经将 python 端生成的值与 c++ 端生成的值进行了比较,但只是为帧 0 写入的数据包。
我对问题的一些怀疑是我在 swig 上创建类型映射的方式,也许这不好......或者也许问题就在一线writer.WriteAudioFrame(struct.pack(f'{len(samples)}i', *samples), int(samples_per_frame))
,我不知道会发生什么,我将音频缓冲区从 Python 发送到 C++ 包装器的方式肯定不好。
那么,您知道如何修复附加的代码,以便 test.py 将能够生成具有正确音频的视频,类似于 C++ 测试吗?
生成成功后,视频将显示一个神奇的滚动棋盘,并以催眠的正弦波作为音频背景:D
补充笔记:
-
上面的代码好像没有使用writer.SetAudioFormat
这是功能所需要的AVIFileCreateStreamA
and AVIStreamSetFormat
。问题是我不知道如何在 swig 上导出这个结构,这样我就可以像在 Python 上一样使用它test.cpp
,从 Mmreg.h 我看到结构如下所示:
typedef 结构 tWAVEFORMATEX
{
WORD wFormatTag; /* 格式类型/
WORD nChannels; /通道数(即单声道、立体声...)/
DWORD nSamplesPerSec; /采样率/
DWORD nAvgBytesPerSec; /用于缓冲区估计/
WORD nBlockAlign; /数据块大小/
WORD wBitsPerSample; /单声道数据每个样本的位数/
WORD cbSize; /大小的字节数
额外信息(cbSize之后)*/
} 波形格式;
不幸的是我不知道如何在 aviwriter.i 上包装这些东西?我尝试过使用 %include windows.i 并将这些内容直接包含在块上%{
...%}
但我得到的只是一堆错误:/
-
我不想修改 aviwriter.h && aviwriter.cpp ,因为这基本上是外部工作代码。
-
假设我能够包裹WAVEFORMATEX
所以我可以在Python上使用它,你如何使用memset类似于test.cpp
? ie: memset(&wfx,0,sizeof(wfx));