Google开源的Lyra音频编码器思考 技术

新闻就不贴了,直接贴地址

https://github.com/google/lyra

其中,libsparse_inference.so是不开源的!

这就造成了一个问题,我们没法自己训练模型,也没法调试。

行吧,自己用tensorflow再写一次。然后自己训练看看效果。

当然了,编码器那部分,并不是重点。因为我们主要考虑的是低延迟的情况下,如何解决丢包补偿问题。

Lyra是为了实现实时语音聊天功能的,例如语音电话。这里如果用TCP协议,公网环境下,会出现丢包,所以会产生TCP重传,这样就是高延迟的原因。所以,所有实时语音都是基于UDP协议的,Google的QUIC协议也是基于TCP的重传机制造成了高延迟,所以使用了UDP协议。

但是UDP会有丢包,所以都会提出PLC补偿。【如果考虑网络抖动,也可以看看Google 的NetEq开源项目】

为了模拟丢包场景,写了一个GilbertModel.我觉得这个没什么看的价值~

然后是重点wavegru_model_impl.cc

其实网络模型也很简单,比wavenet简单多了,利于在移动设备【低功耗】情况下,实时处理【推断】。

最后是训练。开源项目没有给出backward,或者train这样的方法。回去重新看了一遍论文,用的likelihood loss。我为了简单,就用了NLLLose。

还有一些细节,比如特征,量化等等,我觉得说起来就更费时间了。。~

如果有人提问,我就回答,没人提问就算了。。。

五一快乐~

3
5月3日 129 次浏览

欲参与讨论,请 登录注册

有一天晚上梦见死有余辜的阴谋家、野心家林彪了,他那被烧焦的尸体,在大漠中站立起来了,跌跌撞撞地向我走来,两只眼睛闪着蓝光,他一边走,一边操着浓浓的湖北口音说:我们都变成了烧死鬼,你怎么还没有死呀? ——江青(中国,PRC)