家电论坛

京东旗舰店
 注册  找回密码

QQ登录

只需一步,快速开始

手机号码,快捷登录

查看: 19743|回复: 78

[MD] 软件角度再分析下MD哪种录音方式更好

  [复制链接]

10

主题

539

帖子

0

威望

初级会员

Rank: 2Rank: 2

交易诚信度
0
注册时间
2022-11-13
发表于 2023-3-19 00:58 | 显示全部楼层 |阅读模式

马上注册 家电论坛,众多有奖活动等你来参与!

您需要 登录 才可以下载或查看,没有账号?注册

x
本帖最后由 stchris666 于 2023-3-19 01:17 编辑

感觉讨论这方面内容的论坛帖子很多,

本来觉得已经相当透彻了,直到最近折腾的时候偶然有一些新发现,
于是就想结合发现、理论、实践和专业,把相关内容写下来。

先放张图,目的是吸引大家往下看(后面的内容可能有很长一段比较枯燥)。
但是请注意这张频谱图里的歌曲刻意选择的,而不是随机的一首。
这跟后续要说明的理论、实践有非常大的关系,不用怀疑,这个高频几乎超过20khz的效果确实是MD录制的
Snipaste_2023-03-19_00-33-17.png

研究这个问题的起因是最近都在折腾Web MiniDisc Pro这个软件(用过的人都说好),
用过的人都知道,这个软件有个编码器(encoder)选项,分别是开源的atracdenc和远程的“Remote ATRAC Encoder”。

作为一个有职业病又有强迫症的软件狗,本能的当然是想挑个好用的咯,然后就开始研究两个东西的区别。
atracdenc没啥好说的,项目代码都在github上,有兴趣的可以自己翻来看,实现方案是ATRAC1(SP),
而且ATRAC3(LP)的实现还没有完成。

这个Remote ATRAC Encoder服务就很微妙了,代码只是个壳,
号称包装的是SonicStage或者Sony的PSP SDK里挖出来的at3tool编码器(或其他任何可以调用的encoder编码器)。
SS软件没啥好说的,但是这个at3tool编码器给了我一点“更牛逼的encoder”的幻想空间。

大家都知道ATRAC是有损编码,但是实际操作中影响这个“损”的因素是很微妙的,
客观的说,对“损”的直接反应就是频谱图,也就是对声音数据的时域频域还原程度(fidelity,保真度,就是HiFi后面这个Fi)。
如果频谱图一致,甚至接近,那么可以认为至少在数据上是没有损失或损失很小的,这个也是本次讨论的前提。

(手滑,未完待续)

回复

使用道具 举报

10

主题

539

帖子

0

威望

初级会员

Rank: 2Rank: 2

交易诚信度
0
注册时间
2022-11-13
 楼主| 发表于 2023-3-19 10:04 | 显示全部楼层
本帖最后由 stchris666 于 2023-3-19 14:54 编辑

(接上贴)

实际上我翻箱倒柜搞到了这个所谓的PSP SDK里挖出来的at3tool,效果后面会说到。



建议对此有兴趣的朋友都去看一看Sony当年在AES期刊上发表的著名论文:
ATRAC: Adaptive Transform Acoustic Coding for MiniDisc
也就是ATRAC格式的理论基础,结合编码器后面测试的结果配图,就不难理解一些现象了。


首先我们要理解,根据上面论文的内容,ATRAC格式的编码压缩的理论基础,在于建立声学模型和等频响曲线,
同时创造性的把频率分成若干个子带,分别进行压缩编码。

前期 ATRAC 也就是所谓的 SP,完整名字是 ATRAC (1) (versions 1.0–4.5, Type R/S)

0 到 5.5125 kHz
5.5125 到 11.025 kHz
11.025 到 22.05 kHz

后期为:

0 to 2.75625 kHz
2.75625 to 5.5125 kHz  
5.5125 to 11.025 kHz  
11.025 to 22.05 kHz  

也就是ATRAC3,俗称LP2/LP4

按论文所述,ATRAC格式压缩掉的音频成分有2个:
音频压缩时所产生的噪音;依据心理声学原理在回放时不敏感的时频域成分

把频率分成若干个子频带进行压缩的主要目的是后者,
编码算法需要挑出音乐哪些部分是需要被精确描述的,哪些部分是可以被压缩的,这就是所谓的Adaptive的由来。
换句话说,只有音乐本身在某个频段中带有需要被精确记录的部分才会被编码器编码进来,其他的会被扔掉,或者扔掉一部分。


因此(敲黑板划重点)只有挑选测试的音乐材料本身在高频段(超过11.025kHz)有需要被记录的信息的时候,才会在压缩后的ATRAC文件里的高频段体现出来。

至于被压缩掉的标准,其实很难说,可能是因为前述的数码压缩噪音,
可能是因为心理声学不敏感,也可能是因为本身那个地方中低频的声音音量很大,高频被掩盖,于是编码算法就扔掉一部分了



回复 支持 反对

使用道具 举报

10

主题

539

帖子

0

威望

初级会员

Rank: 2Rank: 2

交易诚信度
0
注册时间
2022-11-13
 楼主| 发表于 2023-3-19 11:01 | 显示全部楼层
本帖最后由 stchris666 于 2023-3-19 12:23 编辑

(接上)


说到这里大家应该懂了,一楼的那张频谱图为什么我强调是“特意挑选过的”。
众所周知人声和绝大部分器乐的典型频率都在15k范围内(去掉泛音因素),
而电音人声和器乐经过合成处理,典型频率很容易超过这个范围,所以其实一楼的频谱图是首初音的电音曲。

好,理论部分说完了,在选择的测试曲典型频率较高的前提下进行编码器效果的测试,接着上编码器对比结论。
对比分三组:
1. ATRAC(1)编码器,最高码率292kbps:开源atracdenc(软件)、ATRAC(无Type-R/S机型)光纤 R55(硬件)、ATRAC TypeR/S机型光纤N910(硬件)
(手头没Panasonic和Sharp的录放,否则可以比一下其他厂家自研硬件编码器和Sony自家的如何,也没有老版本SS,否则可以对比一下老版本SS里的ATRAC编码器效果如何)
2. ATARC3编码器(LP2),最高码率132kbps:基于PSP SDK的at3tool编码器(软件),SS老内核编码器(软件),论坛里新SS内核编码器(软件。这个是后来看到帖子加的,还搞了虚拟机安装),WMD pro的远程LP2转码器,ATRAC3 TypeR/S机型光纤N910(硬件)


先放一张WAV文件基准图:

电音音乐WAV基准图

电音音乐WAV基准图

回复 支持 反对

使用道具 举报

10

主题

539

帖子

0

威望

初级会员

Rank: 2Rank: 2

交易诚信度
0
注册时间
2022-11-13
 楼主| 发表于 2023-3-19 11:34 | 显示全部楼层
本帖最后由 stchris666 于 2023-4-21 20:50 编辑

(一张张比较麻烦。。。直接截图拼版了)
对比1. ATRAC(1)编码器,最高码率292kbps:
从左到右依次为: 开源atracdenc(软件)、ATRAC(无Type-R/S机型)光纤 R55(硬件)、ATRAC TypeR/S机型光纤N910(硬件)、更新:通过WMP导入的ATRAC文件(经@lyuanstone 提醒,去试了下WMP通过NET导入的ATRAC文件)
可以看到的是开源软件的编码器明显不行,在16kHz左右就已经接近极限了,


上面这部分是我想当然了,以为WMP集成了atracdenc就会直接用来做编码器,
但返回去挖了下WMP的官方文档,WMP的SP确实是直接用WAV通过硬件编码器进行编码的,
只有LP2是用软件进行预编码,WMP集成atracdenc的目的是解码不是软件编码。
可能之前导出的频谱文件被我弄错文件名,又补了一张在最后,可以看到NET SP跟光纤没有区别,
谢 @lyuanstone 提醒指正。

R55和N910的频谱就比较微妙,在19kHz的时候表现几乎没有区别,
超过19khz的部分带Type-S的N910略微好一些(生成的文件也略微大了几k)
生成文件大小分别为8.08MB、8.20MB、8.25MB
所以三者里SP格式录音最佳方案是: WMP走NET,或者光纤+Type-S硬件编解码器,当年Sony吹的台机下放技术并非虚言

特别那个年代PC性能还不太行的情况下,硬件encoder效果普遍其实都好于软件,
如果有哪位有旧版的SS软件(能直接压缩SP,不知道有没有)还能运作的话可以试试 。

20230421,补张DR77的,可以看到Sharp的SP硬件编码器和Sony的接近,
但是开头0:20到0:40这段保留的信息明显比Sony的好一些保留的频率更多些
文件却是这几个硬件编码器生成文件里最小的,只有8.17MB,可见Sharp确实有一套

顺便一说,1楼的图就是第三张

ATRAC1

ATRAC1



更新通过WMP导入又导出的aea文件:
Snipaste_2023-03-19_17-44-20.png


补上台机的光纤SP(带typeS),跟我想的差不多,但是19kHz以后的部分比便携略饱满些:
Snipaste_2023-03-19_20-06-27.png

Sharp DR77的频谱图:

DR77

DR77





回复 支持 反对

使用道具 举报

10

主题

539

帖子

0

威望

初级会员

Rank: 2Rank: 2

交易诚信度
0
注册时间
2022-11-13
 楼主| 发表于 2023-3-19 11:54 | 显示全部楼层
对比2. ATARC3编码器(LP2),最高码率132kbps:基于PSP SDK的at3tool编码器(软件),SS老内核编码器(软件,版本5.0.00.11280),论坛里新SS内核编码器(软件。版本: 9.3.01.03100,这个是后来看到帖子加的,还搞了虚拟机安装),WMD pro的远程LP2转码器,ATRAC3 TypeR/S机型光纤N910(硬件)



下图依次为:基于PSP SDK的at3tool编码器(软件),SS老内核编码器(软件),ATRAC3 TypeR/S机型光纤N910(硬件)
可见最拉跨的是我一开始最期待的PSP SDK里挖出来的at3tool,直接简单暴力截断到15kHz;而SS老内核编码器和硬件编码器的表现几乎完全一致
2222.png

下图依次为:
WMD pro的远程LP2转码器(软件,未知),论坛里新SS内核编码器(软件。版本: 9.3.01.03100)
可以看到WMD pro远程未知编码器表现跟上图的PSP SDK at3tool的频谱表现完全一致,
所以远程编码器很可能用的也是Sony的at3tool(可能为了回避版权问题,才有此包装,大家都知道Sony其实是个法务公司)
而SS新内核的AT3编码器表现其实跟老内核、光纤录音是一致的,猜想是因为后期Sony的重点都在HiMD上,
更新的算法内容已经无关老AT和AT3了,主要是HiMD上使用的新的ATRAC3 pro
3333.png
回复 支持 反对

使用道具 举报

10

主题

539

帖子

0

威望

初级会员

Rank: 2Rank: 2

交易诚信度
0
注册时间
2022-11-13
 楼主| 发表于 2023-3-19 12:21 | 显示全部楼层
本帖最后由 stchris666 于 2023-3-19 20:18 编辑

所以按已知的这些对比(其实还比了同样带Type-S的N710,不过跟910一样,就没放图),结论如下:


1. SP状态下:开源软件 < 硬件光纤=NET <= 硬件Type-S光纤=NET  补充:WMP硬件NET导入质量取决于硬件编码器
2. LP2状态下:Sony at3tool==开源程序 < SS编码 == 硬件光纤

另外之前还看到一个帖子写了件有趣的事情,不管LP2频谱质量如何,它的文件大小是一样的,
特意查了一下,ATRAC3编码的时候为了提升编解码速度,用了fixed-length transform,
也就是定长转换,而优化利用了另外一种gain control技术,生成另一块data,在回放时用gain control data进行重建。
猜想一方面是提升编解码速度,另一方面可以控制文件大小(毕竟2000年时代存储还是比较昂贵的,而MD盘本身容量也有限),
所以并不是写了垃圾数据,而是编码压缩掉的部分为了保证文件定长,直接留空了。


至于PSP at3tool出来的LP2为啥这么拉跨,其实我也不知道,目测是因为PSP/PS3(是的,为了折腾我还特意去下了个6GB的PS3 SDK开发包),
本身毕竟个游戏机,重点不在音乐回放上,而且它的重点格式是ATRAC3  Pro(跟HiMD的HiSP一致的格式),
为了保证编解码速度,又不损失太多听感的情况下,直接削掉了15k以上的高频部分(注意刚才说的人声器乐发声的频谱范围),
或者删掉了对老格式的编码优化程序,
也可能是分属SCE不同部门,所以并没有加入SS的优化代码,
原因只有Sony的程序员能回答了。


后续的话可能再试试台机光纤的录音效果,不过从上面的情况下看应该也没有太离谱的情况,
SP的频谱取决于台机是否带了Type-R/S,LP2只要不是机器本身数字电路部分有问题,效果也应该基本一致


当然,以上结论只是针对编码器,以编码后的文件是否最大程度保留信息有关,跟听感的关系就耳听为实了,
在此我仍然要强调一下心理声学也是听感的一部分。



最后值得一提的是LP和Type-R/S在回放的时候有硬件加成。

点评

感谢楼主多角度的分析,但是还有一点,并不是只看15K以上被砍掉的部分,其实还是要理解一下为什么软编码会砍掉15K以上,准确的说不是15K以上被砍掉,而是11K以上都大量压缩和损失掉了。为了有更多的空间留给其他频段  详情 回复 发表于 2023-5-22 10:04
回复 支持 反对

使用道具 举报

10

主题

539

帖子

0

威望

初级会员

Rank: 2Rank: 2

交易诚信度
0
注册时间
2022-11-13
 楼主| 发表于 2023-3-19 12:22 | 显示全部楼层
好吧,写得我累死了。。。。
回复 支持 1 反对 0

使用道具 举报

18

主题

900

帖子

1

威望

中级会员

Rank: 3Rank: 3Rank: 3

交易诚信度
1
注册时间
2009-4-11
发表于 2023-3-19 15:15 | 显示全部楼层
本帖最后由 lyuanstone 于 2023-3-19 15:18 编辑

支持+点赞

web.minidisc.wiki传的sp是哪一种? 看net机带的type r/s嘛?

是不是lp2无脑换ss传就行了,wmp的lp2拉跨是吗

点评

type R/S其实根net没啥关系,本身就是音频处理DSP芯片,跟SP的光纤录制有关系 目前看NET复制是不经过硬件DSP处理的(否则也达不到光纤录入好几倍的速度) WMP的LP2远没有SS转换的好,15kHz以上的基本一刀切  详情 回复 发表于 2023-3-19 15:33
web.minidisc.wiki 网站上的API接口没有SP选项,应该也是atracdenc转换的,网站的接口只是针对LP2和LP4的,直接网页上就可以试在线 https://atrac.minidisc.wiki/docs#/  详情 回复 发表于 2023-3-19 15:25
回复 支持 反对

使用道具 举报

24

主题

188

帖子

1

威望

初级会员

Rank: 2Rank: 2

交易诚信度
0
注册时间
2012-2-8
发表于 2023-3-19 15:16 | 显示全部楼层
sp和lp 到底音质差别多少!  在net 电脑刻录的情况下!

点评

NET传都是软件预转的,预转的话看这样子15kHz以下的区别不大,大于15kHz的部分LP2明显更好些  详情 回复 发表于 2023-3-19 15:29
回复 支持 反对

使用道具 举报

10

主题

539

帖子

0

威望

初级会员

Rank: 2Rank: 2

交易诚信度
0
注册时间
2022-11-13
 楼主| 发表于 2023-3-19 15:25 | 显示全部楼层
lyuanstone 发表于 2023-3-19 15:15
支持+点赞

web.minidisc.wiki传的sp是哪一种? 看net机带的type r/s嘛?

web.minidisc.wiki  网站上的API接口没有SP选项,应该也是atracdenc转换的,网站的接口只是针对LP2和LP4的,直接网页上就可以试在线
https://atrac.minidisc.wiki/docs#/

点评

SP的编码完全是硬件算法,SONY自己从来没有软件化过,ATRAC3后才有了软件编码器。web.minidisc.wiki的外部编码器就是at3tool,github上有写,你可以自己用docker运行一个外部编码器。  详情 回复 发表于 2023-5-22 10:18
最初platinumMD和webminidisc.wiki 他们测试 把录好的碟用声卡采集文件对比 跟机子光纤录音的波形一致,认为是软件传输wav,由机内编码录到碟上,等同机子的光纤录音水平 对比的波形区别在于不同的net机,不同品  详情 回复 发表于 2023-3-19 15:32
回复 支持 反对

使用道具 举报

10

主题

539

帖子

0

威望

初级会员

Rank: 2Rank: 2

交易诚信度
0
注册时间
2022-11-13
 楼主| 发表于 2023-3-19 15:29 | 显示全部楼层
minidisc1 发表于 2023-3-19 15:16
sp和lp 到底音质差别多少!  在net 电脑刻录的情况下!

NET传都是软件预转的,预转的话看这样子15kHz以下的区别不大,大于15kHz的部分LP2明显更好些

点评

所以说ss建议直接lp2 plmd lp2但愿和ss音质不相上下!  详情 回复 发表于 2023-3-19 18:07
回复 支持 反对

使用道具 举报

18

主题

900

帖子

1

威望

中级会员

Rank: 3Rank: 3Rank: 3

交易诚信度
1
注册时间
2009-4-11
发表于 2023-3-19 15:32 | 显示全部楼层
stchris666 发表于 2023-3-19 15:25
web.minidisc.wiki  网站上的API接口没有SP选项,应该也是atracdenc转换的,网站的接口只是针对LP2和LP4 ...

最初platinumMD和webminidisc.wiki 他们测试 把录好的碟用声卡采集文件对比
跟机子光纤录音的波形一致,认为是软件传输wav,由机内编码录到碟上,等同机子的光纤录音水平

对比的波形区别在于不同的net机,不同品牌编码器不同,同品牌编码器版本不同
同一首歌都用wmp传给netmd,n910和dr80录的碟 采集出来的波形有区别这样,都是type-s的不同机子录出来的一样

点评

有相关测试的网页地址吗? 我猜想他们应该是从数字输出口采集的数据,输出的时候经过了机器的硬件解码器,这也可以解释为什么不同厂家机器回放会有区别,因为Sony和Sharp和Panasonic用的解码芯片都是自己研发的,特别  详情 回复 发表于 2023-3-19 15:43
回复 支持 反对

使用道具 举报

10

主题

539

帖子

0

威望

初级会员

Rank: 2Rank: 2

交易诚信度
0
注册时间
2022-11-13
 楼主| 发表于 2023-3-19 15:33 | 显示全部楼层
lyuanstone 发表于 2023-3-19 15:15
支持+点赞

web.minidisc.wiki传的sp是哪一种? 看net机带的type r/s嘛?

type R/S其实根net没啥关系,本身就是音频处理DSP芯片,跟SP的光纤录制有关系
目前看NET复制是不经过硬件DSP处理的(否则也达不到光纤录入好几倍的速度)
WMP的LP2远没有SS转换的好,15kHz以上的基本一刀切

点评

因为wmp只能给net机传啊,那么net机编码水平就看早期搭在的typeR和后期的typeS,其他品牌的net机就是另一种编码水平了  详情 回复 发表于 2023-3-19 15:51
回复 支持 反对

使用道具 举报

10

主题

539

帖子

0

威望

初级会员

Rank: 2Rank: 2

交易诚信度
0
注册时间
2022-11-13
 楼主| 发表于 2023-3-19 15:43 | 显示全部楼层
lyuanstone 发表于 2023-3-19 15:32
最初platinumMD和webminidisc.wiki 他们测试 把录好的碟用声卡采集文件对比
跟机子光纤录音的波形一致, ...

有相关测试的网页地址吗? 我猜想他们应该是从数字输出口采集的数据,输出的时候经过了机器的硬件解码器,这也可以解释为什么不同厂家机器回放会有区别,因为Sony和Sharp和Panasonic用的解码芯片都是自己研发的,特别是到了LP时代,各家都会在自己家的机器编解码器里加上一些料,解码回放的时候都有特殊优化

点评

帖子要找找了,是录好后播放从耳机口采集的数据,不同厂家机器录制的碟,用同一台机器播放PO口采集  详情 回复 发表于 2023-3-19 15:52
回复 支持 反对

使用道具 举报

18

主题

900

帖子

1

威望

中级会员

Rank: 3Rank: 3Rank: 3

交易诚信度
1
注册时间
2009-4-11
发表于 2023-3-19 15:51 | 显示全部楼层
stchris666 发表于 2023-3-19 15:33
type R/S其实根net没啥关系,本身就是音频处理DSP芯片,跟SP的光纤录制有关系
目前看NET复制是不经过硬 ...

因为wmp只能给net机传啊,那么net机编码水平就看早期搭在的typeR和后期的typeS,其他品牌的net机就是另一种编码水平了

点评

解码水平。。。编码现在看都是软件预编的。。。 NET之前就只有光纤和模拟录音选项 啊,你提醒了我,我忘记看一下SS里选SP的时候软件预编码水平了。。。回头补上  详情 回复 发表于 2023-3-19 15:53
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

关闭

活动推荐上一条 /1 下一条

Archiver|手机版|客服:010-60152166 邮箱:zx@jd-bbs.com|广告合作|账号注销|家电联盟网

京公网安备 11010602010207号 ( 京ICP证041102号,京ICP备09075138号-9 )

GMT+8, 2024-5-16 00:47 , Processed in 0.318189 second(s), 28 queries , Gzip On.

快速回复 返回顶部 返回列表