Logohaoai 产品使用指南
haoone

haoone8与剪映对比转录正确率

下面是haoone 远程转录、haoone 本地转录、剪映转录 三者转录正确率的对比表格。

我整理不同类型的 7 个测试音频,音频时长是 3 分钟左右,感兴趣的话你可以下载音频与转录 srt 结果文件验证。

测试用例压缩包

haoone 转录采用默认配置,开启了 AI 校正与智能拆行。

音频haoone 远程转录haoone 本地转录(中英专用模型)剪映转录
高质量中文语音97%96%96%
质量差中文语音91%90%96%
中文游戏解说93%85%90%
高质量英文语音94%92%86%
英文歌曲90%有 bug,没识别出语音95%
闽南语语音85%83%40%
闽南语歌曲85%85%不可用

高质量中文语音的场景:

这是一个介绍理光 GR4 相机的音频,三者差别不大,正确率都能到 95% 以上,主要的错误都集中在产品的专有名词上,haoone 的数字处理需要优化,目前会展示成中文数字。

质量差中文语音的场景:

这是一个户外高背景噪音的音频,剪映会好的多,haoone 会出现少字的情况,后续我会给 haoone增加 AI 语音增强的功能。

中文游戏解说的场景:

这是一个王者荣耀的解说视频,黑话多、语速快,很考验模型能力,haoone 远程转录表现最好,能精准识别“速通”、“线权”、“拆火”等电竞词汇,剪映对一些游戏黑话理解错误,比如把“速通”识别成“疏通”,haoone 的本地转录表现一般,会有比较多错误。

高质量英文语音的场景:

这是一个介绍 claude code 新功能的音频,haoone 远程转录表现最好,剪映转录很一般,计算机词汇会出现很多错误,比如 haoone 准确识别了 cursor ;剪映把它错听成了 Claw Code。haoone 在英文格式上的处理需要优化,没有任何首字母大写和专有名词大写的处理。

英文歌曲识别的场景:

剪映最好,haoone 表现一般,只有 90% 左右的准确率,本地转录有 bug,出现无转录结果的情况,后续会优化。

闽南语语音的场景:

剪映在方言识别上不太行,基本上不可用,haoone 可以做到 85%的准确率,闽南语有一些特殊的口语,后续可以进一步优化。

闽南语歌曲的场景:

剪映识别完全错误,haoone 依旧可以做到 85%的准确率

总结:

haoone 的在线转录与剪映在中文转录正确率都能做到 95%以上,haoone在方言识别上有显著的优势,英文识别上剪映会更好一些。 haoone 的本地转录在语音质量好的场景下,正确率接近剪映,语音质量差的场景不如剪映,这点后续会进一步优化,增加 AI 语音增强的功能。