阿里HappyHorse-1.0视频模型宣布开源
发布时间:2026-05-15

      DoNews4月9日消息,据AIPress报道,刚刚,拳打字节Seedance2.0,脚踢快手可灵的AI视频生成模型Happy Horse 1.0开源了。目前在官网可通过文本生成和图片生成两种方式体验生成视频。不同模型对制作时长的限制各不相同。

      Happy Horse 1.0的核心卖点,是把视频和音频的生成彻底合并进了同一个流程。大多数开源视频模型的工作方式是:先生成一段没有声音的视频,再找另一个模型配音,再找另一个工具做口型对齐,几道工序下来,时间和误差都在叠加。

      而Happy Horse 1.0用一个统一的Transformer同时处理视频和音频,一次前向推理直接输出带声音的成片,口型、脚步声、环境音全部在同一个过程里生成,不需要任何后期拼接。

      模型参数量是150亿,架构上是纯自注意力Transformer,没有交叉注意力,没有独立的音频分支,也没有专门的条件网络。整体设计刻意追求极简——把所有模态(文本、图像、视频、音频)的token拼成同一个序列,让模型在去噪过程中自己学会跨模态对齐。

      在结构上,40层Transformer采用了一种“三明治”布局:头4层和尾4层用模态专属的投影层处理各自的输入输出,中间32层则是所有模态共享参数。实际的跨模态推理就发生在这32层里,这也是整个架构参数效率最高的地方。

      此外,每个注意力头都有一个可学习的标量门控,用sigmoid激活,专门用来稳定多模态联合训练时的梯度——毕竟音频损失和视频损失同时反传,很容易互相打架。

      速度方面,模型采用了DMD-2蒸馏技术(Distribution Matching Distillation v2),把去噪步数从通常的25到50步压缩到了8步,同时不需要无分类器引导(CFG),这一项本身就能砍掉将近一半的计算量。再配合MagiCompiler全图编译运行时带来的约1.2倍额外加速,在单张H100上,生成一段1080p视频只需要大约38秒,256p的预览版本则在2秒左右就能出来。

      同时,模型原生支持英语、普通话、粤语、日语、韩语、德语和法语七种语言唇形同步,这些语言的口型、语调和语音时序是和视频一起联合训练出来的,不是后期贴上去的。

来源: DoNews

免责声明:

以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

转载目的在于传递更多软件行业技术信息,分享优质技术内容,不代表本网站 观点及立场,亦不对原文内容的真实性、准确性、完整性提供任何明示或暗示的保证。

若原文涉及版权、署名、内容合规等问题,请及时联系本账号,联系方式(电话/微信):18954481360,我们将在核实后第一时间删除内容或按照原作者要求整改,确保不侵犯第三方合法权益。

本账号已尽力确保转载内容的完整性,若因转载过程中出现内容删减、格式调整等问题,不承担相关责任,建议读者以原文链接内容为准。

任何单位或个人如需二次转载本账号转载的内容,需同时获得原作者及本账号的书面许可,并完整保留本免责声明及原文来源信息。

18365929822