阿里HappyHorse-1.0视频模型宣布开源|山东盛恩网络科技有限公司

阿里HappyHorse-1.0视频模型宣布开源

发布时间：2026-05-15

DoNews4月9日消息，据AIPress报道，刚刚，拳打字节Seedance2.0，脚踢快手可灵的AI视频生成模型Happy Horse 1.0开源了。目前在官网可通过文本生成和图片生成两种方式体验生成视频。不同模型对制作时长的限制各不相同。

Happy Horse 1.0的核心卖点，是把视频和音频的生成彻底合并进了同一个流程。大多数开源视频模型的工作方式是：先生成一段没有声音的视频，再找另一个模型配音，再找另一个工具做口型对齐，几道工序下来，时间和误差都在叠加。

而Happy Horse 1.0用一个统一的Transformer同时处理视频和音频，一次前向推理直接输出带声音的成片，口型、脚步声、环境音全部在同一个过程里生成，不需要任何后期拼接。

模型参数量是150亿，架构上是纯自注意力Transformer，没有交叉注意力，没有独立的音频分支，也没有专门的条件网络。整体设计刻意追求极简——把所有模态（文本、图像、视频、音频）的token拼成同一个序列，让模型在去噪过程中自己学会跨模态对齐。

在结构上，40层Transformer采用了一种“三明治”布局：头4层和尾4层用模态专属的投影层处理各自的输入输出，中间32层则是所有模态共享参数。实际的跨模态推理就发生在这32层里，这也是整个架构参数效率最高的地方。

此外，每个注意力头都有一个可学习的标量门控，用sigmoid激活，专门用来稳定多模态联合训练时的梯度——毕竟音频损失和视频损失同时反传，很容易互相打架。

速度方面，模型采用了DMD-2蒸馏技术（Distribution Matching Distillation v2），把去噪步数从通常的25到50步压缩到了8步，同时不需要无分类器引导（CFG），这一项本身就能砍掉将近一半的计算量。再配合MagiCompiler全图编译运行时带来的约1.2倍额外加速，在单张H100上，生成一段1080p视频只需要大约38秒，256p的预览版本则在2秒左右就能出来。

同时，模型原生支持英语、普通话、粤语、日语、韩语、德语和法语七种语言唇形同步，这些语言的口型、语调和语音时序是和视频一起联合训练出来的，不是后期贴上去的。

来源: DoNews

免责声明：

以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

转载目的在于传递更多软件行业技术信息，分享优质技术内容，不代表本网站观点及立场，亦不对原文内容的真实性、准确性、完整性提供任何明示或暗示的保证。

若原文涉及版权、署名、内容合规等问题，请及时联系本账号，联系方式（电话/微信）：18954481360，我们将在核实后第一时间删除内容或按照原作者要求整改，确保不侵犯第三方合法权益。

本账号已尽力确保转载内容的完整性，若因转载过程中出现内容删减、格式调整等问题，不承担相关责任，建议读者以原文链接内容为准。

任何单位或个人如需二次转载本账号转载的内容，需同时获得原作者及本账号的书面许可，并完整保留本免责声明及原文来源信息。