豆包视频生成模型实现多主体复杂交互
近日,字节跳动旗下火山引擎在深圳举办AI创新巡展,发布了豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型。此前视频生成模型大多只能完成简单指令,豆包视频生成模型则能实现自然连贯的多拍动作与多主体复杂交互。例如,后者可以让不同人物完成多个动作指令的互动,使人物样貌、服装细节甚至头饰在不同运镜下也保持一致,接近实拍效果。
据火山引擎介绍,豆包视频生成模型基于DiT架构,通过高效的DiT融合计算单元,让视频在大动态与运镜中自由切换,拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。全新设计的扩散模型训练方法攻克了多镜头切换的一致性难题,在镜头切换时可同时保持主体、风格、氛围的一致性,这也是豆包视频生成模型独树一帜的创新点。
经过剪映、即梦AI等业务场景打磨和持续迭代,豆包视频生成模型已具备专业级光影布局和色彩调和,画面视觉极具美感和真实感。深度优化的Transformer结构,则大幅提升了豆包视频生成的泛化能力,支持3D动画、2D动画、国画、黑白、厚涂等多种风格。
“视频生成有很多难关亟待突破。豆包两款模型会持续演进,在解决关键问题上探索更多可能性,加速拓展AI视频的创作空间和应用落地。”火山引擎总裁谭待说。(记者杨雪)
本文链接:http://knowith.com/news-7-598.html豆包视频生成模型实现多主体复杂交互
声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
财政部 税务总局关于延续实施中国邮政储蓄银行三农金融事业部涉农贷款增值税政策的公告(2023年第66号)
【解读】知识产权制度体系不断完善
关于2023中关村国际讲堂课程安排与报名的通知
北京市2024年度建设用地供应计划
人工智能成今年两会热词 推动AI赋能更多生活场景
赋予“公共品”属性 安全科技迎来质变时刻
石墨烯半导体研制成功 可能应用于量子计算机
2023年度《中国国际科技合作网工作年度报表》
解读《关于优化中央企业资产评估管理有关事项的通知》
【公示】第一批北京工业遗产拟认定名单公示
靶向药印度吉瑞替尼哪里买多少钱一盒?不出国方便直购(90粒*40mg)一瓶/一个月售价约3300元!