谁在用AI点亮杭州未来
去年的云栖大会上,王坚博士引用建筑大师路易斯·康的灵魂一问,来回答这轮AI浪潮究竟会走向何方的疑问:“贝多芬创作第五交响曲之前,世界对它有需求吗?”
在GPT-3.5横空出世的一年后,在杭州的各个角落,无数音符开始欢快地跳跃起来。
让兵马俑跳“科目三”
最近,兵马俑、爱因斯坦跳“科目三”的视频刷爆了朋友圈。不管是哪个时代的人,也不管存在于哪个次元,只要一张全身照,就能在AI的加持下,来上一段热舞。
这个刷屏的小应用缘起于去年9月,阿里通义XR实验室启动的一项视频生成项目。从设想被提出到具体落地,前后只用了短短三个多月时间。
当时的视频生成领域,行业主要聚焦在通用的文生视频、图生视频等场景,针对人物的生成效果都不佳,尤其是真实人物的生成,主要原因是用户对于真人的效果非常敏感和挑剔。
大部分视频生成研究团队主动绕开了这个难啃的骨头,也给XR实验室留出了实验和论证的时间。
作为阿里通义XR实验室负责人,薄列峰是机器学习、计算机视觉领域的大牛,这个团队还聚集着有丰富2D/3D数字人经验的工程师。
在通用视频生成方案上,薄列峰团队针对人物视频生成这个特定问题做了优化,比如创新地提出了ReferenceNet,能够很好地保留人物图片的一致性。
去年12月,项目组在arXiv上公开了AnimateAnyone的论文和主页:经过5000个角色视频剪辑的内部数据集的训练后,只需要一张人物静态图片,结合人物的骨骼动画(姿势控制),就能生成一段人物动画视频。
论文一发布,立马引起了国内外AI界的关注和转发。
随后,项目组把Animate Anyone集成到通义千问App中,“全民舞王”成为Animate Anyone落地的首款产品。
声明:
本文仅代表作者个人观点,与新江南网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容,新江南网号系信息发布平台,新江南网仅提供信息存储空间服务。如有侵权请出示权属凭证联系管理员(yin040310@sina.com)删除!
阅读推荐
新闻爆料