"面对Sora带来的挑战,不妨让子弹再飞一会儿。“两个多月前,OPEnAI又一个深水炸弹以文学视频模型Sora引爆了全球。当时伽利略资本合伙人郑邈就国内外文学视频模型的差距作出了这样的评价。“预言”在两个多月后实现。首先,学生数字技术与清华大学联合发布了Vidu视频模型,这曾被外界描述为中国第一个Sora视频模型。近日,有媒体报道称,智谱AI也在开发针对Sora的国产文学视频模型,最早在年内发布。伴随着企业竞相进入市场,国内文生视频模式明显进入加速阶段。但正如郑邈所说,Sora的出现并不是一个技术突破,但在工程方面,国内大模型的差距并不远。“本质上,场景可能比工程突破更值得思考”。
在Sora之后
近日,有媒体报道称,智谱AI正在开发针对Sora的高质量文学视频模型,预计最早将于年内发布。对此,《北京商报》记者联系了智谱AI,对方表示没有官方信息来源,也没有其他信息可以提供。
公开资料显示,智谱AI是由清华大学计算机系技术成果转化而来的,也是中国最早开发大型模型的企业之一。今年1月,智谱AI发布了GLM-4和智谱AI的新一代基座模型 CEO张鹏曾经介绍过,GLM-与上一代相比,4的整体性能有了很大的提升,接近GPT-4。
在此之前,国产文学视频模型掀起了一股浪潮。4月27日,清华大学联合生数科技在2024中关村论坛年会上,正式发布了中国第一个长期、高一致性、高动态视频模型Vidu,引发热议。
据悉,Vidu是自Sora发布以来,世界上第一个取得重大突破的视频模型,其性能完全达到了国际顶级水平。
“Vidu是全栈自主创新的最新成果,在多个维度上实现了技术突破,包括能够模拟真实的物理世界、想象力、能够理解多镜头语言而不是简单的镜头推拉、能够一键生成长达16秒的视频、人物场景时间保持高度一致、能够理解中国元素等。”当时,清华大学教授、学生数学技术首席科学家朱军表示。
朱军还在现场展示了Vidu和Sora之间最受关注的对比。例如,Sora在视频生成过程中丢失了“旋转”这个关键词,但Vidu可以更好地掌握这个内容,从而实现视频视角的丝滑“旋转”。
然而,一些分析人士认为,Vidu的16秒和Sora的一分钟在计算能力和工程上仍然存在巨大的差距。对此,有业内人士向《北京商报》记者提到,Vidu的结构本身足以支持视频生成的更长时间。生数技术还表示,Vidu正在加速迭代升级。
值得一提的是,智谱AI和学生数字技术都来自“清华一脉”。此外,除了光年、月亮的暗面、百川智能、面壁智能等。,还有清华学生的影子。据媒体引用业内人士分析,清华大模型公司的格局以智谱AI为中心,布局人工智能上下游。今年3月,学生数字技术宣布完成新一轮数亿元融资,智谱AI是投资者之一。
产品化是关键
事实上,自Sora发布以来,国内文学视频领域已经开始升温。例如,在Sora发布的2月份,清华大学公布了一项文学视频专利。同月,中国第一部文学视频AI漫画《千秋诗颂》播出。在Vidu发布的第二天,万兴“天幕”正式公测了中国第一个音视频多媒体模型。
根据Gartner的研究,到2030年,AI将产生90%的数字内容。预计2032年,全球AIGC市场规模将从2022年的108亿美元增长到1181亿美元。
经济学家、新金融专家余丰慧告诉《北京商报》记者,文学视频的成功构建意味着AI模型可以处理更高维度、更复杂的数据,并进行创造性的表达,这表明模型正在向不同层面的理解和创造世界,这更接近AGI所追求的认知和决策能力。
“一旦Sora等文化视频技术成熟,理论上可能会颠覆传媒、影视制作、游戏开发、虚拟现实、广告创意、教育等多个行业。它可以在短时间内根据用户需求自动生成高质量的视频内容,大大降低了创作成本,提高了生产效率。”余丰慧补充道。
在接受《北京商报》记者采访时,郑邈提到,文化视频可以简单类比成分镜脚本,利用文本信息生成关键帧,通过帧和帧的图片形成连续视频。在这个过程中,更多的是项目创新,而不是技术突破,这意味着国内外大模型之间的差距不会太长,整体时间差距可以保持在半年以内。
因此,与项目的突破相比,郑邈更关注应用场景。据他观察,AI短片在行业内的“列表”还是很小的,更像是一种实验尝试。与成熟的商业制作“大片”相比,还有很大的差距,“基本可以忽略不计”。
更加缺少的是推理算力
企业竞相进入文生视频模式,也引发了另一个关键问题——计算能力。早在Sora发布后不久,360集团创始人周鸿祎就公开提到,如果Sora的技术路线被开源,中国将能够快速赶上,但在赶上Sora时,计算能力可能会成为门槛。
根据中信证券的简单估计,一个60帧的视频(约6-8秒)需要大约60,000个Patches,如果去噪步数为20,则相当于生成120万个Tokens。与此同时,考虑到扩散模型在实际使用中往往需要多次生成的特点,实际计算量将远远超过120万个Tokens。
天使投资者、资深人工智能专家郭涛告诉《北京商报》,大型培训需要处理大量数据和复杂计算。没有足够的计算能力,很难训练出这样的模型。其次,目前全球计算能力资源有限,大部分集中在一些大型科技公司手中,这使得其他公司或研究机构面临着获取足够计算能力资源的挑战。
不久前,月之暗面的Kimi智能助手因使用人数激增而走红,成为“小爆款”,Kimi App和小程序一度无法正常使用。当时,中信建投层发布了一份研究报告,称随着Kimi用户数量的不断增加,短期计算能力支持不足。考虑到后续的模型训练和推理需求,预计计算能力需求将进一步增加,带动计算能力需求的落地。
郑邈总结道:“推理算力很可能是创投圈的下一次机会。
北京商报记者 杨月涵
发表评论