2025年02月24日
第A14版:人工智能

大模型企业闯进“纯视觉时代”

  ▶  本报记者  李洋

  视频生成有望成为通用知识学习方法,在现实世界充当“人工大脑”。近日,豆包大模型团队宣布其携手北京交通大学与中国科学技术大学共同研发的视频生成实验模型“VideoWorld”正式开源,首次实现无需依赖语言模型即可认知世界。

  民生证券发布研报称,豆包开源视频大模型“VideoWorld”的发布,让视频生成成为通用知识学习方法,在现实世界充当“人工大脑”,仅靠“视觉”即可学习知识,并“理解”因果关系,“预测”未来,有望激活“视觉市场”为其打开增长空间。

  仅靠“视觉”即可预测未来

  目前,现有模型大多依赖语言或标签数据学习知识,很少涉及纯视觉信号的学习。然而,语言作为一种表达工具,其局限性在于无法全面捕捉真实世界中的所有复杂信息。

  据了解,VideoWorld摒弃语言模型,通过纯视觉信号进行统一的理解、执行和推理。同时,VideoWorld基于一种潜在动态模型,可高效压缩视频连续帧间的变化信息,显著提升知识学习效率和效果。

  “视觉模型在处理连续帧变化时能够捕捉动态信息。这在理解动作序列、预测未来状态等方面有独特优势。”资深人工智能专家郭涛认为,这类模型能够直接处理和理解图像或视频数据,不需要先转换成文本描述再进行理解,因此在图像识别、场景理解方面更为直观和准确。此外,视觉信息本身含有丰富的细节和上下文,可为自动驾驶过程中的实时路况判断、医疗影像的精确分析等特殊场景提供更精细的判断依据。

  “这种视频生成模型不依赖语言模型,进一步减少了对数据标注和预训练的依赖,降低了开发成本和难度。”北京市社会科学院副研究员王鹏说。

  “这无疑大大提升了模型的学习效率;此外,这种大模型不需要中间的语言转换,更符合人类的直观认知方式。”科方得智库研究负责人张新原认为。

  为AI应用带来新的可能性

  业界专家表示,VideoWorld的发布,也为人工智能领域带来新的可能性。比如,在医疗影像分析中,模型能够通过学习大量医学影像数据,辅助医生进行诊断和治疗;在娱乐产业,可用于电影特效制作、虚拟偶像生成等;在教育领域,能够创建互动式学习材料;在零售行业则可应用于商品展示和虚拟现实购物体验等。

  民生证券发布的研究报告认为,视觉认知世界的能力有望激活“视觉市场”。

  “这些应用场景只是‘冰山一角’,随着技术进步,更多创意应用将会涌现。”郭涛说。

  依赖文本大模型有危机

  “随着多模态技术的发展,结合文本和图像的综合模型将成为趋势,单一依赖文本的大模型可能会逐渐失去竞争力。”在郭涛看来,这并不意味着语言大模型会被淘汰,而是促使其向更高级、更综合的方向发展,比如增强对图像的理解能力或与视觉模型更好地协同工作。

  此次豆包大模型团队选择开源VideoWorld,或许希望通过此举让更多的研究者和开发者可以接触并使用VideoWorld,以推动纯视觉认知技术的快速发展和应用。从长远看,作为首个无需依赖语言模型的视觉认知模型,VideoWorld的开源有助于其成为行业标准,影响未来相关技术的发展方向。

  VideoWorld的开源,为研究者提供了一个强大的基准模型,有助于探索更多基于视觉的学习方法和算法。“随着更多开发者的加入,有望围绕VideoWorld形成一个新的技术社区和生态系统,促进不同领域间交叉合作和技术融合,进一步拓展人工智能的应用边界。”郭涛说。

  关于开源面临的一些挑战,业界人士认为,开源使得竞争对手可以轻松获取技术细节,可能加剧市场竞争。当然还有社区管理方面的挑战,维护一个活跃且健康的开源社区需要投入大量资源,包括技术支持、文档维护等。

2025-02-24 6 6 中国高新技术产业导报 content_146181.html 1 <p>大模型企业闯进“纯视觉时代”</p> /enpproperty-->