88888888 發表於 2026-1-23 15:06

魔都美术馆迎来首个官方AI讲解员

想象一下,当你逛各类博物馆或美术馆,手中握着的手机不再是冰冷冷的硬件,而是一名可以通过视频语音陪伴讲解的“专属向导”,逛展这件事会否从过去的“走马观花”,变为一场更为生动的沉浸式体验?; L' V1 U7
/ O]3 X8 r$ z9 e9 l
1月20日,字节跳动旗下豆包与上海浦东美术馆达成合作,成为该馆两项国际大展——“图案的奇迹:卢浮宫印度、伊朗与奥斯曼的艺术杰作”与“非常毕加索:保罗·史密斯的新视角”的官方AI讲解员。双方通过独家数据合作和定向搜索优化,进一步提升豆包识别和讲解的准确性。) f( j, ]$ n+ S' y4 p

从人工智能行业发展的角度来看,AI逐渐落地普通老百姓日常生活场景,是多模态大模型“感知-推理-动作”能力在真实世界的闭环验证与数据反哺,既是AI能力的场景化落地,也是技术迭代的关键驱动。/ H$ F+ F2 X. h4 ~2 I/ o

AI陪伴逛展

第一财经记者在实际观展过程中发现,用户可以让豆包从艺术风格、历史背景、创作技法与文化意义等多个维度对作品进行解读。

字节跳动副总裁朱骏表示,AI和用户的交互本质上是一种对话体验。在观展过程中,希望豆包通过共情式的提问和启发式的对话,把用户已有的感受和经验调动出来,形成更有参与感的理解过程。

例如,当观众在“非常毕加索”展厅面对毕加索的《阅读》作品时,可以向豆包提问“画面中宁静的氛围是如何营造的”。豆包会结合画作创作于1932年的特定背景,分析其中柔和曲线与鲜明色块如何共同塑造出私密而宁静的阅读场景,阐述这一时期毕加索以其缪斯玛丽–特蕾兹·瓦尔特为灵感的创作风格特征,如何在具象与变形之间取得平衡。1 T* n& v; }5 X$ v

技术层面,据豆包逛展项目负责人介绍,在博物馆场景中运用AI讲解,最大的挑战是保证内容的准确性。模型不仅要能区分外观高度相似的文物、理解小众且缺乏公开资料的展品,还要能在观众移动观展、从不同角度和距离观察同一件展品时,始终保持稳定识别。据了解,豆包相关视频讲解功能主要基于Seed1.8模型的视频理解能力。
$ e: P% r, b" ^& c' m( g
Seed1.8是字节跳动于2025年12月发布的通用Agent模型,核心定位是打通 “感知-推理-动作”全链路,可直接执行复杂任务而非仅输出信息,聚焦真实世界多模态交互与任务执行。) @$ P4 w: r' O, t# g* z
M8 r! U" M4 x5 Y1 ]2 D: }
火山引擎总裁谭待对第一财经记者表示,多模态代表着模型的应用逐渐进入更深的领域。过去用户让模型执行任务,通过文字聊天即可。但如今AI的很多输入内容带有视觉因素,如在车内、产品质检、餐饮各种场景。另外,模型处理任务需要调用各种工具,工具返回的结果很多也是视觉化的,因此需要具备视觉化理解能力。

“AI导览员”背后的技术趋势0 e) @! P+ I( Q6 I% X

如果说多模态AI的进化还是一场“打破感知壁垒”的早期尝试,那么此次豆包与浦东美术馆的合作,就是一场鲜活的“生活切片”展示,它证明多模态已不仅仅是实验室内的技术参数,而是普通观众身边的“AI导览员”,用看得见、听得到、聊得来的能力,实现科技与人文的碰撞。% O3 s$ C9 A1 X7 q6 ~

虽然多模态技术发展仍处于早期阶段,但行业普遍认为,多模态是步入AGI(通用人工智能)的必经之路。智谱(02513.HK)创始人唐杰表示,2025年是多模态的“适应年”,而多模态感统(感觉统合)将成为2026年的热点和重点,它是完成人机GUI(图形用户界面)交互与AI进入物理世界的关键。因为有了这个能力,AI才可以完成更复杂的长时效任务,形成一个AI工种,并通过AI实现具身智能,进入物理世界。0 Ga1 l9 G& s4 F! X. M; ~' |" F-
* L) t: Xrq2 h. B2 I
1 \5 {



頁: [1]
查看完整版本: 魔都美术馆迎来首个官方AI讲解员