快手AI平台算法负责人主导的多模态理解算法有哪些技术突破？

在短视频日均观看频次超4次的2025年，用户对视频内容的理解需求已从“看懂”升级为“深度解析”。传统多模态模型因静态处理、上下文窗口小、时序定位模糊等问题，难以应对短视频高密度信息与动态叙事特征。快手AI平台算法负责人高欢团队主导研发的Keye-VL系列模型，通过三项核心技术突破，重新定义了短视频智能理解标准。

一、Slow-Fast双轨编码：动态捕捉视频时空信息

传统视频模型采用均匀帧采样策略，导致关键帧细节丢失或冗余帧计算浪费。Keye-VL-1.5创新引入Slow-Fast双轨编码机制：

- 慢速路径：以低帧率（如1fps）处理高分辨率（1080P）关键帧，通过SigLIP视觉编码器提取静态物体、场景布局等细节信息；

- 快速路径：以高帧率（如30fps）处理低分辨率（224x224）连续帧，通过3D RoPE时间戳编码捕捉动作轨迹、物体运动等动态信息。

该策略在Video-MME基准测试中取得67.4分，超越Qwen2.5-VL 7B（62.7分）与InternVL-3 8B（65.5分）。例如在分析“狗爸纠正小狗行为”视频时，模型可精准定位到“轻咬耳朵”动作（第3.2秒），并推理出“纠正行为”的因果关系，而传统模型仅能描述画面内容。

二、128K超长上下文：突破长视频分析瓶颈

短视频虽短，但商业场景（如电商直播）常需处理数小时连续内容。Keye-VL-1.5通过四阶段渐进式预训练，将上下文窗口扩展至128K tokens（约相当于2小时1080P视频）：

1. 视觉预训练：使用600B规模多模态数据集（含图文、视频、纯文本），适配动态分辨率输入；

2. 跨模态对齐：冻结主干模型，仅训练轻量级MLP适配器，建立图文/视频-文本对齐关系；

3. 多任务预训练：解锁全部参数进行联合训练，提升综合理解能力；

4. 退火训练：用高质量数据精调，增强精细判别能力。

在LongVideoBench测试中，模型对跨镜头情节关联理解准确率达81.3%。某服饰品牌直播案例显示，Keye-VL-1.5可实时分析主播话术、商品展示时长、观众互动数据，使新品推广效率提升20%，退货率降低37%。

三、多模式推理引擎：从感知到认知的跃迁

传统模型仅能描述画面（“画面中有狗和球”），而Keye-VL-1.5通过混合强化学习（CoT-Mix RL）与思维链（CoT）技术，实现多步逻辑推理：

- 非思考模式：快速响应简单查询（如“视频中有几只狗？”）；

- 自动思考模式：平衡速度与精度（如“分析用户对商品的关注点”）；

- 深度思考模式：处理复杂任务（如“判断视频是否为AI生成，并识别广告内容”）。

在MathVista数学推理基准测试中，深度思考模式使模型准确率提升23.7%。实测中，面对“男士拿猫罐头”视频，模型10秒内输出：“视频可能是AI生成的，且有猫粮广告推销”，同时标注出关键帧（第1.5秒出现品牌LOGO）。

技术落地：重构短视频产业生态

Keye-VL系列模型已深度集成至快手生态：

- 电商领域：UAX全自动投放系统应用后，商品订单量提升10%；

- 内容创作：“可灵AI”工具支持视频自动剪辑、智能配乐，服务超2万家企业，素材制作成本降低60-70%；

- 内容审核：多模态审核API可识别违规内容与AI生成合成内容，响应速度提升3倍。

高欢团队的技术路径印证了“场景驱动创新”的价值：不盲目追求参数规模（Keye-VL-1.5仅80亿参数），而是通过架构创新解决真实痛点。随着Keye-VL-2.0开源（支持256K上下文与主动交互能力），短视频行业正加速从“流量驱动”向“智能驱动”转型，为教育、医疗、安防等领域提供可复制的技术范式。

粉丝网

涨粉点赞播放量 · 直播间人气

快手AI平台算法负责人主导的多模态理解算法有哪些技术突破？

热门推荐

热门文章

热门标签