在短视频日均观看频次超4次的2025年,用户对视频内容的理解需求已从“看懂”升级为“深度解析”。传统多模态模型因静态处理、上下文窗口小、时序定位模糊等问题,难以应对短视频高密度信息与动态叙事特征。快手AI平台算法负责人高欢团队主导研发的Keye-VL系列模型,通过三项核心技术突破,重新定义了短视频智能理解标准。
一、Slow-Fast双轨编码:动态捕捉视频时空信息
传统视频模型采用均匀帧采样策略,导致关键帧细节丢失或冗余帧计算浪费。Keye-VL-1.5创新引入Slow-Fast双轨编码机制:
- 慢速路径:以低帧率(如1fps)处理高分辨率(1080P)关键帧,通过SigLIP视觉编码器提取静态物体、场景布局等细节信息;
- 快速路径:以高帧率(如30fps)处理低分辨率(224x224)连续帧,通过3D RoPE时间戳编码捕捉动作轨迹、物体运动等动态信息。
该策略在Video-MME基准测试中取得67.4分,超越Qwen2.5-VL 7B(62.7分)与InternVL-3 8B(65.5分)。例如在分析“狗爸纠正小狗行为”视频时,模型可精准定位到“轻咬耳朵”动作(第3.2秒),并推理出“纠正行为”的因果关系,而传统模型仅能描述画面内容。
二、128K超长上下文:突破长视频分析瓶颈
短视频虽短,但商业场景(如电商直播)常需处理数小时连续内容。Keye-VL-1.5通过四阶段渐进式预训练,将上下文窗口扩展至128K tokens(约相当于2小时1080P视频):
1. 视觉预训练:使用600B规模多模态数据集(含图文、视频、纯文本),适配动态分辨率输入;
2. 跨模态对齐:冻结主干模型,仅训练轻量级MLP适配器,建立图文/视频-文本对齐关系;

3. 多任务预训练:解锁全部参数进行联合训练,提升综合理解能力;
4. 退火训练:用高质量数据精调,增强精细判别能力。
在LongVideoBench测试中,模型对跨镜头情节关联理解准确率达81.3%。某服饰品牌直播案例显示,Keye-VL-1.5可实时分析主播话术、商品展示时长、观众互动数据,使新品推广效率提升20%,退货率降低37%。
三、多模式推理引擎:从感知到认知的跃迁
传统模型仅能描述画面(“画面中有狗和球”),而Keye-VL-1.5通过混合强化学习(CoT-Mix RL)与思维链(CoT)技术,实现多步逻辑推理:
- 非思考模式:快速响应简单查询(如“视频中有几只狗?”);
- 自动思考模式:平衡速度与精度(如“分析用户对商品的关注点”);
- 深度思考模式:处理复杂任务(如“判断视频是否为AI生成,并识别广告内容”)。
在MathVista数学推理基准测试中,深度思考模式使模型准确率提升23.7%。实测中,面对“男士拿猫罐头”视频,模型10秒内输出:“视频可能是AI生成的,且有猫粮广告推销”,同时标注出关键帧(第1.5秒出现品牌LOGO)。
技术落地:重构短视频产业生态
Keye-VL系列模型已深度集成至快手生态:
- 电商领域:UAX全自动投放系统应用后,商品订单量提升10%;
- 内容创作:“可灵AI”工具支持视频自动剪辑、智能配乐,服务超2万家企业,素材制作成本降低60-70%;
- 内容审核:多模态审核API可识别违规内容与AI生成合成内容,响应速度提升3倍。
高欢团队的技术路径印证了“场景驱动创新”的价值:不盲目追求参数规模(Keye-VL-1.5仅80亿参数),而是通过架构创新解决真实痛点。随着Keye-VL-2.0开源(支持256K上下文与主动交互能力),短视频行业正加速从“流量驱动”向“智能驱动”转型,为教育、医疗、安防等领域提供可复制的技术范式。
粉丝网




