可生成最长约3分钟视频，快手可灵大模型开放视频续写功能 -新华网

快手的视频生成大模型“可灵”自面世以来，引来外界广泛关注。6月21日，全媒体记者获悉，可灵再度进化，正式推出图生视频功能，支持用任意静态图像生成5s视频，并且可搭配不同的文本内容，实现丰富的视觉叙事。同时，可灵还发布了业内领先的视频续写功能，可为已生成的视频（含文生视频及图生视频）提供便捷的一键续写和连续多次续写，将视频最长可延伸至约3分钟，极大地拓展了视频大模型的创作边界。

据了解，得益于其基础模型架构中的3D时空联合注意力机制，可灵在构建复杂时空运动方面也展现了卓越能力。这使得模型在转换静态图像为动态视频时，能够细腻而准确地实现大幅度运动场景。例如只需上传一张牧羊犬追球的静止照片，模型就能生成一段生动的视频：牧羊犬活灵活现地奔跑追逐网球，其耳朵轻轻晃动，毛发随风飘扬，而网球则在空中弹跳，视频整体自然而流畅。

另外，可灵图生视频模型还融入了强大的提示词融合技术，深化了对图像语义与用户指令的理解整合。举例来说，当使用一张女孩的照片生成视频，模型默认生成的效果可能是轻风中她发丝轻轻飘动，周遭花朵摇曳，水面闪烁着细腻的波纹。如果用户具体输入“女孩转身背对镜头”，视频便会智能添加女孩优雅转身的动作，并细腻捕捉到转身瞬间的微笑和眨眼，展现了自然而生动的细节处理能力。

此外，可灵图生视频模型支持不同风格的图像输入，不论是自然写实还是风格化图像都能轻松处理，同时兼容各种长宽比的图像输入，展示出强大的灵活性和适应性。

视频续写可生成最长约3分钟视频

记者了解到，如今，可灵大模型新推出了业内领先的视频续写功能，用户只需一键操作，即可在已生成视频的基础上延续生成约5秒内容，该功能同时适用于文生视频和图生视频。值得一提的是，通过连续多次续写，能够最长生产约3分钟的连贯视频。

此次升级的一大亮点是集成文本控制机制于视频续写中，这意味着用户能够通过自定义提示词，为每段视频续写注入个性化创意。得益于此，模型利用高效的提示词融合技术，平滑地在场景间过渡，响应用户的每一个灵感火花。举例来说，一个关于古堡的视频片段，用户既可以选择让它先“太阳落下去，天空变暗”，继而“太阳升起来，天空变亮”，亦可探索另一路径：“太阳落下去，天空变暗，灯光渐亮”，随后“灯光亮起，雾气氤氲”，以此创造出各具特色的连续视觉叙事，完美贴合用户的多样化需求。

6月6日，可灵文生视频大模型正式亮相，还在快影App上启动了邀测体验，截至目前，已有累计超过14万人排队申请。据悉，在7月举行的2024世界人工智能大会（WAIC）上，快手将发布最新的大模型技术与应用战略，包括快手大模型技术矩阵全景、基座模型技术创新、应用和落地情况等。（记者文静）

【纠错】【责任编辑:周靖杰】