技术突破与战略抉择:可灵AI从跟随者到领跑者的底层逻辑
2024年初,OpenAI发布SoraDemo,行业震动。当时的可灵团队几乎没有资源优势,训练甚至依赖"非主流"算力。这是一个关于"敢不敢"的突围故事,也是一堂关于大模型时代企业决策的实战课。
第一次关键抉择:押注全球首发窗口期
盖坤做出了让团队"炸锅"的决定——做全球第一个用户可用的视频生成模型,而且要超越Sora。他的判断逻辑清晰:OpenAI阻击完Google后会分心回归语言模型,会留出5-6月的窗口期。"如果不搏这一把,很可能陷入'平庸—无资源—被淘汰'的负循环。"
2024年6月6日,可灵1.0上线,成为全球第一个用户可用的DiT视频生成模型。Sora直到当年年底才正式发布。这一仗,赌对了。
第二次关键抉择:从"雕花"到多模态重构
第一次成功之后,更难的选择出现。2.0之后,团队面临两条路:一是继续提升清晰度和稳定性,沿既有路线精细打磨;二是转向多模态,把图像、视频甚至动作都变成AI的"语言",重构交互方式。
前者确定性高,后者几乎没有先例。"基座指标要保,但解决新问题才是未来的核心。"盖坤最终选择后者。动作控制功能(MotionControl)验证了这一方向——用户上传一段参考视频,就能让角色复刻动作,该功能在海外市场迅速走红。
方法论重构:大模型时代,AB测试失效
过去二十年,互联网公司的核心能力从产品与运营驱动,演进到算法与AB测试驱动。但在大模型时代,这套逻辑开始失效——一次尝试的成本往往以千万美元计,创新是在未知空间中寻找路径。
"拼肌肉拼不过,就要像'法师'一样,通过判断力打出局部优势。"从DiT架构,到多模态,再到一体化模型,可灵的几次关键转向,几乎都不是"试出来"的,而是靠vision牵引,在茫茫可能性中下重注赌对方向。
执行力的核心:DisagreeandCommit
方向确定之后,执行成为关键。盖坤强调"DisagreeandCommit"原则:重大决策初期允许充分争论甚至反对,但一旦目标确定,所有人必须投入120%的执行力。"很多团队是口头同意,但执行变形。我们更看重的是定方向之后的统一行动。"
商业化数据印证了这一方法论的有效性:2025年第四季度,可灵AI营收达3.4亿元人民币;同年12月单月收入已突破2000万美元,对应年化收入运行率约2.4亿美元。
