技术突破与战略抉择：可灵AI从跟随者到领跑者的底层逻辑

2024年初，OpenAI发布SoraDemo，行业震动。当时的可灵团队几乎没有资源优势，训练甚至依赖"非主流"算力。这是一个关于"敢不敢"的突围故事，也是一堂关于大模型时代企业决策的实战课。

第一次关键抉择：押注全球首发窗口期

盖坤做出了让团队"炸锅"的决定——做全球第一个用户可用的视频生成模型，而且要超越Sora。他的判断逻辑清晰：OpenAI阻击完Google后会分心回归语言模型，会留出5-6月的窗口期。"如果不搏这一把，很可能陷入'平庸—无资源—被淘汰'的负循环。"

2024年6月6日，可灵1.0上线，成为全球第一个用户可用的DiT视频生成模型。Sora直到当年年底才正式发布。这一仗，赌对了。

第一次成功之后，更难的选择出现。2.0之后，团队面临两条路：一是继续提升清晰度和稳定性，沿既有路线精细打磨；二是转向多模态，把图像、视频甚至动作都变成AI的"语言"，重构交互方式。

前者确定性高，后者几乎没有先例。"基座指标要保，但解决新问题才是未来的核心。"盖坤最终选择后者。动作控制功能（MotionControl）验证了这一方向——用户上传一段参考视频，就能让角色复刻动作，该功能在海外市场迅速走红。

过去二十年，互联网公司的核心能力从产品与运营驱动，演进到算法与AB测试驱动。但在大模型时代，这套逻辑开始失效——一次尝试的成本往往以千万美元计，创新是在未知空间中寻找路径。

"拼肌肉拼不过，就要像'法师'一样，通过判断力打出局部优势。"从DiT架构，到多模态，再到一体化模型，可灵的几次关键转向，几乎都不是"试出来"的，而是靠vision牵引，在茫茫可能性中下重注赌对方向。

方向确定之后，执行成为关键。盖坤强调"DisagreeandCommit"原则：重大决策初期允许充分争论甚至反对，但一旦目标确定，所有人必须投入120%的执行力。"很多团队是口头同意，但执行变形。我们更看重的是定方向之后的统一行动。"

商业化数据印证了这一方法论的有效性：2025年第四季度，可灵AI营收达3.4亿元人民币；同年12月单月收入已突破2000万美元，对应年化收入运行率约2.4亿美元。