最近,没有人不在讨论人工智能(AI)。
刚开学,清华大学大模型与生成式AI课程的教室已经爆满,最后一排后方的空地站满了学生。不远处的中关村科技城在夜晚灯火通明,全国54%的大模型企业聚集于此,等待有志者加入。而在金融街或CBD走进一家咖啡馆或餐厅,总有人正在聊有关AI的投资机会。
1月20日,开源模型DeepSeek-R1在一夜之间家喻户晓,加速了AI的全民市场教育。
但它所掀起的产业变量远不止于此。“变量是全方位的,包括模型、算力、芯片、数据、应用,所以需要尽快调整工作重心,优化现有的产业政策。”北京市经信局数字产业处副处长张金瑞告诉《中国新闻周刊》。
“最近我们发现,国产芯片厂商开始被越来越多的企业选择用于完成数据量不大、不复杂的推理任务。”他表示,这也将影响北京市未来的算力布局,算力的消耗方式需要从“粗放式”堆芯片转变为“精细化”地使用算力。算力需求将长期看涨,今年预计会翻倍,但高品质、高质量、集群式的算力在北京仍然很稀缺。
张金瑞坦言,数据方面也面临挑战:DeepSeek带来了使用高质量数据的趋势,以前主力推动的大规模的行业数据汇集工作,下一步要如何调整?还有中小企业的部署潮。“突然之间,很多中小企业发现已经来到了‘必须拥抱AI’的路口。”话语间隙,就有同事来传递了一个行政执法机构的需求,对方想用DeepSeek但缺乏知识,希望能推荐老师过去授课。“我们经常一对一对接企业和机构的需求,以后可能要搭建交流平台。”
北京有着最直观的AI密度。据《北京人工智能产业白皮书(2024)》,北京市内约有2200家AI企业,2024年创造了3000亿元的AI核心产业规模。尤其在海淀区,据公开信息,去年注册AI企业已超1300家。
目前共有94款大模型在北京备案,占全国约四成。北京深度求索人工智能基础技术研究有限公司的大模型DeepseekChat出现在去年5月15日的市委网信办备案名单中,同一批还有来自小米、腾讯等公司的18个大模型。
在你追我赶的AI军备竞赛中,没人能预测下一次DeepSeek式的创新成果会如何出现。拥有最密集人才、教育、企业、创投资源的北京,也要在新一轮的爆发中继续迎接挑战。
在北京中关村东路,科技大厦林立,夜晚灯火通明,智谱等大模型公司就坐落在这里。摄影/本刊记者 王诗涵
第一颗火种
刘知远卷入AI浪潮已经十余年:12年前在清华大学计算机科学与技术系博士后出站后留校任教至今,5年前开始推进中文大模型方向的研发,两年半前联合创立面壁智能,办公地就在清华大学东南门附近。
同事形容他在海淀的工作节奏“密不透风”,这也是很多北京AI从业者的写照。在五道口的一座大厦里,《中国新闻周刊》记者见到了刘知远。言语之间,画面好像回到了故事的起点——中国大模型的初啼,就发生在这里。
彼时,距离ChatGPT-3出现还有2年,距离DeepSeek的轰动还有7年,只有一群对技术创新敏感的人,决定一起做一些事。2018年11月,北京智源人工智能研究院(BAAI)成立,是依托清华、北大、中国科学院、百度、字节、小米等人工智能先进单位共建成立的非营利性新型研发机构。
一个月前,由谷歌语言小组冠名的一篇论文引起了全球AI领域的轰动。论文提出了知名的预训练语言模型BERT,引发了NLP(自然语言处理)领域的变革。
微软亚洲研究院创始人之一、金山前CEO张宏江担任了智源研究院的首届理事长。他曾提到,中国可能也需要一家新型的科研机构,独立于高校、企业和政府,追求更系统的大目标。“国内大学里面研究者虽多,但坦率说都是一个个小单元,很难集中力量干大事。企业更多是聚焦自己目前的业务,很难在基础前沿方向上做足够坚定的探索。”
2019年4月,智源研究院正式启动实施“智源学者计划”,宣布将支持100位AI领域的优秀专家学者,研究院就在距离清华东南门不到三百米的地方。例如,在智能信息检索与挖掘方向,中国人民大学教授文继荣任首席科学家,清华大学教授唐杰等任智源学者;在NLP方向,清华大学教授孙茂松任首席科学家,副教授刘知远等任智源青年科学家。
智源研究院前院长黄铁军曾阐述“智源模式”的人才机制,其特点包括鼓励自由探索,坚持求真务实、不论资排辈,以“代表作”和“小同行评价”遴选人才等。“智源研究院建立了层层选拔千里马的良性机制,把北京最顶尖的AI学者都聚在一起,天时地利人和,埋下了中国大模型创新的第一颗火种。”刘知远感叹。
里程碑事件发生在2020年6月:OpenAI发布GPT-3,称使用了一万张显卡。Scaling Law(规模法则)显现的同时,AI进入“大模型”时代。
“当时我们几乎绝望了,2020年前发的很多模型在国际上都有引用和关注,但远不能与GPT-3相比。我们以前最多只在一台V100的8张卡上做实验。如果不马上跟进,差距就会越来越大。”刘知远回忆道。
建立了人才机制的智源研究院迅速响应,在10月搭建“百人大模型计划”,唐杰任项目总负责人。据雷锋网报道,当时,研究院向时任北京市领导报告了计划,市领导决定大力支持。自此,北京市全力推进中国大模型的研发。据上述报道,智源计划用既有的科研经费购买300P算力,北京市决定从专项经费再拨款购买700P,总共达成1000P。
为项目起统一代号的时候,大家想到“五道口”的谐音,于是取名“悟道”。
计划从四个方向展开,刘知远负责研发其中的中文大模型。2020年8月左右,他向智源立项申请,很快获批了10台浪潮信息的V100,共80张卡支持训练,成本在百万元级别。“这很有魄力,扁平化的流程让我们能加速追赶。一个月后机器就到位了,又花了二三十天,团队训练出了全球第一个中文开源大模型CPM,并在2020年底发布。”
2021年3月,多个方向的成果共同推进后,智源研究院正式发布了“悟道1.0”大模型。后来,模型训练的规模越来越大,唐杰主导的“悟道2.0”成为中国第一个万亿大模型(参数规模达1.75万亿)。彼时,市场的声音里有赞誉也有争议,有人认为太过“烧钱”,未来发展规划不清晰。顶住压力的项目团队,坚持完成了中国在大模型领域的拓荒。
“悟道”项目催生了中国和北京的第一批大模型创业团队,智源研究院也被称为AI界的“黄埔军校”。2019年6月,唐杰及清华大学计算机系知识工程(KEG)实验室同门张鹏带领团队实验室孵化出智谱,从此将公司方向瞄向大模型;2022年8月,刘知远牵头创立面壁智能,团队成员来自清华大学NLP实验室;2023年3月,杨植麟二度创业,创立月之暗面并推出大模型产品Kimi。
出来创业后,刘知远的心态发生了很大改变。“尤其感受到了市场需求的变化,技术创新从一件慢慢探索的事情,变成了一个使命必达的事情。这需要一个大团队系统协作,我们要建一艘大船,齐头并进。”
深度求索等多家科技公司在北京的办公楼。图/视觉中国
创新的孵化
当创新的火种延续,越来越多的AI创业者从实验室走出来。
2023年2月,背靠清华大学智能产业研究院(AIR)的清智孵化器装修完成。北京有着超百家企业孵化器,但清智的高校背景,使它最为接近顶尖高校的科研成果。
走进中关村的搜狐网络大厦,右侧扶梯上楼,一个1100平方米的办公空间映入眼帘,装修风格像大学图书馆和大厂办公区的融合。玻璃窗上绘有不同学科的标志性图案、公式或模型,透过这层装饰,能看到许多年轻人正在不同的会议室讨论。
“我们想创造一个轻松、活泼和创新的环境。”清智资本及孵化器创始合伙人张煜告诉《中国新闻周刊》,这个办公空间可以同时容纳20—30个团队,基本是占满的状态,目前这里有来自清华、北大、人大、港科大、南洋理工大学、斯坦福大学等高校背景和许多产业界的创业团队。入驻这里后,初创团队每月只需交100元日常管理费;小规模的算力也免费提供,用于训练或推理。
近几年,中关村诞生了不少新的创业神话,许多AI独角兽也曾在这里留下足迹,例如百川智能、生数科技等。走在办公区,安静的氛围里,紧张感和秩序感交织。每处工位和会议室都贴着初创企业的logo。不超过一年半,团队壮大后就会搬离这里,也可能在未来某天一举成名。
过去2年,张煜早上8点上班,晚上10点下班是常态。为了把更多空间留给创业团队使用,他平时就坐在会议室办公,桌上放一台笔记本电脑。
清智资本也在这里办公,在2022年4月正式注册完成。作为牵头人的张煜,曾在微软公司工作超过15年,积累了研发管理和科技孵化器的经验;所组建的技术评审和产业转化的专家团队,也大多有清华系和微软系的双重背景。清华大学的人工智能体系有三驾马车,AIR负责产研结合,人工智能研究院、人工智能国际治理研究院则对应基础研究和国际治理。
2023年5月,清智孵化器开园仪式上,张煜(左一)组织嘉宾对谈。图/受访者提供
BP(商业计划书)近乎潮水般地涌向邮箱,张煜表示,组织高校路演可能一次收到8—10个项目;除了AIR的授权项目,来自其他教授和专家推荐的项目也逐渐变多。“去年,保守估计,我们看了超1000份BP,直接聊的创业团队约200个。”
AI领域是北京最火热的创投赛道。据睿兽分析数据,2024年,北京在AI领域共发生投融资事件205起,金额达242.4亿元。
其中不乏国资的身影。以面壁智能去年12月完成的一轮数亿元融资为例,领投方之一有中关村科学城基金,跟投方之一有北京市人工智能产业投资基金。“在接触的过程中,我们能感受到有非常相信长期主义、科技创新的团队,是高度专业化的。”刘知远说。
至于北京的市场化机构,据IT桔子数据,去年投资AI最多的是奇绩创坛,共34次;其次是讯飞创投和Z基金;经纬创投、达晨财智等均有10次;大模型公司智谱则有9次。
张煜也在去年出手将近10次,种子轮和天使轮各一半。清智的筛选标准很明确:看重团队的创新能力、科研基础,也关注项目落地性,投后1—2年就必须有明确的落地场景和应用。
AI行业发展极快,团队必须共同决策,出手非常谨慎。团队会定期开技术委员会议和投决会,双会通过的项目才能被投资。对于看重的项目,投资进度非常快,从立项到打款的投资周期平均为22天。其中,最快的一次天使投资只用了12天。
投资除了速度还要有耐心。一家创业团队提出的想法是做具身智能的大脑,在投资团队看来非常有价值。但当时的市场大多停留在小脑和本体的方向。“曾经一路觉得走不下去,非常艰难。去年下半年,团队终于得到市场认可,拿到了2亿元融资。”这离不开专家学者对科技含量的判断力。“不过,AI领域很艰深,不是所有项目都能看得懂,我们也错过了一些优质项目。”张煜坦言。
学院派出身的学生往往技术水平很高,但对产业现状缺乏了解,张煜的团队会帮助他们先找到小的应用场景。张煜表示,一定要给予创业者足够的包容和鼓励,这也是清华系的风格。“即便是不成熟的想法,也会和他讨论各种可能性,而不是直接pass(放弃)。”
清智创投和孵化器有个不成文的原则:来自清华的项目不超过一半。“AI的创新生态绝对不能封闭,一定要在更广阔的交流中寻找创新的机会。”张煜说。
刘知远在2024年中国人工智能大会上。图/受访者提供
AI应用提速
在DeepSeek的开源影响下,AI应用将在今年加速铺开,在北京尤其如此。
“开源吸引了大量开发者参与二次开发和垂直领域优化。”张金瑞说,许多有一定模型调优能力的应用企业向他们表示可以“拿来即用”。近期,18家芯片厂商和3大运营商,以及微信、WPS、百度等国民级应用均已接入DeepSeek,标志着大模型在应用端的快速规模化。
张煜预计,相对近两年学院派创业的火热,他估计产业派创业者也会显著增加。
拥抱AI的浪潮开始了,大模型公司也感受到水温的变化。“去年更多是接到咨询,意向合作方没下定决心‘是否要干’;今年我们听到了更多‘肯定要干’或‘必须得干’,对方希望得到具体落地方案。”百川智能联合创始人、总裁茹立云告诉《中国新闻周刊》,当前,许多地方的医院或卫生健康委已经将AI的应用视作一号位工程,甚至要求在日报中更新AI的进展。
2023年4月,搜狗创始人王小川找到他的清华计算机系校友、搜狗前COO茹立云成立了百川智能。公司成立之初就选定医疗作为通用大模型的核心突破方向。
谈成合作并不容易,人们对新技术的看法不一,用茹立云的话讲,需要“双方愿景一致,不谋而合”。去年8月,百川智能确认了首个重要医疗合作伙伴——国家儿童医学中心北京儿童医院。
北京儿童医院拥有中国儿科界仅有的三位院士,高级职称的医护人员600余人,不仅医疗实力是国内“天花板”,也是最忙的儿童医院。据2023年数据,其年均门诊量约300万人次,外地患儿比例达45%左右,10年前这一比重高达70%。
也正因此,院长倪鑫可能是最了解儿科医疗资源有多紧缺的人。王小川曾在接受媒体采访时评价他“很有魄力”,当时就提出“要造100万儿科医生”。
这句话的意思是,中国儿科医生数量当前仅有20.58万人,希望基于大模型的AI医生能补充相当于100万人类医生的劳动力。“我们判断,训练大模型最适合的就是来自专家的数据,而医生是其中最稀缺、知识密度最高、数据最有价值的群体。”茹立云表示,北京在医疗方面的学科优势,能和公司的技术积累互相促进。
AI医生的终极形态是成熟的人形机器人加上AI版的医生大脑,目前以小程序、端侧App为主要形态。医生或患者与之对话,得到关于病情的分析和处理建议。
2月13日,AI儿科医生在北京儿童医院正式“上岗”:多位来自不同科室的专家为一名颅底肿物伴随抽动症状的患儿共同会诊,讨论病情与诊治方案;同时,工程师将患儿的主要诉求和病历资料输入模型后,得出相应建议,两者交叉比对,结果被认定高度吻合。
这背后是漫长的训练和磨合过程。据了解,去年11月,百川的AI儿科医生追平了互联网问诊平台在线医生76元的水平;今年1月,经北京儿童医院的评测,达到主治水平,又经过多科室的顶级专家评测,才认为达到临床应用条件。
茹立云表示,除了要跟随大模型领域每天更新的论文与方法,融合与提高模型技术,还要通过大量实验去验证各个方法的实际效果,其中的细节工作并不逊于训练通用大模型。
“这是一个交叉学科工程。医疗相关的数据处理是难点,例如强化慢思考的数据如何合成,一般的工程师也很难看懂,需要双方共建。”他说。因此,百川智能招募了许多有医学和工程双重背景的人才。
丰厚的医疗资源,以及领跑创新的职责,似乎不允许北京跑慢一步。海淀区卫生健康委是首个同AI公司合作的地方卫生健康委,计划在3月底实现海淀区居民AI全科医生的覆盖,提供初步判断、分导诊断的服务。
这将为全国性的难题做先行试验:全科或家庭医生的社会普及度不高,服务能力和治病水平有限,大多数居民没有分导诊断的意识,导致医院资源分配不均。
在AI应用的各大赛道中,医疗是发展最快的领域之一,目前主要归为AI影像/手术、AI医疗服务、AI辅助诊断、AI制药四大方向。
孵化了1—2年的初创项目已经崭露头角。以张煜投过的项目为例,紫荆智康建立了AI医院系统,虚拟医生的诊断准确性已堪比人类的专家医生;亿航生物主要做外泌体技术的研发,与医院合作完成阿尔茨海默病、帕金森病早期血液诊断等研究;华深智药研究大分子制药算法,以蛋白质3D结构预测算法,用于新药研发场景。
去年7月,《北京市推动“人工智能+”行动计划(2024—2025年)》印发实施,列出了包括医疗在内的5个重点领域和10个行业细分领域。“值得期待的是,未来能有企业拿到核心数据,做出应用级的水平和效果,大幅降低成本和提高效率。”张金瑞说。
以AI全科医生为例,茹立云表示,评判效果的显著性有许多要件,如签约率达40%以上、居民满意度明显提升、社区医生承接量提高等,最终促进有限高水平医疗资源的释放。
刘知远认为AI应用的爆发是阶段性的。“今年可能是深度思考的爆发,好比原子弹爆炸的链式反应,未来还会有更大的爆发。”
中关村智造大街是北京中关村核心区域的重要组成部分。截至2025年2月,智造大街整体入驻企业及项目共计368个,入驻率达95%。摄影/本刊记者 王诗涵
“海水变蓝的那一刻”
自DeepSeek-R1发布,大模型竞争再度“白热化”。其免费策略倒逼美国科技巨头调整商业模式,重新考虑开源。例如,OpenAI已宣布GPT-4.5/5将陆续发布,免费版ChatGPT将在标准智能设置下无限制使用GPT-5对话。
国内的技术竞赛也还在继续。以月之暗面和DeepSeek的多次“撞车”为例,1月20日,两家公司同日发布推理模型Kimi K1.5和DeepSeek-R1;2月18日,又同日发布有关注意力机制的论文,分别提出MoBA(混合块注意力)和NSA(原生稀疏注意力)。
DeepSeek提前宣布,2月24日起的一周连续5天每天开源1个代码库。2月23日,月之暗面发布了自家的第一个开源模型。
竞争正不可阻挡地加剧,但其追求却是一致的。刘知远具体解释,自AI学科开始成为一个赋能全人类的普惠技术那一刻起,就沿着两条主旋律发展:
一是让模型能力越来越强,不断点亮新的技能点。两年前是让模型学会利用知识回答问题,现在是让模型学会像人一样深度思考,未来1—3年,可能是让模型像人一样自主学习、互相合作、具备非常强的创造力等。二是让模型变得便宜,训练和推理的成本都能变得更低,直到让所有人都用得起。
“从这个意义上看,当模型的技能点还没点完,就已经假设技术固定了下来,一定是错误的认知。”他强调。
这也是DeepSeek出现的重要意义。前两年,大量的声音开始反思中国为何迟迟没有出现OpenAI在GPT-3时代的颠覆式成功,中国大模型的商业化是否存在问题。去年4月,字节跳动的豆包上线首周用户量即破千万,“大模型=大厂”的认知再度被强化。
行业普遍规律显示,初创企业往往难以承受大模型训练的高昂成本。2024年,北京市经信局曾通过算力券奖励政策,帮助小米、智谱、零一万物等60家企业降低算力租赁成本。总计补贴近6000万元。
DeepSeek打破了这一固有认知。不过,其模式被认为“难以复制”,相比于其他AI明星企业,它在外界的曝光度不高,创始人梁文锋的职业背景独特,公司也没有对外融资。
不过,从实验室到创业公司,AI创业者们身上似乎都有着相似的精神,即对技术创新的极致追求。下一个DeepSeek式的创新成果,有可能降临在其他玩家身上吗?
受访者普遍表示,下一个技术突破点完全值得期待,无论是创业企业还是大厂,都可能成为下一个破局者。“大模型的技术还没有收敛,未来是百花齐放的。除了算力、数据等资源保障,人才密度是最核心的要素,这也是北京最大的优势。”张金瑞说。
刘知远判断,无论2年前还是现在,整个AGI(通用人工智能)的马拉松仍然还在前半段甚至1/4的阶段。“要看谁持续的原始创新能力足够强,源源不断地寻找新路。”他也认为,尽管不一定如DeepSeek般引起全球轰动,但接下来一定会出现越来越多中国团队通过科技创新达到的世界级成果。
北京的AI密度,更有可能为技术理想者们对AGI的信念提供更长远的支撑。
“机器人与生命健康的结合,是我们所看到AGI时代的价值点。”茹立云说,尽管现在机器人的能力还没到非常成熟的阶段,但预计3—5年后就会有新的突破。梁文锋也曾表示,当前阶段是技术创新的爆发期,语言大模型是通往AGI的必经之路,坚信AGI会在这一代人中实现。
北京的一大批创业者们,围绕AI正找回久违的“理想主义”。在面壁智能去年的年会上,刘知远提到了“一直游到海水变蓝”的故事:作家余华小时候家住在海边,他好奇为什么课本说海水是蓝色的,但家乡的海水都是黄色的,于是开始往外游,直到海水变蓝。
刘知远认为这太像大家追求AGI的过程,“其实就是一种好奇心,一种信念感”。“我们现在所看到的AI的海水是黄色的、浑浊的,有各种各样不同的声音。我们要找到属于自己的方向,一直游,当然过程中会有很多挑战,也有很多美景。”
“我们要一直游到海水变蓝的那一刻,直到AGI的出现。”他说。
发于2025.3.3总第1177期《中国新闻周刊》杂志
杂志标题:北京:AI密度与创新浓度
记者:王诗涵
编辑:闵杰