AI周:科技巨头的AI for Science黄金时代正在落幕

AI for Science

科技巨头曾许诺AI for Science,在OpenAI推出GPT-4后,迅速让位于现实,要么选择收编这支费钱的团队,让它专注于商业变现,要么就选择裁掉它。

DeepMind属于前一种,上半年与谷歌Brain正式合并,相当于放弃了长期坚持的独立性;Meta的ESMFold团队是后一种,如今在扎克伯格强调的“效率年”(year of efficiency)中被解散了。

在商业应用落地上,谷歌与Meta都大大落后于目前买断了OpenAI的微软。在微软投资前,OpenAI也强调是一家非盈利的研究机构。

DeepMind曾是AI领域最亮眼的明星,蛋白质折叠预测模型AlphaFold是它科学探索的代表作之一,被认为是2020年的科学突破。ESMFold则是继AlphaFold2之后,规模最大的蛋白质预测模型,它基于Transformer架构,足足有150亿参数,能够将速度提升60倍。Meta还创建了一个开源数据库Atlas,使科学家能够轻松检索与他们的工作相关的特定蛋白质结构。

人们还畅想过,AI for Science帮助科学家发现新的超导材料,实现可控核聚变,提前预警自然灾害等,更关键的是为科学发现与技术创新提供新的范式。科技巨头将发挥重要作用。

最近,谷歌DeepMind研究人员在Nature上发表了一项研究《人工智能时代的科学发现》,总结了AI在科学发现中的应用和进展。

虽然科技巨头拥有大规模计算基础设施,但高等教育机构在跨学科整合方面可能更有优势。学术机构还拥有独特的历史数据库和测量技术。

在科技巨头内部从事AI for Science探索的黄金时代正在落幕。它持续了10年左右。2010年,Deepmind成立,次年,谷歌Brain成立。2013年,Meta成立了FAIR,致力于推动AI的基础科学研究;百度成立了深度学习实验室(IDL),是后来百度研究院7个实验室之一。此后,腾讯AI Lab、阿里达摩院、微软AI4Science团队等先后成立。当时,人工智能人才从学界涌入业界。但从2020年开始,不少AI大牛就开始返潮,有些回到了学校教书,有些则出走独立创业。最近的就是FAIR的AI科学家何恺明,正式官宣入职MIT。

在市场逆风,或者竞争激烈时,科技巨头选择让基础科研向商业落地低头,并不让人意外。去年,Meta的FAIR团队已经事实上重组,不再“集中化研究”,而是下放到各个业务组织部门中去;今年,阿里在重组时,也将达摩院的自动驾驶团队,全部并入了菜鸟集团。

《金融时报》采访了Meta内部人士,有人对FAIR团队颇有微词,认为该实验室的学术氛围对Meta在生成式AI浪潮中的迟到,负有一定程度的责任。这种表述与此前谷歌放风正式整合Deepmind时一致。当时,谷歌内部存在一种声音,要求整合资源,尤其是算力资源,集中突破生成式AI应用落地。

科技巨头拥有庞大的算力,如何与高校的研究使命和研究力量合作,这是科学研究的“第五范式”应该考虑的。预计未来研究团队的组成和科学探索的生态,都将发生变化,包括科学家、AI专家、软件和硬件工程师,以及涉及各级政府、教育机构和公司的新型合作。

在上个月发布的《生成式AI》报告中,我们就发现,在全球范围内,入选人工智能学科AI2000名单的顶尖学者,来自企业的数量过去几年整体呈上升趋势,美国尤为明显。而中国的人工智能顶尖研究人员,压倒性地来自高校。此外,还有不少顶尖学者选择了创业。

中美拥有顶尖AI学者最多的机构

AI周:科技巨头的AI for Science黄金时代正在落幕插图

一周热点

本周,还有这些发生在AI领域的事件值得关注:

一、风险、监管与伦理

网信办就人脸识别技术应用征求意见。《人脸识别技术应用安全管理规定(试行)(征求意见稿)》提到,在公共场所安装图像采集、个人身份识别设备,应设置显著提示标识;在公共场所使用人脸识别技术,或者存储超过1万人人脸信息的人脸识别技术使用者,应当在30个工作日内向所属地市级以上网信部门备案。

二、中美科技巨头

微软联手加州伯克利发布Gorilla。该大模型采用了一种名为“检索器感知训练”的技术,在API调用方面的准确性和灵活性方面优于GPT-4。它还可以为没有训练数据集的API生成正确的调用。

谷歌发布 AI 代码编辑器Project IDX。它是基于浏览器的开发环境,集成了基于 PaLM 2 的编程任务基础模型的Codey。它支持智能代码补全,可以帮助开发者解答一般编码问题或正在处理的代码有关的特定问题,以及添加如 “添加注释” 等上下文代码操作的能力。

OpenAI公布爬虫GPTBot。该工具能够在注重版权的基础上,使用透明的方式收集网页信息,来训练 OpenAI 旗下的各 AI 模型。GPTBot将严格遵守任何付费墙的规则,不会抓取需要付费的信息,并且也不会收集能追踪到个人身份的数据。内容拥有者将可以拒绝网站数据被它抓取。

Meta解散AI预测蛋白质结构团队。这表明在竞争压力下,公司正在放弃纯粹的科学项目,转向开发经济效益更高的AI产品。去年7月,Meta推出了其蛋白质结构预测模型ESMFold;同年11月,Meta创建了超过6亿蛋白质元基因组结构的开源数据库Atlas。

华为HarmonyOS 4,把大模型接入手机。华为最新发布HarmonyOS 4中的智慧助手小艺,基于华为盘古L0基座大模型,针对终端消费者场景的数据精调,能完成文本生成、知识查找、资料总结、智能编排、模糊/复杂意图理解等任务,也可以调用各种APP服务。全新小艺将在今年8月底开放邀请测试。

三、大模型和行业应用

百川智能发布530亿参数的闭源大模型。它支持中英双语,擅长知识问答、文本创作等领域,相对此前两款模型有了更好的表现。目前已开放内测申请,并将在下个月开放API。按计划,今年四季度,百川智能将发布千亿参数的大模型,预计将追上GPT-3.5的水平。

Stability AI推出生成式AI编程产品。这款名为StableCode的应用,通过使用3种不同的模型,最大16000上下文窗口,帮助程序员提高编码效率。它的数据来自BigCode项目。上半年,HuggingFace和ServiceNow推出的StarCoder LLM就基于BigCode。

国内ERP龙头金蝶发布金蝶云·苍穹GPT。它是金蝶PaaS平台的一部分,接入了文心一言、OpenAI等通用大模型能力,落地了财务分析、人才推荐、供应链风险分析、自然语言生成报表、流程以及低代码页面等应用场景。

Aptos Labs与微软合作构建AI区块链。区块链初创企业Aptos Labs准备推出Aptos Assistant,允许用户以自然语言询问有关区块链生态体系的问题,同时也可用来指导开发者如何创建智能合约与分布式应用,并指引他们寻找各种资源。

四、资金流向

生数科技完成数千万元天使+轮融资。该清华系团队于3月发布了9.5亿参数开源多模态大模型UniDiffuser,并于6月获得了蚂蚁集团等1亿美金融资。该团队计划在年底前,推出面向图像创作、3D资产创建等内容创作场景的“AI工具集”。

奥创光年获得千万美元A轮融资。该公司成立于2021年,现已推出Mogic Content AI Studio& Mogic Copilot,为企业客户提供覆盖营销策略洞察、AI内容制作等营销环节的解决方案。联合创始人徐哲曾在阿里巴巴、字节跳动等互联网巨头负责产品与技术;联合创始人杨海曾在百事可乐、雅诗兰黛等消费品牌负责市场与数字化。

Datablau数语科技完成B1轮融资。这是一家数据资产管理软件和服务提供商,主要面向企业提供从事前模型管控、事后数据资产盘点以及数据资产价值输出等服务,构建了相应的向量数据库,并沉淀了不同行业的数据标准和语料库。

爱诗科技完成数千万元天使轮融资。这是一家聚焦通用视觉多模态大模型的初创公司,覆盖视觉各模态,包括图像、3D、视频等。创始人王长虎有微软亚洲研究院背景,曾任字节跳动视觉技术负责人。

澜码科技完成数千万元A轮融资。该公成立于2023年,研发基于大模型的自动化运营中台,打造低代码/无代码的人机交互界面。目前已推出Agent平台“Ask XBot”,专家通过人机交互界面教授机器如何协助一线员工,一线员工通过自然语言指令要求机器协助完成数据分析与资料调取等工作。

Tractian获4500万美元 B 轮融资。这是一家使用传感器、边缘计算硬件和 AI 模型,根据振动和频率模式识别机械潜在故障的初创公司。它的人工智能模型专门针对不同的机器类型和工业垂直领域量身定制,目前约有3000个模型。

One Model获4100万美元融资。这家初创公司利用人工智能帮助雇主在招聘、雇用、晋升、裁员、工作场所规划等方面做出决策。

五、基础设施

英伟达发布“加速计算和生成式AI时代的处理器”。这款面向加速计算和生成式AI的新一代NVIDIA GH200 Grace Hopper超级芯片,预计将于明年第二季度投产。此外,英伟达还发布了NVIDIA AI Workbench,它能让开发人员随处构建或运行自己的生成式AI模型;NVIDIA AI enterprise 4.0,它提供了一系列生成式AI工具。

六、开源生态

智源开源语义向量模型BGE。这款开源可商用中英文语义向量模型BGE(BAAI General Embedding),在中英文语义检索精度与整体语义表征能力上,超越了OpenAI 的text embedding 002等同类模型。同时,在同等参数量级模型中,它的向量维度最小,使用成本更低。

元象开源百亿参数通用大模型。这款名为XVERSE-13B的大模型,基于1.4 万亿高质量、多样化 tokens 的训练数据集,支持40多种语言与8192长度的上下文窗口,在几项测评中表现优于目前的同等尺寸模型。它向学术研究完全开源,企业只需简单登记,即可免费商用。

七、论文

斯坦福的“AI小镇”正式开源了!25个AI代理居住在一个数字化的西部世界Smallville中,他们不知道自己生活在一个模拟中。他们上班、闲聊、组织社交活动、结交新朋友,甚至坠入爱河。每个人都有独特的个性和背景故事。2023年,Smallville是最具启发性的AI代理实验之一。我们经常讨论单个LLM的突现能力,但多代理突现在大规模上可能会更加复杂和迷人。一个AI的种群可以演绎出整个文明的演变。前方有无尽的新可能性。游戏将是首先受到影响的行业。

AI周:科技巨头的AI for Science黄金时代正在落幕插图1

语义对齐,提升非英语大模型能力 :由于训练数据分布的不平衡,大型语言模型(LLM)的语言能力往往偏向于英语。通过在语言之间建立语义对齐,可能增强预训练LLM在非英语语言上的能力。研究人员对开源大模型LLaMA进行指令调整,同时使用翻译任务数据和跨语言通用任务数据,以获得跨语言模型(x-LLaMA)。实验结果显示,该模型在六种非英语语言上平均超越了英语指令调整的对应模型(Alpaca)42.50%。在中文人文任务上取得了显著的改进,超越Alpaca 8.2%。语义对齐还能提升翻译能力。

LoRA可能用于预训练和微调大模型:论文探讨了低秩训练技术(LoRA)作为训练大型神经网络的替代方法。一种名为ReLoRA的新方法,利用低秩更新来训练高秩网络,应用于预训练Transformer模型,参数多达3.5亿,展示出了与常规神经网络训练相当的性能。还可以观察到ReLoRA的效率随着模型大小的增加而增加,使其有望成为有效训练数十亿参数模型的方法。

AI周:科技巨头的AI for Science黄金时代正在落幕插图2

不信通用AI的马库斯,自荐可信AI方法:目前最流行的生成性AI,由大型语言模型(LLM)组成,这些模型经过训练可以产生看似合理但不一定正确的输出,导致LLM并不完全可靠。有一种替代的AI方法,理论上可以解决许多问题:使用组织好的知识和经验法则来教育AI,使推理引擎能够自动推导出所有这些知识的逻辑结果,始终可以获得完整的逐步推理过程,而且每一步所使用的知识的出处都可以被记录和审计。但是,这样推理引擎的运行速度就会太慢。有一种AI系统,Cyc,已经开发出一种方法,可以使用高阶逻辑进行实时推理。建议任何值得信赖的通用AI都需要将LLM和更正规的方法结合起来。

AI周:科技巨头的AI for Science黄金时代正在落幕插图3

八、其他

中国AI人才缺口400万。麦肯锡报告称,预计到2030年,中国对AI人才的需求将从100万人增加到600万人,而国内外大学及现有顶尖人才储备只能提供约200万,缺口将达400万。2030年后,随着出生率下滑,大学生人数将减少,AI人才缺口问题将更加严峻。

湖北成立算力与大数据产业联盟。首批联盟成员单位包括三大运营商、华为、科大讯飞、武汉大学、武汉人工智能研究院、中国长江三峡集团公司等20家企业或机构。据《湖北省加快发展算力与大数据产业三年行动方案(2023—2025年)》,湖北力争到2025年成为国家算力网络中部枢纽,算力与大数据产业规模突破1500亿元,占全国规模总量的10%以上。

河南构建中原智能算力网。《河南省重大新型基础设施建设提速行动方案(2023—2025年)》提出,推进智算中心、超算中心、新型数据中心建设,打造中部算力高地,其中,高性能算力占比超过30%。《河南省支持重大新型基础设施建设若干政策》提出,建立以“算力券”为核心的算力平台运营结算分担机制,每年发放总规模不超过5000万元的“算力券”。