AI周:2024,中国会训练出甚至比GPT-4更好的大模型

如果OpenAI最新正式发布(General Availability)的Code Interpreter就是GPT-4.5,那么关于GPT-4的秘密逐渐掀开一角,就不那么意外了。

通用人工智能的短期探索方向开始明朗。今年底,欧美科技巨头将纷纷拿出GPT-4水平的大模型,中国肯定也能在2024年赶上来。这也是未尽研究与启明创投在《生成式AI》报告中,技术创新与行业趋势的十大展望中的第一条。

大模型的秘方

炼制大模型GPT-4的秘方已经泄露,得到业内几乎一致的认可。爆料过谷歌内部信《我们没有护城河,OpenAI也没有》的Dylan Patel认为,OpenAI之所以不开放,就是因为GPT-4的成功可以被轻易复制。

记住这一点,花费是8192张H100训练55天,2150万美元。这里是它的秘方:

– 架构 –

GPT-4规模比GPT-3(1750亿参数)大10倍以上,约1.8万亿个参数,跨越120层。混合专家模型(MoE,16个专家,每个约1110亿参数)。不是像PaLM(或GPT-3)那样的密集型transformer。

每次前向推理(生成1个token)只使用大约2800亿参数和约560TFLOP。这与纯粹的密集模型所需约1.8万亿参数和约3700TFLOP形成对比。

– 并行 –

为了在所有的A100s GPU上并行,他们使用了8路(8-way)张量并行(Tensor Parallelism)与15路的流水线并行(Pipeline Parallelism)。此外,他们还使用了DeepSpeed ZeRo Stage 1 或 block-level FSDP。

– 视觉 –

视觉编码器与文本编码器是分开的,并有交叉注意力。这个架构类似于Google DeepMind的Flamingo。这在GPT-4的1.8万亿之上,添加了更多的参数。在仅文本预训练之后,它被使用另外约2万亿个token进行微调。

– 数据 –

在约13万亿token上进行训练(多个轮次epoch,不是unique tokens)。再加上来自ScaleAI和内部的数百万行指令微调数据。

预训练阶段的上下文长度为8k。GPT-4的32k seqlen版本是基于预训练阶段后的8k进行微调的。

– 成本 –

OpenAI的GPT-4训练的FLOPS约为2.15e25,在约25,000个A100上训练了90到100天,算力利用率约为32%到36%。这种极低的利用率,部分是因为出现了大量需要从检查点重新开始的故障,部分则是因为大量GPU间并行计算通信(All-reduce)的代价。

如果他们在云中的成本约为每A100每小时1美元,那么这次运行的训练成本将约为6300万美元。这还没算上失败尝试,以及数据收集、人类反馈等费用。

如果采用H100来预训练,那么大概需要8,192个,约55天完成,总费用2150万美元,每个H100每小时2美元。Dylan预计到了今年年底,会有近10家公司,拥有更多的H100,他们很可能训练出能力齐平GPT-4的大模型来。

– 其他 –

OpenAI可能在GPT-4的推理中,使用了推测解码技术(speculative decoding)。

使用Multi-Query Attention而不是Multi-Head Attention,这在现在看来是常规做法。

同时使用了可变批次大小与连续批次技术(Continuous batching)。

GPT-4已经是OpenAI的过去式。他们最新拿出来的Code Interpreter(代码解释器)模型,比GPT-4更强大,被视为尚未被官方正式命名的GPT-4.5。

但谁也没有护城河。OpenAI内部出现了员工离职,对CEO奥特曼不务正业,公司下一步进展缓慢的抱怨四起。在外部,谷歌等巨头仍在起舞追赶,Anthropic等新物种也野心勃勃,马斯克的xAI更是吸引了大量顶尖人才。

中国也在大炼模型。刚刚过去的世界人工智能大会上,就展示了数十个大模型。政府也在牵头为它们提供算力与数据。给它们一年的时间,摸着OpenAI过河,肯定有企业能做出比肩甚至超越GPT-4的大模型。

开源领域,中国也有得争。本周,初创企业百川智能发布130亿参数的开源可商用的大语言模型Baichuan-13B,用到了1.4万亿token数据集,当前开源同等规模下训练数据量最大,也是目前所有330亿以下参数规模的开源模型中效果最好的可商用大语言模型。这距离其发布上一个模型才过去了1个月。此外,智源宣布Emu宣布开源,智谱宣布ChatGLM2-6B免费商用。

AI行业重点事件

本周,还有这些发生在AI领域的事件值得关注:

一、风险、监管与伦理

生成式AI管理暂行办法于8月15日起施行。该暂行办法为面向公众的生成式人工智能的本土的创新创业,划定了更明确的边界,更柔和的治理,更积极的基调。它在征求意见稿的法律依据的基础上新增了《科学技术进步法》;明确了在“发展和安全并重、促进创新和依法治理”的原则下,采取“包容审慎和分类分级监管”;扩大了自主创新的鼓励范围,在算法与框架之外,明确纳入了芯片及其配套软件平台,以及算力、数据等基础设施平台;明确企业、教育、科研等机构的研发与应用,未向境内公众提供服务的,不适用本办法。

FTC首次正式调查OpenAI。美国联邦贸易委员会(FTC)正在调查OpenAI是否违反消费者保护法,并要求OpenAI提供有关其处理个人数据、向用户提供不准确信息的可能性以及“对消费者造成损害(包括声誉损害)的风险”的大量记录。这是美国监管机构首次正式发起对人工智能聊天机器人带来的风险的审查。

好莱坞六十年来首次全面罢工。尽管此次核心焦点在于演员、编剧与资方的薪资矛盾,但首次提到了人工智能的演职人员利益的影响。人工智能捕捉了大量演员数据,他们关注能否从人工智能生成的影像中获得收益。此前,编剧同样担心人工智能海量炮制剧本内容,侵犯其版权利益;他们还担心资方将AI生成的剧本以更低的费用交由其修改,自身则成为新的“零工经济”。

二、中美科技巨头

马斯克宣布人工智能公司xAI成立。这是一家汇集DeepMind、OpenAI、谷歌研究院、微软研究院、特斯拉等诸多公司原开发人员的初创公司,总体目标是构建一个良好的AGI,以理解宇宙为愿景。xAI将利用推特上的公开数据来训练其AI模型,将会与特斯拉在芯片或AI软件方面合作。同时,xAI也将促进特斯拉加快自动驾驶能力。马斯克声称,xAI最终开发的AI语言模型,可能不会“政治正确”。

OpenAI获得美联社与Shutterstock数据合作。美联社将其部分新闻报道档案授权给OpenAI,并获得OpenAI的技术和产品专业知识。图库网站Shutterstock则与其续约六年,允许OpenAI公司在此期间使用Shutterstock的图像、视频、音乐和元数据库来训练其模型。该网站与OpenAI的合作始于2021年,Shutterstock推出了一项“贡献者基金”,当艺术家的作品被用来训练OpenAI的模型时,会对他们进行补偿。

Google 更新 BARD 功能。Bard已可以支持包括中文等40多种语言,场景拓展到全球更多地区,尤其是欧盟市场。Bard可以将回答用语音读出来,对想听听单词正确发音或诗歌朗诵的用户较大帮助;用户可以调整AI回复语气和风格;新增多项“增进用户生产力”功能,包括Python代码导出到开发软件,可分享的AI工具的聊天链接;它现在还能解读图像信息等。

三、大模型和行业应用

Anthropic宣布Claude 2正式上架。它使用了2023年初的新数据来训练模型,且非英语数据比例明显增加。它的编码能力提升很大;将长而复杂的自然语言文档转换为结构化数据格式;支持10万tokens的输入,并且可以一次性输出4000个tokens。此外,该公司还称它在众多的测试中有更好的表现。

京东大模型“言犀”亮相。言犀大模型训练时,融合了70%的通用数据与30%数智供应链原生数据。官方称,已经在实体属性抽取准确率、生成式多轮对话等方面超过传统Transform模型。大模型及相关平台将在8月上线。

毕马威向微软20亿美元定制AI工具。该公司于本周二与微软签署了价值20亿美元的协议,将在未来五年内开发定制AI工具。毕马威将利用微软云和Azure OpenAI服务来改善毕马威的税务、审计和咨询服务,并创建特定的客户解决方案。该公司称自动化变革有望在这5年内为其创造120亿美元的收入。

人大团队发布政研大模型。“政研大模型(PSLLM-14B)”基于Multi-Task Transformer架构,共计140亿参数,会以插件化的形式融入现有的数字基础设施和政务系统,可以作为政策文本分析和解读的智能数字辅助工具,帮助政策研究人员更快地获取政策信息,更准确地理解政策含义。

MIT打造实验科学家的大模型助手。麻省理工大学李巨教授团队推出了一个专为实验科学家设计的AI助手CRESt,研究人员即使不具备编码经验,只需与CRESt交谈,便可利用自动化实验平台帮助自己做实验。CRESt的操作系统由用户界面、ChatGPT后端、主动学习、端执行器四部分组成。

四、资金流向

Alphasense以25亿美元估值筹集资金。今年4月,该公司曾以18亿美元的估值,从Alphabet和高盛等机构融资1亿美元。有别传统金融信息数据平台,该公司业务被视为金融知识引擎系统,标普100指数中的85家公司是其客户群体。

reInvent AI完成数千万美元首轮融资。reInvent AI专注于基础模型和通用人工智能,由联想创投投资。它不仅提供可直接使用的预训练行业基础模型,还支持企业客户根据自身需求进一步定制专属基础模型。团队核心人员来自OpenAI及欧洲科学院院士,拥有涵盖欧洲语言和行业的专业数据集。该公司德国柏林和中国上海双总部,德国公司名为nyonic。

Nomic融资1700万美元。Nomic成立于2022年,目前已发布两款产品,包括开源AI模型GPT4ALL,可免费下载,在笔记本上运行;还有名为Atlas的工具,允许用户可视化那些用于构建大型语言模型的非结构化数据集。此次投资估值为1亿美元。

Resemble AI融资800万美元。该公司创立于2019年,主要关注游戏行业的生成式语音人工智能。当时,他们关注到游戏内的语音内容无法跟上游戏本身频繁的版本更新。该公司还开发了Resemble Detect,可以区分真实音频和伪造音频。

Causaly完成6000万美元B轮融资。这家欧洲的药物研发AI初创公司,采用知识图谱与生成式AI结合的方法,帮助客户在药物发现和开发的关键决策过程中查找、分析和应用数据。迄今为止融资总额达到9300万美元。

英伟达向Recursion投资5000万美元。Recursion将其超过2.3万TB的生物和化学数据集,在英伟达的云平台上训练AI模型;英伟达则通过旗下生成式AI云服务BioNeMo,将这些模型授权给其他生物技术公司。

五、基础设施

英特尔为中国定制AI算力芯片。这次在中国发布的定制版Gaudi2,和国际版最大的区别是网口的数量,国际版集成以太网端口数量是24个,中国版减少到了21个,这会降低中国版的网络速度。该公司还发布了基于Gaudi2可以大规模部署训练以及推理大模型的整体解决方案。该公司计划推出将Gaudi和GPU整合的混合DSA(领域专用架构)产品。

华为发布AI大模型存储新品。华为发布两款AI大模型存储新品OceanStor A310与FusionCube A3000。前者面向基础和行业大模型的深度学习数据湖存储,支持数据编织和近存计算。后者为面向行业大模型训练和推理的训/推超融合一体机,可支持百亿级参数规模的模型,并能通过水平扩展支持更高参数规模的模型。

六、开源生态

百川智能推出130亿参数通用大语言模型。百川智能推出参数量130亿的通用大语言模型Baichuan-13B-Base、对话模型Baichuan-13B-Chat及其INT4/INT8两个量化版本。相比此前发布的Baichuan-7B,Baichuan-13B在1.4万亿token数据集上训练,超过LLaMA-13B40%,是当前开源13B尺寸下训练数据量最大的模型。该模型完全开源、免费可商用。

智源悟道3.0“Emu”模型开源。智源研究院发布了首个全能多模态预训练模型 Emu 的开源版本,据称在多项性能指标上超越了 DeepMind的 Flamingo 模型。它可以完成任意文图之间的多模态任务,具有强大的少样本上下文学习能力,还大量采用视频数据,建立了统一多模态学习框架。

ChatGLM2-6B免费商用。智谱AI与清华 KEG 实验室宣布,自 3 月 14 日发布 ChatGLM-6B 及 6 月 25 日发布 ChatGLM2-6B 以来,这两个模型在 Huggingface 上的下载量已经先后超过了 300 万和 120 万。为了更好地支持国产大模型开源生态的繁荣发展,即日起 ChatGLM-6B 和 ChatGLM2-6B 权重对学术研究完全开放,并且在完成企业登记获得授权后,允许免费商业使用。

七、论文

全网络语料训练大模型。最近发布的 Falcon-40B 模型实现了很高的性能水平,甚至可以与付费模型的质量相媲美。窍门在此:1) 对大量数据应用简单/高效的过滤规则,创建一个海量(总共5万亿个token,但只使用了1万亿个token)的文本语料库,即命名为RefinedWeb的来自 CommonCrawl 的网络数据。2)RefinedWeb 的 1 万亿个token以及来自 Pile 的少量精选数据组合进行预训练的。3)使用经过修改的纯解码器架构,对快速推理进行了优化。

AI周:2024,中国会训练出甚至比GPT-4更好的大模型插图

大型语言模型作为通用模式机器。在给定上下文的情况下, 由上下文学习驱动,大语言模型可以用作通用的序列建模器。这些零样本能力可以应用于机器人问题——从外推表示状态随时间变化的数字序列来完成简单运动,到最少提示得到带奖励的轨迹以发现并表示闭环策略(例如,用于平衡车的稳定控制器)。使用大语言模型进行低级控制的方法,可以期待单词模式之间的关联转移到动作上。

多模态视频文本数据集。InternVid包含视频超过 700 万个,近 76 万小时,产生 2.34 亿个视频剪辑,并附有总计 41万字的详细描述。主要作者是上海人工智能实验室通用视觉(书生)研究人员牵头的团队。

AI周:2024,中国会训练出甚至比GPT-4更好的大模型插图1

文生图模型快速个性化。仅使用单个输入图像,HyperDreamBooth 就能实现文生图扩散模型个性化,速度比 DreamBooth 快 25 倍。

基于Lie对称的偏微分方程自监督学习。微分方程的机器学习为数值求解器提供了计算高效的替代方案,这可能会对科学和工程产生广泛影响。尽管当前的算法通常需要为给定的设置而定制模拟训练数据,但我们可能更希望从异构的来源中学习有用的信息,或者从杂乱或不完整的真实动力系统观测中学习。在这项工作中,Meta团队(包括杨立昆)通过实施自监督学习的联合嵌入方法,从异构数据中学习微分方程的通用表示,这是一种用于无监督表示学习的框架,在计算机视觉方面取得了显著的成功。

AI周:2024,中国会训练出甚至比GPT-4更好的大模型插图2

八、人才与其他

OpenAI员工倒戈谷歌,包括BERT之父。据媒体报道,其中有人对ChatGPT的进一步开发计划不满意,有人表示公司CEO奥特曼“对很多话题只有肤浅的了解,几乎不关心日常业务”。其中,被称为BERT之父的Jacob Devlin,被曝入职OpenAI仅3月后,又回谷歌,重新加入Bard项目。

Transformer论文作者悉数离职谷歌论文Attention Is All You Need的合著者Llion Jones,将于本月晚些时候离开 Google Japan。他计划休假后创办一家公司。这意味着提出Transformer的全部8名作者,都离开了谷歌。其余7人,基本上不是在OpenAI做大模型,就是创业做大模型。

Salesforce云产品七年来首次提价。该公司8月份将提高销售云、服务云、营销云、行业云和Tableau的价格,定价平均提高约9%。该公司上次提价是在七年前。过去七年里,该公司在研发方面投入了超过 200 亿美元,最近的投入重点则是生成式AI。

北京4000万元算力券支持大模型企业。北京经信局正筹划通过算力券等形式支持模型伙伴和模型观察员,降低企业的训练成本、提高算力对接效率。首期预计支持不低于4000万元的算力券,补贴到模型伙伴企业。