英国首相苏纳克正在与美国总统拜登商量,由英国第一个来举办全球人工智能安全峰会。在北京,一场人工智能峰会刚刚结束,最重要的话题正是安全。
就在这个周末,深度学习三巨头之二的辛顿、杨立昆,OpenAI的联合创始人奥特曼,Anthropic的联合创始人Chris Olah,还有发起暂停研究公开信的未来生命研究所的创始人Max Tegmark,都出现在北京智源大会议程上。
人工智能的未来与安全是这场会议最重要的议题。中国主导并发出了自己的声音。国内顶级高校与研究机构的学者、国家实验室的主任、大模型生态上的电信巨头、互联网巨头、初创企业与应用企业踊跃参与。
奥特曼正在全球游说各国政府,曾与欧盟有点不愉快,一度威胁离开那里。欧盟要求更透明的信息披露。这次线上发表演讲,他特意引用了“千里之行,始于足下”,与中国套近乎。OpenAI官方在中国还未合法开展业务,而华人研究者已经为它的GPT-4出了20%的力。
OpenAI的各部门的中国人才
(中国人才是指中国上大学本科,或者由中国内地媒体报道核实。不包括海外华人。来源:OpenAI,未尽研究)
全球创新需要全球人才流动,OpenAI是它的受益者。但地缘竞争正在打断这个过程。微软亚洲研究院正在将约40名AI研究员从北京调往加拿大。
安全是一个技术问题,对齐是一个价值观问题。奥特曼夸赞中国拥有世界上最优秀的人才,这些人才对解决人工智能系统对齐问题至关重要。他希望一边加大在对齐和安全方向的研究与投资,一边建立注重包容性与可核查性的国际规范和标准。
辛顿也在闭幕式上,分享了为什么他担心多模态下的AI,将比人类更聪明,也更不友好。他呼吁在座的年轻的中国研究人员,帮助全球解决这些问题。
这些大佬的演讲内容,很快传回了美国。彭博报道说,奥特曼呼吁中国帮助制定全球规则。文章还酸溜溜地提到,这场大会本身就足够值得关注。微软总裁布拉德·史密斯(Brad Smith),曾将大会主办方的智源研究院,列为全球人工智能创新的三大领跑者之一。另外两家就是OpenAI与谷歌。
人工智能是中美竞争最激烈的领域,美国明着下了很多绊子。但这么多海外专家积极参会,印证了中国在全球创新中的重要地位。在华盛顿,对中国挑战美国主导地位的担忧,在监管讨论中占据了重要地位;但在技术创新的最前沿,最了解这项技术、最聪明的大脑,都在用行动表明,全球监管离不开中国,需要加强中美对话。
人工智能领先的美国,似乎并不想为了隐私而做太多事情。这是未来生命研究所创始人MaxTegmark的观点。在大会现场,他评价中国在监管人工智能方面做得最多,欧洲大概排在第二位,美国排在第三位:只有欧盟做的事情,让美国人看到实在的好处了,他们才会行动。
中国也的确需要顶层设计,明确哪些可以做,哪些不能做。企业与政府已经同时下场,掀起新一轮的投资热潮,今年中国新推出大模型数量已经超过美国,但通用模型的水平,依然有很大提升空间。
中国正在抓紧立法。除了已经结束征求意见的针对生成式人工智能的管理办法,中国准备在年内预备提请审议人工智能法草案。它将围绕算法、数据和技术应用等范畴展开。中国版权协会也发布了国内首份生成式人工智能数据版权倡议书。
但也不能扼杀创新。过强的监管,或者重复的发力,都可能错失创新。就像杨立昆在大会上判断的,也许GPT五年内就不会有人用了,它可能是通往通用人工智能的死胡同。加州伯克利分校的计算机科学家斯图尔特·罗素(Stuart Russell)也称,通用人工智能还没达到,大型语言模型只是其中一块拼图,我们连拼图最终会是什么样子,缺哪些还不确定。
开源是保持创新的重要途径。中国与美国差距较大,今年发布的开源语言模型仅为9款,不足美国的1/5。智源研究院带头开源了自己的“悟道3.0”。
本周,还有这些发生在AI领域的事件值得关注:
一、风险、监管与伦理
人工智能法列入中国今年立法计划。中国尚无全国层面统一的《人工智能法》,这一状况可能在2023年得以改变。近日,《国务院2023年度立法工作计划》对外公布,其中包括预备提请全国人大常委会审议人工智能法草案。目前,深圳已出台全国首部规范产业的专项地方性法规《深圳经济特区人工智能产业促进条例》。《人工智能法》作为“基本法”,可能不会涉及无人驾驶等具体领域,而是围绕算法、数据和技术应用等范畴展开。
中国首份生成式 AI 数据版权倡议书联合发布。中国版权协会主办了人工智能生成内容版权问题研讨活动,同方知网、中文在线、中国工人出版社等 26 家单位,就深化版权问题研究、版权赋能产业发展、避免侵权、引导 AI 生成内容的合理使用、提升版权保护意识、优化内容授权渠道等6个话题发起倡议。
英国有意牵头全球首个人工智能安全峰会。英国政府声明称,此次峰会将邀请“志同道合的国家”,探讨包括人工智能在内的前沿系统的风险,并商讨如何通过国际协作降低这些风险。由于脱欧,近期欧盟与美国就人工智能的对话与会议,英国被排除在外。但英国自称正因为脱欧而“处于有利地位”,可以应对市场变化迅速行动。英国还打算仿照国际原子能机构(IAEA),在伦敦设立一个全球性的AI监管机构。英国首相苏纳克会在访美期间先与拜登政府好好谈谈。
OpenAI因幻觉首次被起诉诽谤。佐治亚州一名电台主持人起诉 OpenAI,因为该公司的ChatGPT告诉一名记者,他挪用了公款。该记者正在报道发生的现实中的法律案件,并在求证中发现,ChatGPT生成了关于这名主持人的虚假案件摘要。这不是ChatGPT第一次伪造法律文件,曾有律师上过它的当,在法庭上引用了不存在的档案。据彭博法律的分析,针对OpenAI的“幻觉”而损害个人声誉的诽谤诉讼,这还是首例。
美议员追究开源大模型泄露。参议院隐私、技术和法律小组委员会主席,在信中指责 Meta 未能预见到 LLaMA 的广泛传播,可能被滥用于垃圾邮件、欺诈、恶意软件、侵犯隐私、骚扰和其他不当行为和伤害;指责 Meta“几乎没有采取任何行动”来审查该模型;甚至对是否真的是“泄漏”提出了质疑。
广告商不满在AI搜索平台失去控制权。人工智能对用户的开放式提问自动生成回应,谷歌与微软争相将其引入搜索引擎,这将颠覆广告触达消费者的形式。但是,广告商希望能控制展示广告的具体位置,避免出现在不当信息或虚假信息附近;目前,人工智能的“黑匣子”与“幻觉”,让广告商在不透明中失去了控制权。
谷歌抛出安全人工智能概念框架(SAIF)。结合了谷歌在软件开发中的安全实践,以及生成式AI的创新进展,旨在减轻AI系统特有的风险,如窃取模型、训练数据的数据中毒、通过提示注入恶意输入,以及从训练数据中提取机密信息。这是一个概念框架,谷歌计划从行业合作伙伴和政府机构那里寻求反馈。
二、中美科技巨头
字节跳动内测对话类AI项目Grace。尽管监管细节尚未公布,国内互联网巨头仍将尝试把生成式AI带给个人消费者。字节跳动正在内部测试一款AI对话类产品,目前暂时称作“Grace”。此前,该公司旗下TikTok在菲律宾测试名为Tako的AI聊天机器人。百度的AI对话式产品或被称为“万话”。
华为开发者大会聚焦AI forIndustries。针对将在大会上发布“盘古Chat”的市场传言,华为接受《证券时报》采访称,官方口径未直接提及盘古大模型的发布,不会有“盘古Chat”此类命名,也不“对标”业界产品。目前,华为AI团队分散在华为多个部门或业务线,并没有一个整体统一的AI部门。此外,华为云正与润达医疗合作打造医疗AI大模型。百度也正在推进AI赋能产业,本周,“文心一言-Turbo”高性能模式开放邀测,自称推理服务整体性能较“文心一言”刚内测时提升了50倍。
苹果开发者大会,处处都是AI 。除了最受关注的MR设备VisionPro,苹果宣布现在键盘可以通过Transformer 语言模型,更精准地预测或纠正想要输入的单词,听写同样如此;通过终端机器学习,iPhone现在可以提供个性化的建议,推荐值得纪念和记录的时刻;在用Vision Pro前置传感器快速录入后,系统会使用编解码神经网络来制作用户的数字化形象。
微软向政务云客户提供GPT模型。微软宣布首次将GPT技术,引入为美国政府机构提供云解决方案的Azure Government。为此,微软开发了新的架构,以保证安全访问与运营。微软没有透露具体客户,但国防部、能源部和NASA被视为最有可能的客户。政府客户的数据不会用于训练AI模型。日本横须贺市政府也正在试用ChatGPT处理文职工作。
Meta计划让生成式AI进入每一个产品。扎克伯格向员工宣布,计划把AI生成文本、图像和视频的功能,置入Facebook、WhatsApp与Instagram等旗舰产品中。Meta一直处于AI研究的最前沿,并坚持开源部分成果,但在生成式AI的商业化上行动迟缓。扎克伯格还计划将AI引入元宇宙,并表示苹果的Vision Pro可能是未来计算的一种,但不是自己想要的那种。
此外,欧美巨头也在推进AI赋能产业。移动解决方案提供商Persistent决定与亚马逊深化生成式AI领域的合作,将为其16000多名工程师配备Amazon CodeWhisperer编程助手,以便更快速安全地为企业客户构建和交付行业应用程序。谷歌则赢得了美国最大在线旅游公司Priceline与全美医院排名最高梅奥诊所的合作。Priceline计划在今年夏天推出AI聊天机器人,用于规划旅行,提取酒店价格摘要,为用户量身定制酒店建议;梅奥则使用谷歌的AI快速查找患者病史与检查记录。
三、大模型和行业应用
商汤等发布“书生·浦语”大模型,擅长高考。商汤科技联合几家大学,发布了千亿级参数大语言模型“书生·浦语”(InternLM)。它有1040亿参数,在包含1.6万亿token的多语种高质量数据集上训练而成。该大模型在高考(GAOKAO)中的表现,优于ChatGPT等模型,但在其余多项测评中弱于GPT-4。
作业帮内测中国市场的教育大模型。该模型包含多学科解题、中英文作文批改、多语言对话等多个教育应用场景。
此外,还有多家中国企业宣布了各自大模型或应用的动态。数据通信设备公司新华三,推出百业灵犀LinSeer大模型,为垂直行业和专属地域的客户提供私域大模型服务。数据资产化服务提供商易华录,宣布正依托政府与企业应用场景,研发多模态中文大模型。数字阅读服务商掌阅科技,正在接入市场上的主流大模型。此外,科大讯飞迭代发布了讯飞星火认知大模型V1.5,小鹏汽车申请了GPT相关商标,APUS在4月发布的天燕大模型AiLMe正式公测。
Adobe向大企业开放Firefly,并提供版权法律支持。Adobe宣布将向大型企业客户提供AI生成图像的Firefly。客户还可以使用自己的资产来训练AI模型,这将使Firefly在生成图像时能够复制客户品牌的风格。围绕生成式AI的版权标准,尚未在法律上得到解决,Adobe基于自身版权图库与开放许可的公共内容训练了Firefly,并承诺客户因其创建的任何图像的版权而被起诉,它将赔偿企业。自今年3月开放测试以来,Firefly用户已生成超过 2 亿张图像。
先于特斯拉,奔驰L3在加州获批。美国加利福尼亚州允许奔驰向公众销售或租赁配备L3级系统Drive Pilot的汽车。加州是特斯拉总部所在地,但加州第一家批准商用的却是奔驰。加州要求其白天不超过每小时40英里(约65公里)的速度,在指定天气、指定路段的高速公路上运行;驾驶员可与转头与乘客交谈、玩手机甚至游戏,但必须保证驾驶位有人,不得遮挡脸部,且准备随时接手。此前,奔驰L3已在德国落地,美国内达华州也获批使用。去年,奔驰宣布启用Drive Pilot时的事故,由奔驰承担全部法律责任。
WordPress推出AI写作助手。该工具名为JetPack AI Assistant,可以用不同风格来生成和编辑文本,翻译12种语言,帮助用户设计表格。它正式上线之后,将会每月收取10美元订阅费用。
澳大利亚最大银行自研生成式AI。澳大利亚联邦银行已限制其员工使用AI聊天机器人ChatGPT,并于与其美国合作伙伴H2O.ai一起,开发了名为CommBank Gen.ai Studio 的类ChatGPT工具。
Carbon Health用AI改善就诊流程。该工具基于OpenAI的GPT-4,根据患者语音及其他信息,生成包含护理说明、诊断与计费在内的病历,将流程耗时缩短到原来的1/3以内。
AssemblyAI推出语音版类ChatGPT新模型。该模型名为LeMUR,可转录长达10小时的录音,总结摘要或根据用户提问从中找到答案。转录后文本token长度可达150K。
四、资金流向
出门问问计划港交所上市,累计40万付费用户。据招股书,出门问问对大模型与AIGC的商业化始于2020年,至今已经形成了自研大模型序列猴子,以及AI写作、绘画、配音,以及数字人平台等四款应用产品。去年,该公司AIGC业务收入3900多万元,占总收入8%,毛利率88%。至今,AIGC业务已吸引了600万累计注册用户,约40万名累计付费用户,累计完成100多万笔付款。
上影拟3年投资3亿,孵化AIGC等科技项目。该“文创+科创”加速器计划,由“上影新视野基金”等发起,重点关注文化产业链上下游的AIGC、元宇宙等创新型企业。其中,话题动画《中国奇谭》第二季将使用AIGC技术。
AI数字人企业FOCO获数千万元天使轮融资。该公司成立于2022年11月,定位于“AI+数字人”领域,基于自研AI,生成并驱动拥有多模态交互能力的数字人。创新工场独家领投。
AI视觉初创右脑科技完成数千万元天使轮融资。该公司主要将生成式AI用于图像视频等视觉领域。目前上线的Vega AI 创作平台,用户突破百万。本轮光速光合领投,原投资方奇绩创坛跟投。
MLOps服务商星鲸科技获数千万元天使轮融资。该公司成立于2022年,围绕数据和模型两个环节,为AI客户提供MLOps(机器学习运维,Machine Learning Operations)平台和服务。创始人徐串,曾在百度云与旷视科技担任首席架构师。投资方为南山资本及远镜创投。
AI数据公司整数智能完成数千万元Pre-A轮融资。该公司主要为各类场景的AI客户,提供智能数据工程平台(ABAVA Platform)与数据集构建服务(ACE Service),能够跨越不同行业、不同场景实现数据的自动化标注,并利用标注好的数据来迭代算法模型。
此外,思维导图工具垂类企业Xmind,收购了ChatMind,后者用于一系列利用 AI 自动生成思维导图的在线工具。
Cohere融资2.7亿美元,英伟达甲骨文参投。谷歌前员工Aidan Gomez是该公司CEO,他也是Transformers论文《注意力是你所需要的一切》的合著者。他们拒绝只与一家云服务商合作,以尽可能地保证独立性,也保证客户企业能根据自身偏好在任何云上部署服务。目前,OpenAI和Anthropic分别获得了微软与谷歌的支持。
Contextual AI获2000万美元种子轮融资。Contextual AI成立于2023年,核心人物来自Meta与HuggingFace。与目前美国多数大模型初创企业向消费者提供服务不同,该公司主要面向企业。企业需要确定他们从生成式AI中获得的答案是准确、可靠和可追溯的。该公司引入了检索增强生成 (RAG)技术,即利用外部资源来增强LLM,来解决幻觉、归因与定制等难题。
法律智能服务EvenUp获5050万美元B轮融资。很多案件最终得以和解,但赔偿金往往保密,这不利于受害人或律师开出公平的条件。该人工智能平台针对法律领域的客户,通过医疗记录、警方报告和账单等原始案件档案,生成包括本案的适用法律、事实依据、赔偿要求的法律文件。EvenUp目前有300多个客户,每年支付订阅费用在数千到数十万美元之间。
数据效率平台Granica融资4500万美元。该公司构建了新的压缩和重复数据删除算法,可以将存储在云平台的训练数据的大小和成本降低80%。它还可以在压缩过程中删除敏感的个人身份信息,保障了数据隐私,也减少了张冠李戴的“幻觉”。
芯片初创Etched.ai获536万美元种子轮融资。该公司旨在设计专门用于大型语言模型推理的AI加速芯片,名为Sohu,它的内存比英伟达H100更大,计划在2024年推出。
五、基础设施
中国发布首个全国性多元异构算力调度平台。它名为“全国一体化算力算网调度平台(1.0版)”,目前已接入天翼云、华为云、阿里云等,汇聚了通用算力、智能算力、高性能算力、边缘算力等多元算力资源,可以实现跨资源池、跨架构、跨厂商的异构算力资源调度。
欧盟批准81亿欧元芯片产业政策。这个新的“欧洲共同利益重要项目”(IPCEI)名为“IPCEI ME/CT”。为此,成员国将提供81亿欧元公共资金,带动额外的137亿欧元私人投资,瞄准5G和6G电信技术、自动驾驶、人工智能和量子计算等。
六、开源生态
智源宣布悟道3.0全面开源。智源研究院宣布“悟道3.0”全面开源,发布了首个支持中英双语知识、开源商用许可的“悟道·天鹰(Aquila)”语言大模型系列,以及FlagEval(天秤)大语言模型评测体系及开放平台。智源研究院院长黄铁军统计称,今年以来美国开源语言模型(LM)42款,decoder-only架构成为主流,LLaMA系列单卡版本成为社区热点,基于ChatBot生成的问答数据集使用频繁;中国开源了9款,主流架构仍是encoder-decoder,合规高质量数据集将会是亮点。
AI初创企业虎博科技开源大模型TigerBot。它是一个多语言多任务大规模语言模型,包含70亿参数和1800亿参数两个版本。后者超过了Bloom的1760亿参数规模。此次开源内容包含模型、代码、数据三部分,包括100G预训练数据与监督微调1G/100万条数据,也开源了系统性的中文数据搜集和清洗方法论。虎博还计划在未来继续开放大量的金融、法律、百科等领域专业数据。
达摩院开源综合视听语言大模型。达摩院的Video-LLaMA,能够感知和理解视频中的视频和音频信号,并能理解用户输入的指令,完成一系列基于音视频的复杂任务。目前,Video-LLaMA论文、代码、交互demo均已开放。该研究团队还在项目主页中提供了中文版本的模型。
此外,本周,开源社区OpenBMB开源了工具学习基准ToolBench,可以帮助开发者构建开源、大规模、高质量的指令调优数据。
七、研究与论文
多模态大模型,论文天天看。大模型研究的一个新兴方向是Multimodal Large LanguageModels(MLLM),以LLM作为“大脑”,对输入的多模态信息进行整合、推理、分析和决断,从而完成人类交付的任务。首个跟踪MLLM进展的论文集合发布,聚焦于该领域关键技术与实现方式,将MLLM划分为以下几类:多模态指令微调(Multimodal Instruction Tuning),多模态上下文学习(MultimodalIn-Context Learning),多模态思维链(Multimodal Chain-of-Thought),LLM辅助的视觉推理(LLM-Aided Visual Reasoning)等。(论文Awesome-Multimodal-Large-Language-Models )
大模型对齐之后变“傻”了。最近,HuggingFace发布了开源LLM排行榜。一眼就看到65B的模型干不过13B的未对齐模型。谷歌Brain也曾经揭示过,如果对齐太过,模型性能会出现下降。OpenAI的对齐实际上非常好,但其研究人员透露,对齐之前,GPT-4的能力更强。在大模型的性能与模型审查之间进行的权衡,正在成为一个有趣的研究领域。(榜单Open LLM Leaderboard)
参考一张图,无论艺术风格多么复杂,都能解构再复刻。谷歌研究团队最新出品StyleDrop,灵感来源于Eyedropper(吸色/取色工具,可以参考单个/少数图像,快速、轻松地生成该样式的图像。StyleDrop基于Muse构建,由两个关键部分组成:一个是生成视觉Transformer的参数有效微调,另一个是带反馈的迭代训练。之后,研究人员再从两个微调模型中合成图像。对于制作Logo来说这个工具比Midjourney好用得多。(论文Styledrop: Text-to-Image in Any Style )
个人终端设备能跑大模型了。来自华盛顿大学、苏黎世联邦理工学院等机构的研究者提出了一种新的压缩格式和量化技术SpQR(Sparse-Quantized Representation,稀疏-量化表征),首次实现了LLM 跨模型尺度的近无损压缩,同时达到了与以前方法相似的压缩水平。异常权重会导致特别大的量化误差,而SpQR 能识别和隔离这些异常权重。研究者将它们以更高的精度存储,同时将所有其他权重压缩到 3-4 位,在 LLaMA 和Falcon LLMs 中实现了不到 1% 的准确率损失,从而可以在单个24GB的消费级 GPU 上运行 33B参数的 LLM,而不会有任何性能下降,同时还能提高15%的速度。(论文SpQR: A Sparse-Quantized Representationfor Near Lossless Weight Compression )
八、其他
微软将部分AI研究员从北京调往北美。总部设在北京的微软亚洲研究院(MSRA) 已着手办理签证,将多达40名顶级人工智能专家,转移到位于温哥华的研究所。在中国与美国以外的国家设立新的实验室,是微软面对地缘竞争与AI竞争的防御策略。
《临港新片区加快构建算力产业生态行动方案》正式发布。与此同时,临港新片区智算产业联盟正式成立,成员包括智算算力、基础算力和超算算力中心等算力企业,GPU、FPGA、ASIC等芯片企业,大模型、AI for science等需求企业,以及部分研究院校。目标到2025年,新片区总算力超过5EFLOPS,AI算力占比达到80%。此外,成都就《关于进一步促进人工智能产业高质量发展的若干政策措施》公开征求意见,安徽印发了《加快场景创新构建全省应用场景一体化大市场行动方案(2023—2025年)》。