智算多多



人工智能大模型通常是指由人工神经网络构建的一类具有大量参数的人工智能模型。大模型通常通过自监督学习或半监督学习在大量数据上进行训练。最初,大模型主要指大语言模型(Large Language Models, LLM)。随着技术的发展,逐渐扩展出了视觉大模型、多模态大模型以及基础科学大模型等概念。大模型是一个新兴概念,截止目前并没有绝对权威的定义。因此,大模型所需要具有的最小参数规模也没有一个严格的标准。目前,大模型通常是指参数规模达到百亿、千亿甚至万亿的模型。此外,人们也习惯性的将经过大规模数据预训练(显著多于传统预训练模型所需要的训练数据)的数十亿参数级别的模型也可以称之为大模型,如LLaMA-2 7B等。
大模型起源于语言模型。上世纪末,IBM的对齐模型开创了统计语言建模的先河。2001年,在3亿个词语上训练的基于平滑的n-gram模型达到了当时的先进水平。此后,随着互联网的普及,研究人员开始构建大规模的网络语料库,用于训练统计语言模型。到了2009年,统计语言模型已经作为主要方法被应用在大多数自然语言处理任务中。
2012年左右,神经网络开始被应用于语言建模。2016年,谷歌(Google)将其翻译服务转换为神经机器翻译,其模型为深度LSTM网络。2017年,谷歌在NeurIPS会议上提出了Transformer模型架构,这是现代人工智能大模型的基石。
2018年,谷歌提出BERT预训练模型,其迅速成为自然语言处理领域及其他众多领域的主流模型。BERT采用了仅包含编码器的Transformer架构。同年,OpenAI发布了基于Transformer解码器架构的GPT-1。
2019和2020年,OpenAI继续推出GPT-2、GPT-3系列,引起领域内广泛关注。2022年,OpenAI推出面向消费者的ChatGPT,引发公众和媒体热议。2023年,GPT-4问世,并因其优秀的性能和多模态能力受到学界、业界和社会的高度关注。2024年,OpenAI发布了推理模型GPT-o1,它会在回应指令前生成一长串的思维链,这项思维链技术极大地增强了推理能力。
2025年1月,DeepSeek发布671亿参数的开源模型DeepSeek R1。DeepSeek R1的性能与OpenAI 的GPT-o1相当,但成本远远低于闭源的o1模型,震撼了全球科技界。
自2020年以来,大模型同时开始拓展至其他模态。2020年,谷歌公司提出Vision Transformer(ViT)模型,将Transformer架构引入视觉领域。2021年,OpenAI于发布了CLIP模型,将图像和文本进行联合训练,实现了大模型中跨模态的信息对齐。2024年,OpenAI发布Sora,支持直接从文字提示词生成视频,引起社会广泛关注。
基础科学大模型的快速发展开始于2020年。该年,AlphaFold2以图网络破解蛋白质折叠难题。2022年,华为盘古气象大模型是首个精度超过传统数值预报方法的AI模型,速度相比传统数值预报提速10000倍以上。2023年DeepMind发布材料发现模型GNoME,两周内发现220万种晶体结构;同年浦江实验室"风乌"模型实现0.09°全球气象预报,超越传统数值模型。基础科学大模型对基础科学研究产生了巨大的推动作用。
2025年4月1日,飞桨框架3.0正式发布,其具备动静统一自动并行、大模型训推一体、科学计算高阶微分、神经网络编译器,异构多芯适配五大新特性。
2025年4月,张洪忠表示研究显示,目前国内主流媒体已经将大模型技术应用在内容生产的全链条之中,技术的采纳程度比较高。在使用水平和工作绩效上,县级媒体、市州级媒体、省级媒体、中央级媒体呈现逐级递增的特点。总体上,媒体从业者对大模型技术抱持积极的态度,技术的接受程度比较高,年龄、学历等都成为影响AI大模型使用的显著因素。
截止2025年7月,全球已发布的大模型总数达到3755个,其中,中国企业贡献了1509个,数量居全球首位。
2025年7月27日,在2025世界人工智能大会上,中国信息通信研究院监测数据显示,目前全球人工智能企业超3.5万家,中国人工智能企业超5100家,全球占比约15%,产业规模持续壮大,形成覆盖基础底座、行业应用的完整产业体系。此外,全球人工智能独角兽企业271家,中国71家,全球占比约26%。
2025年9月1日消息,截至2025年6月底,我国在用算力中心机架总规模达1085万标准机架,智能算力规模达788百亿亿次/秒(EFLOPS);存力规模超过1680艾字节(EB),相比2023年增长约40%;已发布1509个大模型,在全球位居前列。
2025年10月18日,中国互联网络信息中心在2025(第六届)中国互联网基础资源大会上发布《生成式人工智能应用发展报告(2025)》。报告显示,截至2025年6月,中国生成式人工智能用户规模达5.15亿人,较2024年12月增长2.66亿人,用户规模半年翻番;普及率为36.5%。
2026年1月,月之暗面Kimi发布新一代开源模型Kimi K2.5。2月,抖音推出视频生成模型Seedance 2.0;智谱AI发布并开源旗舰模型GLM-5,在全球权威榜单Artificial Analysis中位居全球第四、开源模型第一。还有生数、银河通用、智源等等。
2026年4月8日,智谱发布新一代旗舰模型GLM-5.1的同时提价10%。除智谱外,腾讯、阿里等也接连停止免费公测,提高API调用价格,其中,腾讯混元大模型最高涨价463%。
人工智能大模型的一个显著特点就是其庞大的参数量。参数量是指模型中所有可训练参数的总和,通常决定了模型的容量和学习能力。随着大模型参数量的增加,它能够捕捉更多的特征和更复杂的模式,因此在处理复杂数据和学习高维度的关系时具有更高的表现力。例如,OpenAI的GPT-3模型拥有约1750亿个参数,使得它能够生成自然流畅的文本,并在多种自然语言处理任务中表现出色。
大模型依赖于大规模的数据训练。它们通常通过在海量数据上进行学习,捕捉复杂的模式和规律,展现出强大的推理和生成能力。训练数据的多样性使得大模型能够处理各种不同类型的数据,如文本、图像、音频等,并具备跨领域的应用能力。
大模型需要高计算能力来支持其训练过程。由于数据量、参数量庞大,训练这些模型通常需要高性能的硬件支持,如图形处理器(GPU)和张量处理器(TPU),并且采用并行计算技术以提升效率。此外,大模型具备较强的泛化能力,可以跨任务执行多个不同类型的任务。例如,大语言模型能够同时处理文本生成、机器翻译、情感分析等任务,而视觉大模型则在图像分类、目标检测等领域表现卓越。
由于在训练过程中,模型会接触到来自各个领域的大量信息,如新闻、书籍、网页等多种类型的文本数据,它们能够获取广泛的背景知识和事实(有时称为“世界知识”)。通过这些数据,大模型能在没有经过特定下游任务优化的条件下展现出对较强的问题解决能力。
大模型能够理解并执行用户使用自然语言给出的指令(又称“提示学习”)。这种指令遵循能力使得大模型能够完成从简单到复杂的任务,例如文本生成、信息提取、推荐系统等,甚至在一些复杂场景下,能够根据指令自动生成合适的响应或解决方案。这为人机交互相关的应用场景有重要的意义。
经过大规模文本数据预训练,大模型不仅能够回答涉及复杂知识关系的推理问题,还可以解决需要复杂数学推理过程的数学题目。在这些任务中,传统方法往往需要通过修改模型架构或使用特定训练数据来提升能力,而大语言模型则凭借预训练过程中积累的丰富知识和庞大参数量,展现出更为强大的综合推理能力。
大语言模型主要应用于自然语言处理领域,旨在理解、生成和处理人类语言文本。这些模型通过在大规模文本数据上进行训练,能够执行包括文本生成、机器翻译、情感分析等任务。大语言模型通常基于Transformer架构,通过自注意力机制有效捕捉文本中的长距离依赖关系,并能在多种语言任务中表现出色。这类模型广泛应用于搜索引擎、智能客服、内容创作和教育辅助等领域。
视觉大模型则主要应用于计算机视觉领域,负责处理和分析图像或视频数据。通过对大量视觉数据的训练,视觉大模型能够完成图像分类、目标检测、图像生成等任务。随着Transformer架构的引入,模型如Vision Transformer(ViT)取得了显著的成果。早期的视觉模型多基于卷积神经网络(CNN),如ResNet等,但随着技术的进步,基于自注意力机制的视觉(大)模型逐渐成为主流。视觉大模型被广泛应用于自动驾驶、安防监控、人脸识别、医疗影像分析等领域。
多模态大模型则能够同时处理和理解多种类型的数据,如文本、图像和音频,从而实现跨模态的信息融合与生成。这类模型在图文生成、视频生成等任务中表现突出,能够打破单一模态的局限,实现更加丰富的交互与创作。OpenAI的CLIP模型就是一个典型的多模态大模型,通过联合训练图像和文本,成功实现了跨模态的信息对齐。多模态大模型的应用涵盖了内容创作、智能搜索、辅助医疗等多个领域。
基础科学大模型则主要应用于生物、化学、物理和气象等基础科学领域,旨在通过学习大规模科学数据,辅助科学研究和实验。这些模型能够在蛋白质结构预测、化学反应模拟、气象预测等领域发挥重要作用,为科研工作提供强有力的支持。DeepMind的AlphaFold模型在蛋白质结构预测方面取得了重大突破,而在化学反应模拟领域,诸如OpenAI的DALL·E Chemistry等模型也展示了巨大潜力。基础科学大模型的应用推动了药物研发、材料科学和气象预测等前沿科学研究的发展。
在这一阶段,模型通过海量的未标注文本数据学习语言结构和语义关系,从而为后续的任务提供坚实的基础。为了保证模型的质量,必须准备大规模、高质量且多源化的文本数据,并经过严格清洗,去除可能有害的内容,再进行词元化处理和批次切分。实际训练过程中,对计算资源的要求极高,往往需要数周甚至数月的协同计算支持。此外,预训练过程中还涉及数据配比、学习率调整和异常行为监控等诸多细节,缺乏公开经验,因此核心研发人员的丰富经验至关重要。
虽然预训练赋予了模型广泛的语言和知识理解能力,但由于主要任务是文本补全,模型在直接应用于具体任务时可能存在局限。为此,需要通过指令微调(Supervised Fine-tuning, SFT)和人类对齐进一步激发和优化模型能力。
指令微调:利用任务输入与输出配对的数据,让模型学习如何按照指令完成具体任务。此过程通常只需数万到数百万条数据,且对计算资源的需求较预训练阶段低得多,多台服务器在几天内即可完成百亿参数模型的微调。
人类对齐:为确保模型输出符合人类期望和价值观,通常采用基于人类反馈的强化学习(RLHF)方法。这一方法首先通过标注人员对模型输出进行偏好排序训练奖励模型,然后利用强化学习优化模型输出。虽然RLHF的计算需求高于指令微调,但总体上仍远低于预训练阶段。
| 大模型 | 所属单位 | 发布时间 |
|---|---|---|
| GPT系列 | OpenAI | 2018年起 |
| LLaMA | Meta | 2023年2月 |
| 文心一言 | 百度 | 2023年3月 |
| 通义千问 | 阿里巴巴 | 2023年4月 |
| Gemini | 谷歌 | 2023年5月 |
| 盘古 | 华为 | 2023年7月 |
| 豆包 | 字节跳动 | 2023年8月 |
| 混元 | 腾讯 | 2023年9月 |
| Grok | xAI | 2024年1月 |
| DeepSeek-R1 | 深度求索 | 2025年1月 |
传统搜索引擎正面临来自人工智能信息助手(如 ChatGPT)这种新型信息获取方式的挑战:基于大语言模型的信息系统可以通过自然语言对话实现复杂问题的交互式解答。例如,微软推出的增强型搜索引擎New Bing将大语言模型与传统搜索技术融合,既保留了搜索引擎对实时数据的抓取能力,又扩展了语义理解与答案整合功能。然而,大语言模型仍存在信息精确性不足、知识更新滞后等问题,这使得混合架构成为主要发展方向:一方面通过检索增强生成(RAG)技术为模型注入实时数据,另一方面利用大模型的语义理解能力优化搜索结果排序,推动智能搜索系统的进化。
在智能体领域,大模型技术正推动语音助手、服务机器人等实体向认知智能跃迁。通过多模态感知与强化学习框架,智能体不仅能完成语音交互、图像识别等基础任务,还能实现跨场景自主决策。当前研究重点在于突破环境建模、长期记忆存储等关键技术,使智能体在开放环境中实现类人的适应性。
产业应用层面,大模型已渗透至办公、教育、法律等垂直场景。例如,文档智能系统可自动生成会议纪要、优化合同条款;教育领域中,大模型可以协同教学,如作文批改、启发式教学、试题讲解等;法律领域中,大语言模型经过领域适配以后,能够助力完成多种法律任务,如合同信息抽取、法律文书撰写和案件判决生成等。
大模型正成为加速科学发现的新范式。生物医药领域通过蛋白质结构预测模型AlphaFold2突破传统实验瓶颈;上海人工智能实验室构建的"风乌GHR"气象大模型,突破了传统数值预报方法对物理方程的高度依赖,将风乌GHR的预报分辨率提升至0.09经纬度(9km*9km),对应的地表面积约为81平方公里,较此前的0.25经纬度(25km*25km),范围精确超过7倍,并将有效预报时长由10.75天提升至11.25天。这类科学大模型通过融合领域知识与数据规律,正在催生"AI forScience"研究范式。
人工智能(AI)与大型语言模型(LLM)的深度融合虽带来效率提升,但也催生了多重风险与挑战,亟需从技术、伦理与制度层面加以应对。
2023年12月4日,《咬文嚼字》编辑部公布了“2023年十大流行语”,“人工智能大模型”在列。
2025年11月,“大模型”入选2025年度十大科普热词。