引子
业师赖先生近来在课上向我们提问“人工智能时代历史学将何去何从”以及“人文学科是否还有未来”。实话说,这不是一个非常新奇的问题,作为人工智能爱好者,这个问题的答案事实上也早就心中有数,关于这个问题的讨论也听过不少。不过决定让我决定执笔本文还是因为课上一些同学的回答中的典型矛盾。具体的回答在此不必句句录入,但可以概括成两个方面:一则人工智能虽然正逐步走向无所不能,但历史研究不会轻易被算法取代;另一则深感对未来职业的深切焦虑,担心自己所学的技能在“大智能时代”下已然过时。

为这两种矛盾的观点论证的同学的举例和认识在笔者看来还显得稚嫩,但是却很能说明当下“大智能时代”下人文社科学生的集体迷思,即一方面惊叹于以DeepSeek为代表的大模型为代表的人工智能的强大,又恐惧于其可能带来的颠覆和取代,加之不断有媒体制造的的报道涌入头脑,人工智能被笼罩在神秘光环下。
不过,作为历史人,在我看来任何新兴事物背后都藏着一条相似又清晰的脉络或说暗线,与其在“大智能时代”的时代浪潮下惊慌失措或者茫然,不如暂且后退一步,像考古学家那样拂去尘土,细细审视这个名为“人工智能”的庞然大物。
于是,笔者决定开一个专门的系列——《模型考古学》记录对“大智能时代”变革的思考,本文也将作为本系列的序,目的是剥开大模型的层层外衣,将其还原回众多科学技术中普通的一门,最重要的是回答“大智能时代”下人文社科的价值所在和未来所在。至于为什么我在“大智能时代”下讨论的是大模型而不是人工智能的其他方面,后文会给出答案。文字不揣粗陋。倘若读者先生肯不吝指教,则幸甚。
历史的回响
当前“大智能时代”下的“去”与“从”之争看似两极分化,但如果回溯工业革命以来的科学技术革新时代,也不难发现每一次新技术革新的黎明总是伴随着极端的乐观与悲观。
19世纪铁路的出现彻底改变了人类对时空的感知,同时诞生的极端乐观派认为铁路是流淌着财富的钢铁动脉,美国由于幅员辽阔更是将铁路视为钢铁纽带,是人类理性和工程力量战胜自然的最高成就。而悲观派却说这是喷着黑烟、发出巨响的钢铁怪兽,担心它会破坏田园风光,吓跑牲畜,更恐惧其噪音和浓烟会传播疾病。
1842年发生的凡尔赛铁路事故,由于列车行经默东途中,车头轮轴脱落出轨,而煤水车翻覆导致严重大火,造成了52至200名乘客死亡,动摇了公众对铁路的信任。由于那时的火车相撞意外频繁发生,加之当时的火车车厢结构脆弱,多为木制,对乘客缺乏保护,凡尔赛铁路事故以后数十年不少人声称自己在火车中意外受伤,但身上却没有明显的受伤证据。约翰·埃里克·埃里克森的《关于铁路及其他神经系统损伤》为此提出了“铁路脊柱症候群”的病症,认为火车行驶过程中剧烈的摇晃和冲击可能对脊髓和神经系统造成无法立刻察觉的损害。由此使19世纪下半叶针对铁路公司的人身伤害索赔案急剧增加,一时之间悲观派的观点蔓延起来。
我们今天很容易就能明白,造成铁路发展史上的挫折是早期铁路技术的落后,随着1869年乔治·威斯汀豪斯发明的空气制动器和电报在火车调度系统中的应用,特别是自动车钩问世以后取代了手动车钩,铁路行驶的安全技术问题几乎彻底解决。由于铁路无可比拟的经济效益以及各国的介入和强制立法,人们的生活已经离不开铁路了,今天对铁路的信任自然就建立起来了。
孤证不能为据。那就请读者朋友们回想一下智能手机的普及过程。中国智能手机的普及基本在2010年以后,时至今日智能手机的普及引发的辩论仍旧不绝于耳。乐观派说手机是信息的窗口,是没有围墙的学校。悲观派呢?各位读者一定不陌生自己父母口中的“玩手机玩的”、“你再玩手机眼睛就瞎了”、“玩手机就是吸毒”。
可见,任何一项新技术的革新和出现也必然伴随着两种极端的观点,这根本不是什么新事,不过又是一场历史的轮回罢了。读者朋友一定也会疑惑?是什么造成了对于人工智能的恐惧呢?很简单,潜藏在人工智能争论背后的其实就是对一种超级智能全面超越人类的“换位恐惧”,我们可以用一句通俗的话来概括:
人类是唯一比其他生物更聪明的生物,但是人类的发展史上从来没有善待过其他不太聪明的生物,AGI 发明出来后,万一它对待人类,就像人类对待其他生物一样,那可怎么办?
由于人类自我认知上的唯尊性,一旦将自身地位替换后的恐惧在现实落地,马上就催生了无数关于技术失控的末日想象,悲观论的沃土也就随之而生。
而在恐惧的另一面则是伴随新兴技术普及而来的资本涌入导致的狂热和盲目。近来看到一篇报道就声称“旧金山市已经为 AI 疯狂了,城里的 AI 广告铺天盖地”。

公交车站的广告牌上赫然写着“停止雇佣人类”(Stop Hiring Humans)。

“你妈妈也会喜欢的 AI 客服”(AI customer support even your mother will like)。
不难看出,虽然一方面确实伴随着工业革命以来一切新兴技术兴起时伴随来的商机,但人工智能公司为了持续不断地吸引风险投资或者急于进入股市圈钱只能拼命做广告提高曝光。资本市场也乐于看到人工智能公司的市场占有率和公司估值的水涨船高,反正只要船还没沉,我就使劲吹。于是在资本和媒体的狂轰滥炸下,人工智能就被包装成无所不能的上帝,越是对人工智能的吹捧,资本市场的信心就越高,其结果就是人们仿佛成为了它的附庸。玛丽·米克尔的AI报告也说明了这点:如果从IT行业中剔除AI相关岗位,美国IT行业的就业人数多年来一直处于持平或下降趋势。

这足以证明资本和人才市场对人工智能集中程度极高的重视,“人工智能还是太赚钱了”。
“大智能时代”下人们就是生活在这样一个资本制造的狂热和恐惧的社会氛围下的。由于人为制造的分化,事实上也影响了人们对人工智能的认知分化。
郝景芳的小说《北京折叠》在书里假设未来的北京为了解决人口和资源问题,将北京根据社会阶层被划分为三个独立的空间,它们共享同一片大地,但按照严格的时间表轮流出现和休眠,整个循环周期为48小时:
- 处于第一空间的上层精英阶层,拥有24小时的清醒时间(早上6点到次日早上6点)。
- 处于第二空间的中产阶级,拥有16小时的清醒时间(早上6点到晚上10点)。
- 处于第三空间的底层工人,则只有8小时的夜间工作时间(晚上10点到次日早上6点)。
老刀是生活在最底层的第三空间的一个垃圾处理工。他为了给捡来的女儿糖糖凑够幼儿园学费,从第三空间的一个男人那里接下任务:穿越空间的边界,将男人的信带给生活在第一空间的旧情人。在过程中他亲眼目睹了三个空间之间巨大的生活差异。最后老刀在第一空间找到了收信的女人,并成功传递了信息。但他也从一位年轻的研究生长官那里得知了这座城市运行的残酷真相:自动化技术其实早已足以取代第三空间的所有人力,但为了避免大规模失业引发社会动荡,当权者选择保留这种隔离制度,让底层人“有事可做”。
而在“大智能时代”,我们的处境也似乎进入了一种“信息折叠”。处于第一空间里的人,是信息的创造者和定义者。最新的模型,最新的技术,技术带来的最大红利……对他们来说都司空见惯;而第二空间里的人,是信息的追随者和消费者。他们可能不知道这些信息产生的具体背景,但他们知道去哪里找到它们。而第三空间里的人,是信息的隔绝者。被巨大的信息噪音和高耸的技术壁垒挡在门外。人工智能很强,但是我不知道如何触及,那些神奇的技术我也不懂。
正是这种信息的鸿沟,使得许多人对人工智能以及大模型的概念模糊不清,认识流于表面。一方面他们被超级智能的叙事所吓怕,另一方面又被天花乱坠的广告所吸引,却对技术的本质、演进和局限知之甚少。更不要说当遇到我们这些自诩为懂王的人轻易地嘲笑他们蠢。但我们忘了,所谓懂也不过是投胎投的好,恰好生在所谓的“第一空间”,又恰好幸运地玩到了这些最新科技。“王侯将相宁有种乎”。认知上的肤浅恰恰是这场集体迷思与焦虑的根源。而要打破这种迷思,首先需要做的,就是揭开它的神秘面纱。
揭开大智能的“面纱”
凡考古之事,必先定其名,而后考其实,辨其流变。既然前文已经搅动了“大智能时代”的所谓暗线,那么接下来的任务就是回答“大智能时代”究竟是什么,这也是“考古”之前的任务。
厘清概念的第一步就是要明确:今天大家在谈论“大智能时代”离不开其特征正是大语言模型的崛起。要理解这一点需要回溯人工智能的技术发展史。
约翰·麦卡锡于1956年就提出了人工智能的概念,那时人工智能指的是“通过软件和硬件,来完成通常需要人类智能才能完成的任务”。早期的人工智能研究分成了两个阵营,一个是编写逻辑规则的“规则式”方法,即专家系统,但很快就遇到了瓶颈。李开复先生在《人工智能》指出,由于早期的“规则式”方法碰壁,人工智能的研究的主流范式转移到第二个阵营——机器学习。机器学习阵营主张“没有预置的规则,只是把材料提供给计算机,让机器通过自我学习,自己发现规则,给出结果”。由于机器学习不再是人教机器规则,而是让机器自己从数据中学习规律,换句话说就是它赋予了机器“学习”的能力。
机器学习阵营很快提出来“神经网络”和“深度学习”的架构和训练路径。而所谓“神经网络”就是在机器上模拟人脑的结构,构建类似生物神经元的计算网络来处理信息。
我们不直接告诉机器怎么做,而是搭建一个灵活的“大脑”——神经网络,然后给它看海量的“例子”……机器“看”多了,自己就能琢磨出规律……从最简单的线性回归,到如今火爆的各种深度学习模型,背后的原理其实都一样:用数据训练模型,让模型自己找到最佳答案。
杰弗里·辛顿为了提高“神经网络”的性能,在20世纪80年代提出来“深度学习”,这是神经网络的一种实现方法,它使多层神经元可以进行有效计算,终于使构建拥有成千上万个中间层(隐藏层)的“深度”网络成为可能。
但此时的人工智能还只能依据预设模型进行分析并输出反馈,并不能与人类展开深度互动,也难以实现实时响应人类的需求。对普通人而言,此时的人工智能还是一个“黑箱”,只有人工智能从业者能通过复杂的代码来驱动,存在极高的门槛。更重要的是,机器学习尽管具备持续学习和自我优化的能力,但却不能在与人类的交互中通过假设和验证的逻辑进行反复推理和检验,存在极大的局限性。
直到2017年,谷歌的研究人员提出了“Transformer”的新架构。与以往的机器学习派流行的的卷积神经网络(CNN)和循环神经网络(RNN)不同,“Transformer”采取了“注意力机制”,即不再一个个处理输入的单词,而是一次性处理整个输入,对每个词分配不同的权重(“Transformer”的具体解读本系列的后续文章有计划再进行解答,这里受限于文字长度只稍加带过)。
“Transformer”很快成为了今天大模型的技术基石,以DeepSeek为代表的大模型颠覆了以往单向和高门槛的交互模式。构建了以自然语言为桥梁的动态和双向的互动关系。人类可以用自然语言的对话方式提出需求,而大模型不仅可以实时反馈,还能在持续的交流中学习、优化并灵活调整输出结果。这就拆除了普通人与人工智能之间的使用壁垒,人工智能不再需要编写复杂代码才能驱动,而成为了一个可以对话、可以协作、可以代劳的“Agent”。
如果说以OpenAI为代表的GPT大模型在“大智能时代”的先发时间还对普通人还存在使用门槛,对国人来说,2025年DeepSeek突破性的版本问世以高精准度和低使用成本优势加快了大模型的广泛应用就使大模型时代变得更加名副其实。正是基于人工智能的技术发展史,至少当下及未来相当长一段时间,倘若没有更加颠覆性的技术范式出现,所谓“大智能时代”,在实践层面,其实就是“大模型时代”。
由此可见,构成今天“大智能时代”的其实只不过是让我们所惊叹的大模型,其背后则是一小部分巧妙的技巧,即使用神经网络有效地对数据进行处理,它本身也遵循着一条技术演进路径,绝不是什么天外来物。当然,将“大智能时代”还原为“大模型时代”并不是说人工智能的其他分支毫无发展和意义,只不过相较于它,同为一门普通技术,前者更具有颠覆性和革命性。
无独有偶,Arvind Narayanan与Sayash Kapoor的论文《AI as Normal Technology》也提出来相似的看法:从历史视角理解,人工智能并非一种特殊的技术,而是与历史上其他技术类似的工具。将人工智能视为“正常技术”意味着不应将其视为一种独立的力量,而是嵌入在社会结构和技术生态系统中的工具。人工智能的实际应用取决于技术方法的成熟度、应用场景的具体需求以及社会接受度。
AGI和“超级智能”是不可能的
挑开了“大智能”的面纱不过是“大模型”,现在我们就能更加冷静地探讨大模型的能力边界了,这样我们也就能回应最开始那个问题:大模型最终会发展成与人类无异甚至超越人类的通用人工智能(AGI)吗?
一个字:不!当前,至多是达到高级人工智能(ANI)的时代要想通过算法实现通用人工智能(AGI)如果只是依赖于当前的路径永远不可能达到,因为人的思维方式不可能被完全量化,人的思维没有算法。
哲学家休伯特·德雷福斯早在20世纪60年代就从现象学角度探讨人工智能的哲学问题。当时他正在兰德公司任职,并为此撰写了一份名为《炼金术与人工智能》的批评报告,系统地提出了他的观点。由于德雷福斯深受海德格尔和维特根斯坦的影响,德雷福斯强调人的身体和实践活动,所以他认为由于计算机没有身体、没有童年、也没有文化实践,因此计算机根本无法获得真正的智能。智能不是在真空中处理符号,而是源于在现实世界中的具身体验。换句话说就是,计算机并不在世界之中。只要计算机不经历成长、不属于一种文化、不在世界中行动,它们就永远无法获得类人的智能。
默会知识是德雷福斯最著名和最主要的论据之一,他在其著作《计算机不能做什么》中对此进行了阐述,即人类知识的中很大部分都是“默会”的,也就是说人类能知道的比人类能说出的多。类比人类掌握游泳和骑车,默会知识无法被完全清晰地阐述出来,因此也无法被编写成计算机程序。而德雷福斯认为,专家之所以是专家,并不是因为他们能更好地遵循规则,而是因为他们的知识很大一部分是默会的,依赖算法对专家的技能水平进行复制往往只能退化到一个较低的水平。因此“专家系统”无法复刻人类专家的真正技能。
德雷福斯的观点在当时就遭到了众多人工智能研究者的攻击,直到后来基于神经网络和深度学习的人工智能新范式的出现,狭义人工智能(ANI)的性能得到提升,似乎它们也能够处理默会知识(例如AlphaGo)了,这就让德雷福斯的论点逐渐显得过时。但是笔者并不赞同把狭义人工智能(ANI)的性能提升视为实现通用人工智能(AGI)实现的路径。大模型为代表人工智能所处理的默会知识也不过局限于理想化的“科学世界”,与德雷福斯所指的复杂人类世界有着根本不同。
那怎么解释AlphaGo的成功呢?的确,许多围棋高手的许多决策都依赖所谓的“棋感”,AlphaGo的成功能证明机器也掌握了“默会知识”吗?首先,即使承认机器有掌握“默会知识”的能力,AlphaGo的所谓的“默会知识”也仅仅局限于棋盘,而棋盘本身就是一个规则明确、边界清晰的理想化的世界,这与德雷福斯所指的那个与人类身体与生活实践相关的复杂和充满偶然性的世界有着本质的区别。人的思维特别是情感、决策和创造力的部分,也从来不是一个纯粹的算法过程。罗杰·彭罗斯也曾著书论证,他认为,人类思维基本上不是算法性的,人工智能的行为本质上仍是通过对人类已有数据(语言、图像、代码等)的模仿、重组和概率预测。
近来的一篇《Psychologically Enhanced AI Agents》的论文也能侧面证明这一点。论文的作者发现,仅仅通过在提示词中要求大语言模型扮演一个特定的MBTI人格,大模型的个性就会发生改变。
举个例子,在一个策略博弈游戏中:
- 被设定为“思考”(T)型人格的智能体,选择背叛的概率接近 90%。
- 而被设定为“情感”(F)型人格的智能体则更倾向于合作,背叛的概率仅为 50% 左右。
而这一切仅仅通过一句提示词就实现了,甚至不需要任何微调。换句话说,大模型的个性可以通过人类的指令达到可控,也就从侧面证明了大模型并没有真正拥有人类的人格或说情感。所谓人格也只是根据人类的指令在庞大的数据中匹配并模仿了对应的人格类型的行为模式。也就证明了,大模型缺少和人类一样真正的理解与共情。

大模型模仿而非理解的本质也决定了大模型在技术层面存在着难以逾越的局限,这些局限最终衍生出一系列实际操作中的问题,概括地说就是理解问题不完整、分析问题不深入、产出结果不可用。怎么理解呢?
首先,在理解问题不完整方面,大模型会表现出明显的被动性,面对人类模糊的指令时,大模型无法主动澄清以明确需求边界;同时,由于大模型的上下文记忆能力薄弱,大模型在长对话场景中极易丢失前期讨论细节,难以形成连贯的项目认知。
其次,在分析问题不深入方面,由于大模型缺乏真实世界的经验和常识,大模型的分析往往还只是停留在信息的相关性层面,难以触及因果性,更谈不上以真正的专家视角那样进行深度洞察。就像华盛顿大学一个深度学习小组训练的笑话,他们训练了一个模型来区分哈士奇和狼,准确率高达90%,但最后发现,因为大多数狼的背景都有雪,所以他们实际上开发的只是个积雪探测器。

最后,在产出结果不可用方面,这表现为大模型生成的格式化成果,往往需要人类进行多次调整和返工,才能达成符合实际工作中的具体要求。
各位读者回想一下自己体验大模型的时候,是不是也经常被这些问题困扰呢?技术的缺陷又导致了一系列衍生的实操问题,具体表现为:“没想到这个也能用 AI 做”、“不懂怎么最大地发挥出 AI 的价值”、“AI 用起来太麻烦,还不如自己做”。特别是“用 AI 太麻烦”这一点,许多读者朋友应该深有体会。在实际使用由于反复修改提示、甄别和修正大模型的输出内容所损耗的时间投入,可能早就已经远远超出其节省的时间成本。
综上,无论从哲学根基还是技术现实来看,通用人工智能(AGI)都还是一个难以企及的幻想。我们手上的大模型,本质上仍是一个功能强大而能模仿人类认知行为的工具,必须认识到,它的能力有明确的边界和局限。
人文社科的“去”与“从”
有了上文的铺垫,至此我们终于可以回到最初的问题了:“人工智能时代历史学将何去何从?”以及“人文学科是否还有未来?”。笔者把这个问题的答案理解为:在“大智能时代”下,人文社科研究中什么会变,以及,什么永远不会变。
过去我们谈论人文社科的学术研究,更多的是指研究者个人的知识储备、资料搜集能力、整理功夫以及和其他研究者交流的过程。但在“大智能时代”下,人文社科的学术研究的逻辑由于出现了与大模型的互动,就对过去所有研究范式的产生了威胁。
过去的逻辑是:你的学术训练越扎实,对对应的学术领域的见识和阅历也就跟丰富,对专门领域下数据的提取也就越熟练,这是因为研究者读过的专著和论文越多所能组织和调用材料的能力就越强,当内化的分析整合都在个人的知识体系中,学术视野也就逐渐开阔起来。
但今天的逻辑不同了,首先研究者不再需要通过穷经皓首般地通读海量文献才能入门对应的领域,对于基本的问题,研究者只需要一个能与AI互动的界面,配合自己简单的材料搜集、筛选、比对和初步整合,AI就能很容易完成你的任务。
举几个例子:以前如果要写一篇关于“安史之乱”的学术史回顾。你需要花几个月时间泡在图书馆和知网上,至少下载上百篇论文,一篇篇读,做笔记,然后自己动脑筋梳理出不同的流派、观点和演变脉络。现在呢?通过直接向大模型提问,配合初步整理的文献以及公开文献的网络检索,仅需几分钟就能完成一个结构清晰的学术史综述框架。同样的,以前如果需要对一批新出土的简牍或一部地方志做初步的内容分析,你需要逐字阅读,手动标记人物、地名、官职、事件,老一辈历史学家还可能会制作各种卡片。现在通过上传文本材料让它给你自动进行关系识别并分类提取关键信息,甚至可以直接生成人物关系图谱和事件年表。
靠人力蛮干的工作只会变得越来越少,直到大模型能阅读和理解的文献资料足够多,研究者在动笔前的材料准备工作几乎都能被AI绕过去,传统学术训练中“考据”、“辑佚”、“索隐”等材料整理的工作价值也会被极大地削弱。
如果“大智能时代”下研究者还只满足于大脑像硬盘一般塞满文献,做不到更多地负责提出深刻问题,角色上不能向大模型的协作者转变,也就如纸笔到电脑打字的变化年代的那样,走向穷途末路了。
不过工具的变革也未必会动摇学科的根基。工具的剧变下,人文社科的内核与价值中始终有几点是不变的,而这些不变之处就是其未来所在。
第一,问题不变。 人文社科的根本目的是为了揭示人类社会及其各个领域如经济、政治、法律、宗教等的内部联系即规律性,以便以此作为向导,去指导人们的实践。也就是说人类始终对自身、对社会、对历史的根本追问不会改变。工具的进步可以处理重复劳动,但人文社科的批判思维、伦理追问、文化共情和创造,也就是AI难以复制的“活人感”。“大智能时代”下,我们比以往任何时候都更需要回归哲学与人文的根本追问。
第二,以语言文字表达思想情感的方式不会变。 大模型尽管具备文本生成能力,可以生成文本,但也难以穷尽语言的精妙与深邃,对于抽象的概念和人类复杂情感乃至精妙比喻,是单纯的数据整理难以企及的。
比如那时候说到恋爱,人们会说“爱神之箭”射中了某某。这怎么画呢?画一支血淋淋的箭扎穿心脏吗?……不光是比喻,很多抽象的文字,非常重要的概念,也是没法画或拍摄出来的。“社会”,你怎么画,怎么拍?“真理”,你怎么画,怎么拍?……因此,文字能永远通向图画、影像所抵达不了的地方,永远都是小说以及整个文学的核心工具。
第三,人类对情和义的价值观的需求也不会变。 AI缺乏真正的价值观和情感体验。维特根斯坦曾问:“机器会牙疼吗?”这个问题直指问题核心:AI没有肉身体验,没有生死别离,没有亲情友谊,也就无法自发产生根植于人类生存境况的价值观。至少在人类消失之前,人类仍旧需要有情有义的生活,对真善美的追求、对公平正义的探讨、对复杂人性的洞察,始终是人文社科的核心任务。
第四,学者的个性化特征不变。 人文社科研究特别是历史研究一定会带有研究者强烈的个性化特征。因为任何研究不仅是材料的堆砌和逻辑的推演,也融入了研究者个人的识见,这也是人文社科研究区别与自然科学研究的一项重大差别。所谓个性特征因人而异,也没有规律可循,对于同样一段史料,不同的史家会读出不同的意味,提出不同的问题,构建不同的叙事。人文社科的个性化解读也是人文研究的魅力所在,绝非大模型生成文本一般简单。
结语
很抱歉,行文至此文字量已然大大超纲。近来与朋友交流,谈到公众号文章的长度问题,只可恨自己水平有限,文章简练度有限,不过本文也已勉强回应了开头的问题,更多对于大模型技术的“考古”,请读者朋友期待本系列后续更新。
一个时代或许正在结束,Cloudflare创始人兼 CEO 马修·普林斯断言:“互联网‘流量为王’的时代就要结束了,AI将终结传统的互联网商业模式”。不过对于人文社科这或许只是一个新时代的开始,一个能让我们更专注于“人”本身,更专注于学科融合和重构知识体系的时代。