第17章 我是谁?(11/13)
rr 模型为后来的大语言模型(如 chatgpt)奠定了理论基础。这篇论文的了不起之处在于提出了自助注意力机制这一数学解决方案,让科学家坚信神经网络能产生类似智能的东西并回答问题。
接下来谈谈计算机回答问题。语言是一个终极概念,日常对话、手语、计算机编程语言、数学等都是语言。数学作为一种语言,具有结构、语法、普世性和精确性,大语言模型能从纯数学中模拟语言结构和模式。概括地说,语言是人类描述世界最简洁有力的工具,而且它远不止是工具,正如维特根斯坦所说“语言的边界就是思想的边界”,人类无法用语言描述未知事物,所以语言是人类思维的总和,大语言模型掌握了语言总和也就掌握了可描述世界的信息。
大语言模型的工作原理是用统计学方法推测下一个字出现的概率。以英文句子“who is the sartest thker far”为例,先将单词分解成最小单位(token),每个 token 与高维空间中的向量相联系,向量有距离和夹角表示语义和语法的相似性或关系。如“an”和“woan”的距离理论上与“kg”和“een”相近,但由于“een”在英文中有更多含义,所以“kg”与“een”的距离比“an”和“woan”更远。在预测句子中问题的答案时,如“which profesr is harry potter&39;s least favorite”,模型会根据计算得出每个结果的概率值,选择概率最大的作为答案,如计算出“snape”的概率为 078 分,就会选择“snape”。对于复杂的侦探小说结尾的问题,如根据全文推测凶手,模型需要捕捉每个词的寓意和上下文关系,通过谷歌论文中的数学公式(涉及查询项目 ery、键值 key 和向量 vae,它们有大量参数,经过计算加权组合),衡量不同章节和段落的线索与角色关系,形成对整篇小说的整体理解。所以,大语言模型不仅需要复杂数学,还需要强大的算力支持。
在科学家的信念加持下,大语言模型取得了成功,虽然目前还不是真正意义上的人工智能,但人类向创造智能迈出了坚实一步。
说完这些,才进入真正关于意识的内容
本章还未完,请点击下一页继续阅读>>>