第24章 小样本学习(1/3)
“样本?就是说你要1201同本地人多交流是吗?”尹秋并没有学过这些东西,因此听起来云里雾里的,“可这样必然进入恶性循环——1201听不懂,不回应,缺乏与本地人的互动,交流减少,而越不交流,1201就越听不懂。”
1201所使用的学习方式,是比较新颖的“小样本学习”(few-shot learng)。这种样本学习方式,不仅对机器学习领域有着重大意义,也同样具有挑战性。能否从少量样本中学习和概括的能力,是将人工智能和人类智能进行区分的明显分界点。因为人类可以仅通过少量示例就可以轻松地建立对新事物的认知,而机器学习算法通常需要大量的有监督样本来保证泛化能力。
但由于隐私,安全性等一系列因素,许多现实的场景,例如医学,军事等领域,根本无法收集到足够的带标签的训练样本。因此,徐远风才决定让1201使用这种尚未完善的“小样本学习”(few-shot learng)训练方法。
徐远风当然不会跟尹秋说这些涉及专业知识的方面,他要用更简单的方法来解释。
“样本,我需要各类方言的样本,你要知道,我们训练ai不是凭空训练的,样本非常重要。”徐远风一边解释,一边拿起纸笔,在纸上画着,好让尹秋能理解他说的话。
“比如,有些公司做的是绘画的ai,就需要将很多画作当做样本给ai做训练。”徐远风在纸上简单地画了个思维图,“而有些创作者,为了省力,他们会将自己的画作作为样本,这种行为,有些人会称为‘喂’,比如说,把自己的画‘喂’给ai,这样ai就能以你的画风来进行ai作画。”
“同样的道理,想要ai理解方言,也是需要将各种不同地区的方言,甚至于各种语速、情绪来‘喂’给ai。”
“所以你需要一个能涵盖当地各种方言,甚至各种年龄段、各种情绪的样本是吗?”尹秋听了,只是觉得这样难度过高,而且别人也不是闲的没事干,把乡亲们从日常生活中拉出来跟1201说话,怕不是要不少经费。
“我知道你在想什么,你可能觉得需要经费,但实际上不需要,因为目前这个阶段我们的数据模型只负责接受各种方言,然后进行分析就
本章还未完,请点击下一页继续阅读>>>