AI训练所期望的大数据。
这时,一些新的方法应运而生。
小样本学习是推动深度学习发展的新方向,也是现阶段腾讯天衍实验室研究的重点方向之一,腾讯天衍实验室主任郑冶枫在会上介绍了两个小样本学习算法,用于将来解决医疗影像数据量不足的问题。
第一个方法是迁移学习,即将某个任务(源域)上训练好的模型迁移到另一个任务(目标域)。通过这种方式,我们能够通过源域上的大量数据辅助目标域的小样本数据进行学习,具体表现为“预训练+微调”的模式。
郑冶枫以一个有趣的例子对迁移学习的原理进行了表述:“假设你想做一个‘识别老虎’的计算机视觉项目,但你却没办法经常接触它,观察它。不过,若你能够养一只橘猫,便能在与它的朝夕相处中,捕捉它进食、玩耍、休憩等过程中的一些特征,进而用于老虎的识别。”
第二个方法是无监督域自适应学习,用以解决域偏移问题。在这个方向上,腾讯天衍实验室提出了新型无监督域自适应(UDA)的方法,来缓和域偏移所导致的性能下降,该方法仅仅需要源域的数据、标注以及目标域的部分图像,无需新的标注,即可实现两个领域的自适应。
算力重塑人工智能
不过,仅是对算法进行调整,能够解决医疗人工智能中的问题吗?其实,算法本身也有优化的空间。
南京大学计算机系主任周志华以当前最大人工智能模型“GPT3”为例,谈到了当前机器学习中的暴力美学。这个模型用到了45TB训练数据,1750亿参数模型参数,整个模型大小700GB。基于这个模型,很多困难的自然语言处理问题都取得大幅度进展。
如此来看,模型、数据的扩张确实能够有效改善模型的质量,但对于医学人工智能影像而言,同样会面对数据的问题。
假设医生能够标注足够多的影像,谁来负担高昂的运算费用呢?GPT3一次运算所耗费的算力大概价值1300万美元,即便是模型中存在BUG,也没人愿意对其修改,再耗费巨资跑上一遍。
对于这一问题,周志华与郑冶枫给出了不同的解题思路。
周志华在演讲中表示:“这样的模型能够解决很多问题,带来很大的性能提升。但是如此高昂的成本,也给我们从事人工智能研究的人带来了新的挑战,特别值得让学术界从事人工智能研究的学者思考一个问题:昂贵的成本必须换来效益回报,模型性能提升,在工业界能提升经济效益,有时哪怕性能提升一两个点,带来的回报可能足以弥补投入。但学术界如果花这么大成本,怎么能带来足够的回报?”