主动学习:当机器学会"提问"——如何用更少标注获得更强模型
标注:机器学习的阿喀琉斯之踵 机器学习领域有一个公开的秘密:算法越来越强,但数据标注的成本越来越高。 2010年,Burr Settles在其经典综述中记录了一个令人震惊的数据:语音识别中的音素标注,一分钟音频需要近七个小时才能完成。这不是个例。医学影像的分割标注,单张图像可能需要2-15分钟;法律文档的分类标注,需要资深律师逐字审阅;生物信息学中的基因标注,往往需要博士级别的专业知识。 ...
标注:机器学习的阿喀琉斯之踵 机器学习领域有一个公开的秘密:算法越来越强,但数据标注的成本越来越高。 2010年,Burr Settles在其经典综述中记录了一个令人震惊的数据:语音识别中的音素标注,一分钟音频需要近七个小时才能完成。这不是个例。医学影像的分割标注,单张图像可能需要2-15分钟;法律文档的分类标注,需要资深律师逐字审阅;生物信息学中的基因标注,往往需要博士级别的专业知识。 ...