新华网上海9月1日电(记者 兰天鸣)在近日举行的世界人工智能大会国际前沿算法峰会活动上,卡耐基梅隆大学计算机学院院长,《机器学习》作者汤姆·米切尔介绍了自己有关人工智能无监督学习的研究,他认为计算机是可以做到无监督学习的,并不断提升水平。
汤姆·米切尔目前在卡耐基梅隆大学的研究组正在探索一个被称为NELL(Nerver Ending Language Learner)的项目,旨在让计算机 24 小时不停搜集网络上的公开内容,并试图标记出重要的信息,以此希望算法能够不断自我提升理解能力。
“当我们观察这一项目时,可以发现在 NELL 当中有十个已标注的类型,而通过机器自动学习的未标注数据则超过 2500 万个。” 汤姆·米切尔表示。“我们从传统的单一函数学习框架扩展到了多函数的方法。今天,我们已经拥有 4000 余种分类方法,实现了前所未有的准确性。”
“今天的人工智能仍然大量依赖于人类专家的工作,但就像传统工业最后会向自动化发展一样”,香港科技大学教授杨强表示,数据孤岛、小数据、用户隐私的保护等导致数据的割裂,让AI 技术很难发挥出价值。
他认为,在面临数据割裂的情况下,需要让几种数据建立一个共享的模型,但在建立的过程中不交换数据,只是交换加密保护的模型参数。这种做法的效果就像是融合了多种数据的训练,这就是联邦学习。“联邦迁移学习不仅提高了效率,也可以保护数据,让各个企业的自有数据不出本地。对于银行、电商、零售机构非常友好,让他们的数据可以聚合,通过隐私保护的方法来实现更高程度的自动化。”
在杨强的愿景中,联邦迁移学习最终的目的是形成一个生态,包括互联网的数据,以及场景中的数据,不同行业和不同的用户行为数据进行有机的结合。
据悉,本次国际前沿算法峰会由世界人工智能大会组委会主办,第四范式、上海交通大学承办。峰会以“算法定义AI未来”为主题,将向更底层的技术发问,求解能够推动产业变革的未来算法,为人工智能产业往更纵深发展提出新思考。