5G+AI融合全景图
上QQ阅读APP看书,第一时间看更新

2.1 人工智能领域基础知识

2.1.1 数据集

数据集是基于AI算法解决实际问题的基础。数据集的质量直接影响算法和模型的设计及性能。好的、公认的数据集建立对推动AI算法的发展也发挥着重要作用。在图像处理、自然语言处理、语音处理等众多领域有大量著名数据集的存在,基于这些数据集,也开发出各种经典的算法及模型,极大地推动了人工智能技术的发展。表2-1给出了深度学习领域一些比较著名的数据集。

表2-1 深度学习领域一些著名的数据集

续表

建立数据集也要遵循一定的步骤。首先,根据要解决的问题,需要构思数据集的类型,如分类问题、识别问题、回归问题等。然后,进行数据收集工作,除了要考虑数据的类型、格式,还要兼顾数据的有效性、一致性和隐私性等问题。为了解决这些问题,需要在收集完数据后,对数据进行清洗。数据清洗过后,还可以进行数据的标注。数据清洗和标注可以通过人工或者基于程序的方式进行。为达到稳定可用的性能,一般的机器学习算法要求的数据量较大,基于人工的数据清洗和标注方式需要巨大的工作量。

建立数据集也会遇到一些问题,比较常见的问题如数据集的完整性、一致性、均匀性等。面对各种复杂的场景及情况,数据集的完整性是比较难以直接证明的。数据集的构建也需要与相应的算法和模型有个互动更新与完善的过程。数据集样本数提升,可以支持更灵活的数据集构建方式和更复杂的算法及模型的训练,相应地,得到好的算法及模型的概率也得到提升。在构建数据集时并不是越大的数据集越好,大的数据集进行训练需要的算力资源也会增加,训练的时间也会提升,但是建立模型的性能并不会必然提升。数据集的建立需要和模型一起,在面对实际的问题时不断探索与验证。