
根据8月5日的Kuai技术,今天,国家安全部发布了一份文件,以提醒人工智能培训数据中存在质量问题,包括错误信息,虚构的内容和偏见观点,从而带来了数据资源的污染,并为人工安全带来了新的挑战。据了解,人工智能的三个主要要素是算法,计算强度和数据,其中数据是训练AI模型的主要元素,也是AI应用程序的主要资源。高质量的数据可以显着提高模型的准确性和可靠性,但是一旦数据安全性。 “数据中毒”行为产生的肮脏数据(例如篡改,小说和重复)会干扰训练阶段的调整模型参数,削弱模型性能,降低其准确性,甚至引发有害输出。研究表明,当只有0.01%的假Text在培训数据集中,模型内容的有害输出增加了11.2%。即使有0.001%的假文本,其有害产出也相应增加了7.2%。人工智能数据所产生的不正确内容可能是随后的模型培训的数据来源,形成了连续的“污染遗产的效果”。当前,Internet AI产生的内容量大于人类所制作的实际内容,并且大量的低质量和非Layunin数据被淹没,从而导致世代相传的AI培训中数据集错误信息的积累,最终是该模型本身的认知能力。官员们说,数据污染还可以引发一系列实际风险,尤其是在金融市场,公共安全和医疗健康领域。在财务领域,犯罪分子使用AI来发展错误信息,造成数据污染,这可能会导致异常破坏 - 股价变化,从而导致新型的市场人iPulation风险;在公共安全领域,数据污染可能会干扰公众的意识,误导公众舆论并引起社会恐慌。在医疗和健康领域,数据污染可能导致该模型产生不可能的诊断和治疗建议,这不仅威胁了患者的生命,而且会加剧伪科学的传播。 [本文的结尾]如果您需要打印,请确保指示来源:Kuai技术编辑:Shiqi