孙茂松：要对生成式人工智能的数据集进行安全评测

2025-10-07 19:09 来源：涩陋网点击：

孙茂松：要对生成式人工智能的数据集进行安全评测

4 月 26 日，2024 中关村论坛——数据安全治理与发展论坛在北京举办。清华大学人工智能研究院常务副院长孙茂松围绕人工智能大模型安全治理发表演讲。他深入剖析了当前人工智能，特别是生成式人工智能在发展过程中所面临的机遇与挑战，并建议要对生成式人工智能的数据集进行安全评测。

孙茂松表示，生成式人工智能是发展新质生产力的重要引擎，但同时也存在一些不安全的因素，比如幻觉现象，在使用过程中会发生这样或那样的问题。因此，需要对生成式人工智能进行治理。

" 对生成式人工智能进行治理在全球已经形成了共识，总的原则我觉得是差不多的，但存在技术挑战。" 孙茂松举例说，" 我以前有个研究是做机器翻译，机器翻译一个很重要的依据就是从互联网上抓取大量的人工翻译的双语段。后来我们发现机器翻译产生了大量的双语段，其实那个质量是不行的，拿它来训练机器翻译系统反而搞坏了，这个时候必须靠技术去甄别。"

孙茂松指出，生成式人工智能的生成能力非常强，一旦可以批量生产，如果不进行治理，很快会超越人类写的内容。" 但是它写的内容有很多与事实不符的现象。我们的大模型如果用它再来训练，这就麻烦了。所以，这块确实提出很多深层次的挑战，需要全世界各国政府和学者，方方面面共同努力，才能从技术上把这个事做好。"

孙茂松认为，要对生成式人工智能的数据集进行安全评测，将来所有要上线的大模型，首先要对它的数据集进行把关，不权威不行，要能反映正能量。同时，要明确数据集的 " 负面清单 "。" 构造这个数据集还是非常有挑战性的，因为它涉及到方方面面。但这一块可能是我们应该即时就要做的，马上就要做的。" 孙茂松说。

与此同时，他也提到，生成式人工智能其实也能为数据安全治理提供新的更有效的手段。他表示，生成式人工智能能够生成符合真实情况的数据，但同时规避隐私问题。同时，通过给大模型增加某些特定条件，它可以生成尚未出现过的一些情景的数据，以便可以预先做出研判。

文 | 记者王莉

图 | 2024 中关村论坛新闻中心