目前,大模型企业跑步进场,大模型PK如火如荼。随着大模型本身不再稀缺,大家逐渐将目光投向大模型的优化上,而在这个过程中,数据的数量和质量成为了大模型比拼的关键一环,呈现出“得数据者得天下”的趋势。
数据的重要性不言而喻,它不仅为大模型提供了基础的训练原料,同时其质量也进一步决定了大模型是否存在偏差和歧视。由于大模型训练数据来源参差不齐,可能是来自公开数据集,也可能是自行采集数据或者以交易的形式获得的数据,数据来源的多元化以及实质性筛选与过滤的困难,使大模型难以避免虚假、歧视或者涉及个人隐私等不合规不合法的情况。
4月11日,国家互联网信息办公室起草了《生成式人工智能服务管理办法(征求意见稿)》,要求利用人工智能生成的内容需体现社会主义核心价值观,并且应当真实准确,提供者应采取措施防止生成虚假信息,还需承担内容生产者责任。同时该办法明确指出,“对于运行中发现、用户举报的不符合本办法要求的生成内容,除采取内容过滤等措施外,应在3个月内通过模型优化训练等方式防止再次生成。”