最近这段时间,AI 生成内容在互联网上的占比越来越高。不管是自媒体文章、工作总结,还是学术论文,都能看到 AI 的影子。这时候,AI 检测工具就成了很多平台和创作者的 “刚需”。朱雀 AI 检测作为市面上比较热门的一款工具,大家对它的准确率一直议论纷纷。
我们团队也是做内容创作的,平时经常要处理大量文本。有时候分不清哪些是 AI 写的,哪些是真人原创,很影响工作效率。所以就萌生了做一次测试的想法 —— 把真人写作和 AI 生成的文本混在一起,看看朱雀 AI 检测到底准不准。
这次测试前后筹备了一个月。我们从不同渠道收集了各种类型的文本,有散文、议论文、新闻稿,还有小红书风格的种草文。数量嘛,不多不少,正好 200 篇。其中 100 篇是明确的真人原创,来自我们团队的写手和一些签约作者,都是他们独立完成的。另外 100 篇是 AI 生成的,用了目前比较火的几个大模型,像 GPT - 4、文心一言、讯飞星火都有涉及。
为了保证测试的公平性,我们没有对这些文本做任何修改。不管是真人写的可能存在的语法错误,还是 AI 生成的一些明显特征,都原封不动地保留着。测试的时候,我们把这 200 篇文本打乱顺序,一股脑儿地放进朱雀 AI 检测系统里,然后记录下每一篇的检测结果。
📊 测试结果整体情况
先给大家报个总账。在 200 篇混合文本里,朱雀 AI 检测总共识别出了 87 篇 AI 生成文本。其中,真正是 AI 写的有 82 篇,也就是说,AI 生成文本的检出率是 82%。这个数据看起来还不错,但别急,还有另一面。
在被判定为 AI 生成的文本里,有 5 篇其实是真人原创。这意味着,真人写作的误判率达到了 5%。另外,还有 18 篇 AI 生成文本被判定成了真人写作,漏检率是 18%。这样算下来,朱雀 AI 检测的整体准确率大概在 80% 左右。
这个结果说实话有点出乎我们的意料。本来以为准确率能更高一些,毕竟朱雀 AI 检测在宣传的时候声势挺大的。但仔细想想,80% 的准确率在目前的 AI 检测工具里,也算是中等偏上的水平了。
🔍 不同类型文本的检测表现
我们把测试文本分成了几个大类,想看看朱雀 AI 检测在不同类型文本上的表现有没有差异。结果还真挺明显的。
新闻稿这类比较正式、结构严谨的文本,AI 生成的和真人写的区别相对容易辨认。朱雀 AI 检测在这上面的表现最好,AI 生成文本的检出率达到了 90%,真人写作的误判率只有 2%。可能是因为新闻稿有固定的格式和写作规范,AI 生成的时候很难完全模仿真人的思维和表达习惯。
散文和随笔就不一样了。这类文本更注重情感的表达和个人风格的展现,AI 生成的时候如果训练数据够多,很容易模仿得惟妙惟肖。朱雀 AI 检测在这上面的表现就差了点意思,AI 生成文本的检出率只有 75%,真人写作的误判率却有 8%。有好几篇文笔比较细腻的真人散文,都被误判成了 AI 生成的。
小红书风格的种草文是个特例。这类文本通常语言比较活泼,充满了网络流行语和表情符号(虽然我们测试的时候去掉了表情符号)。AI 生成这类文本的时候,很容易显得生硬。但朱雀 AI 检测在这上面的漏检率却不低,有 20%。反而是一些真人写的比较规整的种草文,被误判成了 AI 生成的。
📝 误判和漏检案例分析
我们挑了几个比较典型的误判和漏检案例,来看看朱雀 AI 检测到底栽在了哪里。
有一篇真人写的关于童年回忆的散文,里面有很多细节描写,比如 “夏天的傍晚,奶奶总是拿着蒲扇坐在槐树下,给我讲牛郎织女的故事,风一吹,槐花落得满身都是”。就是这样一篇充满真情实感的文章,被朱雀 AI 检测判定为 AI 生成。我们分析了一下,可能是因为文中有些句子的结构比较规整,有点像 AI 生成的 “模板化” 表达。
还有一篇 AI 生成的关于科技发展的议论文,里面引用了很多数据和案例,逻辑也比较清晰。但朱雀 AI 检测却把它当成了真人写作。后来发现,这篇文章是用 GPT - 4 生成的,而且经过了多次微调,语言风格非常接近真人。看来,对于那些经过优化的 AI 文本,朱雀 AI 检测还真是有点 “力不从心”。
漏检的 AI 文本里,有不少是短篇文本。比如一些只有两三百字的产品介绍,朱雀 AI 检测经常会判定为真人写作。可能是因为文本太短,特征不够明显,AI 检测工具很难捕捉到足够的信息来做出准确判断。
💡 对行业的影响
80% 的准确率,对于一些对内容要求不高的平台来说,可能已经够用了。但对于像学术期刊、出版社这些对原创性要求极高的机构,朱雀 AI 检测还远远不能满足需求。5% 的误判率,可能会让一些优秀的真人原创作品被埋没。
而 18% 的漏检率,则意味着有不少 AI 生成文本会成为 “漏网之鱼”。这对于打击抄袭、维护原创环境来说,可不是个好消息。特别是在一些考试、评选等场景下,AI 生成文本的漏检可能会导致不公平的结果。
不过话说回来,AI 检测技术也在不断发展。朱雀 AI 检测能达到现在的水平,已经比几年前进步很多了。相信随着技术的不断迭代,准确率会越来越高。
🚀 未来的发展方向
从这次测试结果来看,朱雀 AI 检测要提高准确率,还有不少路要走。首先,得加强对不同类型文本的识别能力,特别是像散文、随笔这类情感丰富、风格多样的文本。其次,要降低误判率,不能让真人原创作品 “背锅”。最后,要减少漏检率,让 AI 生成文本无所遁形。
当然,这不仅仅是朱雀 AI 检测一家的事情,整个 AI 检测行业都需要共同努力。一方面,要不断优化算法,提高检测的精准度;另一方面,要建立更完善的测试标准和数据集,让不同的 AI 检测工具能够进行公平的比较和竞争。
对于我们内容创作者来说,也不能完全依赖 AI 检测工具。提高自身的原创能力,坚持独立思考和写作,才是应对 AI 时代的根本之道。毕竟,真正有价值的内容,是 AI 无法替代的。
【该文章由diwuai.com第五 ai 创作,第五 AI - 高质量公众号、头条号等自媒体文章创作平台 | 降 AI 味 + AI 检测 + 全网热搜爆文库