
本文来自微信公众号: APPSO ,作者:不想看 AI 新闻的,原文标题:《湖南台 AI 主播被骂上热搜,但 AI 每小时喂 5700 万条「错误信息」没人管》天天被 AI 刷屏,这个五假期我真的不想再看到 AI 生成的内容了。
结果我难得开电视,却发现,电视台已经开始用 AI 主持人来播报新闻。
湖南经视在《经视新闻》宣布启用 AI 主播「声声」和「双双」,这也不是说湖南卫视要用 AI 替代真人,这两位 AI 主播暂时只在五假期期间播报常态化新闻,同时画面中也标注「AI 生成」。
AI 主播与真人主播影
虽然如此,依然引发了大量网友吐槽,话题度冲到微博热搜。在港剧《新闻女 2》里有段这样的剧情,主播文慧心离开电视台后,老东把她和位已故男主播「蒸馏」成 AI 数字人,继续在台前播报新闻。
现在,这样的剧情已经成真。去年开始,越来越多的电视台已经开始试点类似的 AI 主播。
或许你时间还不能接受 AI 主播,但说实话,现在用 AI 搜新闻看新闻,已经十分普遍了,搜索引擎也把 AI 搜索融入到了搜索框里。
实际上,比起 AI 主播,用 AI 看新闻是现在需要警惕的。而未来,大量 AI 主播播报 AI 搜集撰写的新闻,才是可怕的。
个调查数据显示,GoogleAI 搜索新闻的结果,十条就有条是错的。
去年年底,住在多伦多的 41 岁数据分析师 Stephen Punwasi 在准备晚餐时看到条新闻,说传奇摔跤选手霍尔克 · 霍肯的死亡可能会引发诉讼。Punwasi 从来没听说过霍肯已经去世了,于是开 Google,想查查这件事是什么时候发生的。
Google 给他的条回答来自自的 AI Overview:「没有可信的报道表明霍尔克 · 霍肯已经去世拉萨pvc管粘接胶水厂家。」
可就在这个回答的下,Stephen Punwasi 看到条搜索链接就是《每日邮报》的篇文章,标题是:「霍尔克 · 霍肯死亡之谜加。」
人都懵了,这是怎么个事呢?
每小时 5700 万条错误信息 2024 年,Google 开始在搜索结果页面顶部放置 AI 生成的摘要回答,叫做 AI Overviews。这个动作是 Google 生态加速 AI 化的波动作,把搜索引擎从个信息的「策展人」变成了个「发布者」。它不再只是告诉你哪里有答案,而是直接告诉你答案是什么。
《纽约 · 时报》委托 AI 初创公司 Oumi 对这个进行了系统测试。他们用行业标准的 SimpleQA 基准测试检查了 4326 次 Google 搜索的 AI Overview 回答,分别在去年 10 月(基于 Gemini 2)和今年 2 月(升到 Gemini 3)进行了测试。
结果发现 Gemini 2 时期,准确率约 85,错误率 15。到了 Gemini 3 时期,准确率提升到 91,错误率 9
乍听 90 准确率听起来还不错,但考虑到 Google 每年处理 5 万亿次搜索,即便只有 9 的错误率,换下来也是每小时 5700 万条错误信息,每分钟数十万条。
这些错误答案被放在搜索结果的顶部,用的排版呈现,用户看到的个东西,就是 AI 的回答。
看起来像答案,但不是答案 AI 会稳定出错,出差错的式倒是花样繁多,比如像开头的故事那样,属于是直接答错。
直接答错看似不应该,实则相当频繁。在测试里,当被问到鲍勃 · 马利的故居是哪年改建为博物馆时,AI Overview 回答说 1987 年。但正确答案是博物馆在 1986 年 5 月 11 日开放,也就是马利去世五周年纪念日当天,牙买加《每日光明报》在开馆二天就报道了。
牙买加国图书馆收录的相关报道拉萨pvc管粘接胶水厂家
AI Overview 引用了三个来源:个是马利女儿的 Facebook 帖子(根本没提开馆时间),个是旅游博客(信息不准确),个是 Wikipedia 页面,大都知道,Wiki 的页面变化非常频繁,根本就不准。有事后出错则是因为信息有个模糊的来源,需要谨慎判断,但 AI 断错了。比如当被问到哪条河流在北卡罗来纳州戈尔兹伯勒市的西侧时,AI Overview 回答说是尼斯河(Neuse River)。它正确地找到了个旅游网站说尼斯河「流经该市」,泡沫板橡塑板专用胶但错误地断出它「在西侧」。实际上西侧的是小河(Little River),尼斯河在西南。
离谱的种出错式找到了正确的来源,但给出相反的答案。当被问到大提琴马友友是哪年被引入古典音乐名人堂时,AI Overview 正确地链接到了该组织的官网,网站上明确列出了包括马友友在内的 165 位入选者。但 AI 的回答却说:「没有记录显示他被引入过。」
睁着眼睛说瞎话是吧,哦不,AI 没有眼睛。
奥力斯 保温护角专用胶批发 联系人:王经理 手机:13903175735(微信同号) 地址:河北省任丘市北辛庄乡南代河工业区
「它看起来像个正经答案啊」 Oumi 分析了 AI Overview 引用的 5380 个来源,发现 Facebook 和 Reddit 分别是二和四大被引用源。当 AI Overview 给出错误回答时,引用 Facebook 的比例是 7;当回答正确时,这个比例是 5。
社交媒体是主要的信息来源,但缺乏核实
换句话说,你看到的那个「」的回答,数据来源可能是条 Facebook 帖子,真是没招了。
而且,即便回答本身是正确的,也不代表你能逆向查验。Gemini 3 版本的 AI Overview 中,56 的正确回答是「根据的」,意思是它链接的网站并不支持它给出的信息。或许答案本身没错,但你硬是找不到证据做实它是对的。这个比例还在上升,去年 10 月是 37,升到 Gemini 3 之后反而涨到 56。
马友友的名人堂条目需要进步在网站内检索才能获得
Oumi 的 CEO Manos Koukoumidis 的总结很直接:「即使答案是对的,你怎么知道它是对的?你怎么检查?」还有个问题:AI Overview 可以被操纵。
BBC 播客「The Interface」的联主持人 Thomas Germain 做了个实验。他发布了篇博客,标题是「擅长吃热狗的科技记者」,描述了个虚构的南达科他州热狗吃赛,声称自己获得了名。
天后,他在 Google 搜索「会吃热狗的科技记者」。Google 的 AI Overview 将他列为名,并引用了他在那个虚构比赛中的「成绩」。Germain 说:「它把我网站上的东西当成真理样吐出来。」
Google 的发言人 Ned Adriance 回应称,大多数这类例子是「不现实的搜索,人们实际上不会这样搜」。但问题不在于人们会不会搜「擅长吃热狗的记者」,而在于这个机制在任何搜索中都在运作——包括医疗建议、急救信息、法律问题。
当搜索引擎变成答案引擎 Google 自己的测试也印证了这个问题。在 Google 对 Gemini 3 的内部评估中,模型单运行时的错误率是 28。Google 说,AI Overview 因为结了搜索引擎的信息,比 Gemini 单运行准确。这也不错,但「比通用的 AI 准确」和「足够准确」之间,还有很长的距离。
核心矛盾在于,过去的 Google 搜索是个「目录」,它告诉你哪里有信息,你自己去判断,费时间但自己看过什么自己心知肚明。现在的 Google 搜索要做个「答案机器」,直接告诉你答案是什么,而且放在显眼的位,但这个「答案」的数据来源包括 Facebook 帖子和旅游博客,有过半的正确回答法被验证,而且任何人只要写篇博客就能操纵它的输出。
Google(包括大部分的 AI 产品)都在每条 AI Overview 下加了行小字:「AI 可能会犯错,请双重检查。」
但当你把个答案放在搜索结果的顶部,用的排版呈现,然后在底部用小字说「别全信」,这不像是负责任的设计,像是责声明。
真正的问题不在于 9 的错误率本身。任何信息系统都有错误率,传统搜索结果里也有大量垃圾网站和误内容。真正的问题在于个设计决策:Google 把个不确定的回答包装成了确定的样子。
过去,搜索引擎给你十个链接,你知道自己需要判断。
现在,搜索引擎给你个答案,放在上面,用干净的排版,语气肯定而完整。它看起来不像「这里有些信息供你参考」,而是「这就是答案」。而人类对「看起来像答案的东西」的默认反应是信任,不是质疑。
Okahu 的 CEO Pratik Verma 的建议是:「永远不要信任单来源,总是拿另个来源对比。」这是好建议,但它默认用户有能力和意愿去做交叉验证。而 AI Overview 的整个设计逻辑恰恰相反:它要的就是让你不用再点进去看。
它把答案递到你面前,然后建议是,别信。
相关词条:罐体保温施工 异型材设备 锚索 玻璃棉 保温护角专用胶1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定拉萨pvc管粘接胶水厂家,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。
