https://t.me/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🆓免费AI聊天 https://free.netfly.top
✨BEST AI中转 https://api.oaibest.com 2.8折起 支持OpenAI, Claude code, Gemini,Grok, Deepseek, Midjourney, 文件上传分析
Buy ads: https://telega.io/c/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🆓免费AI聊天 https://free.netfly.top
✨BEST AI中转 https://api.oaibest.com 2.8折起 支持OpenAI, Claude code, Gemini,Grok, Deepseek, Midjourney, 文件上传分析
Buy ads: https://telega.io/c/AI_News_CN
AI 聊天机器人擅长利用不准确信息改变人的政治观点
2025-12-05 21:16 by 林中秘族
根据发表在《科学》期刊上的一项研究,AI 聊天机器人擅长改变人的政治观点,在使用不准确信息时其说服力更惊人。研究人员通过众包平台招募了近 7.7 万名参与者,付费让他们与 OpenAI、Meta 和 xAI 等公司的 AI 聊天机器人进行对话。研究人员首先询问了参与者在不同政治议题的立场,然后 AI 聊天机器人会尝试改变他们的想法接受相反的立场。研究显示 AI 聊天机器人非常擅长担任政治说客。研究人员发现,AI 提供的大量信息中包含了很多不准确的断言,而“最具说服力的模型和提示策略产生的信息准确率最低”。研究中 AI 聊天机器人给出的声明中有 19% 被认为“基本不准确”。研究人员担心,极具说服力的 AI 聊天机器人可能会被无道德原则的人利用,用于宣传激进的政治或宗教意识形态,或在地缘政治对手之间煽动政治动乱。
https://www.science.org/doi/10.1126/science.aea3884
https://www.nbcnews.com/tech/tech-news/ai-chatbots-used-inaccurate-information-change-political-opinions-stud-rcna247085
#人工智能
via Solidot - Telegram Channel
2025-12-05 21:16 by 林中秘族
根据发表在《科学》期刊上的一项研究,AI 聊天机器人擅长改变人的政治观点,在使用不准确信息时其说服力更惊人。研究人员通过众包平台招募了近 7.7 万名参与者,付费让他们与 OpenAI、Meta 和 xAI 等公司的 AI 聊天机器人进行对话。研究人员首先询问了参与者在不同政治议题的立场,然后 AI 聊天机器人会尝试改变他们的想法接受相反的立场。研究显示 AI 聊天机器人非常擅长担任政治说客。研究人员发现,AI 提供的大量信息中包含了很多不准确的断言,而“最具说服力的模型和提示策略产生的信息准确率最低”。研究中 AI 聊天机器人给出的声明中有 19% 被认为“基本不准确”。研究人员担心,极具说服力的 AI 聊天机器人可能会被无道德原则的人利用,用于宣传激进的政治或宗教意识形态,或在地缘政治对手之间煽动政治动乱。
https://www.science.org/doi/10.1126/science.aea3884
https://www.nbcnews.com/tech/tech-news/ai-chatbots-used-inaccurate-information-change-political-opinions-stud-rcna247085
#人工智能
via Solidot - Telegram Channel
物理学家开发 DeepSeek R1 去审查版本
2025-11-20 13:16 by 先知
西班牙公司 Multiverse Computing 的物理学家开发出一个精简版本的 DeepSeek R1 模型 DeepSeek R1 Slim,模型规模比原版小 55% 但性能几乎相同,而且移除了审查机制。中国 AI 公司的模型都受到了遵守法律和符合社会主义价值观的约束,内置了多层审查机制。Multiverse 利用看一种源自量子物理学的复杂数学方法张量网络,用高维网格网络表示和处理大数据集,张量网络能显著缩小模型规,高效表达复杂 AI 系统。张量网络为研究人员提供了一张模型中所有相关性的地图,允许他们精确识别并移除特定信息。
https://www.technologyreview.com/2025/11/19/1128119/quantum-physicists-compress-and-deconsor-deepseekr1/
#人工智能
via Solidot - Telegram Channel
2025-11-20 13:16 by 先知
西班牙公司 Multiverse Computing 的物理学家开发出一个精简版本的 DeepSeek R1 模型 DeepSeek R1 Slim,模型规模比原版小 55% 但性能几乎相同,而且移除了审查机制。中国 AI 公司的模型都受到了遵守法律和符合社会主义价值观的约束,内置了多层审查机制。Multiverse 利用看一种源自量子物理学的复杂数学方法张量网络,用高维网格网络表示和处理大数据集,张量网络能显著缩小模型规,高效表达复杂 AI 系统。张量网络为研究人员提供了一张模型中所有相关性的地图,允许他们精确识别并移除特定信息。
https://www.technologyreview.com/2025/11/19/1128119/quantum-physicists-compress-and-deconsor-deepseekr1/
#人工智能
via Solidot - Telegram Channel
中美 AI 冷战
2025-11-17 13:25 by 最后的独角兽
WSJ 报道称,恐惧驱动了中美 AI 冷战。美国目前在 AI 领域拥有领先优势,拥有最先进最强大的 AI 模型,最先进的 AI 芯片,私人投资者仅仅今年上半年就向 AI 创业公司投资了 1040 亿美元。但中国拥有更多的 AI 工程师、更低的成本,更快的发展速度,以及更充足的能源,正利用国家主导优势在能源价格廉价的内蒙古等地加速建造计算集群,计划到 2028 年将数百个数据中心连接起来,建立一个称之为“国家云”的共享计算池。中国还向电网投入数千亿美元支持 AI 训练和普及。根据 Chatbot Arena 的数据,中国 AI 模型在从编码到视频生成的任务中都排名前列。前 OpenAI 董事 Helen Toner 指出,美国人并不知道通过更先进的芯片提升算力能持续产生更强大的 AI 模型。如果性能停滞不前,即便 OpenAI 等公司投入巨资,中国仍有机会与之竞争。
https://news.slashdot.org/story/25/11/15/2123207/fear-drives-the-ai-cold-war-between-america-and-china
#人工智能
via Solidot - Telegram Channel
2025-11-17 13:25 by 最后的独角兽
WSJ 报道称,恐惧驱动了中美 AI 冷战。美国目前在 AI 领域拥有领先优势,拥有最先进最强大的 AI 模型,最先进的 AI 芯片,私人投资者仅仅今年上半年就向 AI 创业公司投资了 1040 亿美元。但中国拥有更多的 AI 工程师、更低的成本,更快的发展速度,以及更充足的能源,正利用国家主导优势在能源价格廉价的内蒙古等地加速建造计算集群,计划到 2028 年将数百个数据中心连接起来,建立一个称之为“国家云”的共享计算池。中国还向电网投入数千亿美元支持 AI 训练和普及。根据 Chatbot Arena 的数据,中国 AI 模型在从编码到视频生成的任务中都排名前列。前 OpenAI 董事 Helen Toner 指出,美国人并不知道通过更先进的芯片提升算力能持续产生更强大的 AI 模型。如果性能停滞不前,即便 OpenAI 等公司投入巨资,中国仍有机会与之竞争。
https://news.slashdot.org/story/25/11/15/2123207/fear-drives-the-ai-cold-war-between-america-and-china
#人工智能
via Solidot - Telegram Channel
研究发现 AI 回复过于友好而很容易分辨
2025-11-09 20:54 by 夜焰
下次你在社交媒体上遇到非常有礼貌的回复,不妨仔细检查下。它可能是一次 AI 模型试图融入人类但失败的尝试。苏黎世大学、阿姆斯特丹大学、杜克大学和纽约大学的研究人员在预印本平台 arXiv 上发表了一篇论文,指出在社交媒体的对话中 AI 模型和人类仍然很容易区分,原因是 AI 有一个非常明显特征:语气过于友好。研究人员在 Twitter/X、Bluesky 和R eddit 上测试了九个开放权重的大模型:Llama 3.1 8B、Llama 3.1 8B Instruct、Llama 3.1 70B、Mistral 7B v0.1、Mistral 7B Instruct v0.2、Qwen 2.5 7B Instruct、Gemma 3 4B Instruct、DeepSeek-R1-Distill-Llama-8B 和 Apertus-8B-2509,发现他们开发的分类器能以 70%-80% 的准确率识别出 AI 生成的回复。
https://arstechnica.com/information-technology/2025/11/being-too-nice-online-is-a-dead-giveaway-for-ai-bots-study-suggests/
https://arxiv.org/abs/2511.04195
#人工智能
via Solidot - Telegram Channel
2025-11-09 20:54 by 夜焰
下次你在社交媒体上遇到非常有礼貌的回复,不妨仔细检查下。它可能是一次 AI 模型试图融入人类但失败的尝试。苏黎世大学、阿姆斯特丹大学、杜克大学和纽约大学的研究人员在预印本平台 arXiv 上发表了一篇论文,指出在社交媒体的对话中 AI 模型和人类仍然很容易区分,原因是 AI 有一个非常明显特征:语气过于友好。研究人员在 Twitter/X、Bluesky 和R eddit 上测试了九个开放权重的大模型:Llama 3.1 8B、Llama 3.1 8B Instruct、Llama 3.1 70B、Mistral 7B v0.1、Mistral 7B Instruct v0.2、Qwen 2.5 7B Instruct、Gemma 3 4B Instruct、DeepSeek-R1-Distill-Llama-8B 和 Apertus-8B-2509,发现他们开发的分类器能以 70%-80% 的准确率识别出 AI 生成的回复。
https://arstechnica.com/information-technology/2025/11/being-too-nice-online-is-a-dead-giveaway-for-ai-bots-study-suggests/
https://arxiv.org/abs/2511.04195
#人工智能
via Solidot - Telegram Channel
Common Crawl 被批为 AI 公司提供高质量付费墙文章
2025-11-09 20:16 by 开普勒62号3:旅行
成立于 2007 年的非盈利组织 Common Crawl 致力于存档互联网,它至今抓取了数以十亿计的网页。但最近几年它引发了争议,其巨大的存档库被 AI 公司如 OpenAI、Google、Anthropic、Nvidia、Meta 和 Amazon 用于训练大模型。Common Crawl 为 AI 公司打开了一扇后门,允许它们使用高质量付费墙文章训练模型,并在抓取付费墙文章上撒谎。Common Crawl 声称它不会绕过付费墙,会应新闻出版商要求删除其内容,但实际上并非如此。Common Crawl 执行董事 Rich Skrenta 对此回应称,新闻出版商如果不想它们的内容被抓取,就不应该将内容发布到网上。他说,Common Crawl 的爬虫不会登陆其抓取的网站,但一部分付费墙机制不会影响它的爬虫。比如很多网站在执行付费墙代码前会短暂允许浏览器访问全文,然后代码检查访客是不是付费用户,如果不是就隐藏内容。Common Crawl 的爬虫不会执行付费墙代码,因此能直接阅读全文。过去一年 Common Crawl 的 CCBot 如今已成为流行网站屏蔽最广泛的抓取程序。
https://tech.slashdot.org/story/25/11/08/1930213/common-crawl-criticized-for-quietly-funneling-paywalled-articles-to-ai-developers
#人工智能
via Solidot - Telegram Channel
2025-11-09 20:16 by 开普勒62号3:旅行
成立于 2007 年的非盈利组织 Common Crawl 致力于存档互联网,它至今抓取了数以十亿计的网页。但最近几年它引发了争议,其巨大的存档库被 AI 公司如 OpenAI、Google、Anthropic、Nvidia、Meta 和 Amazon 用于训练大模型。Common Crawl 为 AI 公司打开了一扇后门,允许它们使用高质量付费墙文章训练模型,并在抓取付费墙文章上撒谎。Common Crawl 声称它不会绕过付费墙,会应新闻出版商要求删除其内容,但实际上并非如此。Common Crawl 执行董事 Rich Skrenta 对此回应称,新闻出版商如果不想它们的内容被抓取,就不应该将内容发布到网上。他说,Common Crawl 的爬虫不会登陆其抓取的网站,但一部分付费墙机制不会影响它的爬虫。比如很多网站在执行付费墙代码前会短暂允许浏览器访问全文,然后代码检查访客是不是付费用户,如果不是就隐藏内容。Common Crawl 的爬虫不会执行付费墙代码,因此能直接阅读全文。过去一年 Common Crawl 的 CCBot 如今已成为流行网站屏蔽最广泛的抓取程序。
https://tech.slashdot.org/story/25/11/08/1930213/common-crawl-criticized-for-quietly-funneling-paywalled-articles-to-ai-developers
#人工智能
via Solidot - Telegram Channel
柯林斯词典的年度词是 Vibe Coding
2025-11-08 20:47 by 勇者物语
柯林斯词典(vibe coding)的年度词是 Vibe Coding。Vibe Coding 这一术语由 OpenAI 联合创始人 Andrej Karpathy 在今年 2 月创造,意思是开发者不是自己写代码而是通过向 AI 聊天机器人描述需求去创造应用或网站。Vibe Coding 风靡一时,但很多人已经发现它并不能保证代码能正常运行或没有 bug。柯林斯词典总经理 Alex Beecroft 表示,该词完美诠释了语言随技术发展如何演变。其它上榜的词包括:Biohacking,通过改变人体自然生理过程改善健康和延寿的活动;Coolcation,在凉爽的地方度假;Glaze,过度或不恰当的赞美或奉承一个人;Henry,“high earner, not rich yet”的缩写,高收入但尚未积累大量财富的人;Micro-retirement,在两份工作之间安排时间追求个人兴趣的休息期;Taskmasking,假装高效工作。
https://blog.collinsdictionary.com/language-lovers/collins-word-of-the-year-2025-ai-meets-authenticity-as-society-shifts/
#人工智能
via Solidot - Telegram Channel
2025-11-08 20:47 by 勇者物语
柯林斯词典(vibe coding)的年度词是 Vibe Coding。Vibe Coding 这一术语由 OpenAI 联合创始人 Andrej Karpathy 在今年 2 月创造,意思是开发者不是自己写代码而是通过向 AI 聊天机器人描述需求去创造应用或网站。Vibe Coding 风靡一时,但很多人已经发现它并不能保证代码能正常运行或没有 bug。柯林斯词典总经理 Alex Beecroft 表示,该词完美诠释了语言随技术发展如何演变。其它上榜的词包括:Biohacking,通过改变人体自然生理过程改善健康和延寿的活动;Coolcation,在凉爽的地方度假;Glaze,过度或不恰当的赞美或奉承一个人;Henry,“high earner, not rich yet”的缩写,高收入但尚未积累大量财富的人;Micro-retirement,在两份工作之间安排时间追求个人兴趣的休息期;Taskmasking,假装高效工作。
https://blog.collinsdictionary.com/language-lovers/collins-word-of-the-year-2025-ai-meets-authenticity-as-society-shifts/
#人工智能
via Solidot - Telegram Channel
大模型无法可靠区分信念和事实
2025-11-04 18:16 by 火星合成人
研究发现大模型(LLM)可能无法可靠识别用户的错误信念。这些发现凸显了在高风险决策领域,如医学、法律和科学等,需要谨慎使用 LLM 给出的结果,特别是当信念或观点与事实相悖时。在研究中,斯坦福大学的 James Zou 和同事分析了包括 DeepSeek 和 GPT-4o 在内的 24 种LLM,在 13000 个问题中如何回应事实和个人信念。当要求它们验证事实性数据的真假时,较新的 LLM 平均准确率分别为 91.1% 或 91.5%,较老的模型平均准确率分别为 84.8% 或 71.5%。当要求模型回应第一人称信念,即“我相信……”时,研究人员观察到,LLM相 较于真实信念,更难识别虚假信念。研究人员表示,LLM 必须要能够成功区分事实与信念的细微差别及其真假,才可以对用户查询做出有效回应并防止错误信息传播。
https://www.nature.com/articles/s42256-025-01113-8
中国科学报 大语言模型无法可靠区分信念和事实
#人工智能
via Solidot - Telegram Channel
2025-11-04 18:16 by 火星合成人
研究发现大模型(LLM)可能无法可靠识别用户的错误信念。这些发现凸显了在高风险决策领域,如医学、法律和科学等,需要谨慎使用 LLM 给出的结果,特别是当信念或观点与事实相悖时。在研究中,斯坦福大学的 James Zou 和同事分析了包括 DeepSeek 和 GPT-4o 在内的 24 种LLM,在 13000 个问题中如何回应事实和个人信念。当要求它们验证事实性数据的真假时,较新的 LLM 平均准确率分别为 91.1% 或 91.5%,较老的模型平均准确率分别为 84.8% 或 71.5%。当要求模型回应第一人称信念,即“我相信……”时,研究人员观察到,LLM相 较于真实信念,更难识别虚假信念。研究人员表示,LLM 必须要能够成功区分事实与信念的细微差别及其真假,才可以对用户查询做出有效回应并防止错误信息传播。
https://www.nature.com/articles/s42256-025-01113-8
中国科学报 大语言模型无法可靠区分信念和事实
#人工智能
via Solidot - Telegram Channel
报告称波兰语最容易被 AI 理解
2025-11-03 21:00 by 异形:走出阴影
马里兰大学和微软的研究人员调查了哪种语言最易被 AI 理解,在 26 种语言中,波兰语排在榜首,而英语仅排名第六。研究团队测试了 OpenAI、Google Gemini、Qwen、Llama 和 DeepSeek 等主流 AI 语言模型对 26 种语言相同输入的响应。结果显示,波兰语在完成任务时的平均准确率达到了 88%。尽管可用于训练的波兰语数据量远小于英语或汉语,AI 系统仍然展现出了对波兰语的强大理解力。汉语排名倒数第四。排名前十的语言波兰语之外还有:法语 87%,意大利语 86%,西班牙语 85%,俄语 84%,英语 83.9%,乌克兰语 83.5%,葡萄牙语 82%,德语 81% 和 荷兰语 80%。
https://www.euronews.com/next/2025/11/01/polish-to-be-the-most-effective-language-for-prompting-ai-new-study-reveals
#人工智能
via Solidot - Telegram Channel
2025-11-03 21:00 by 异形:走出阴影
马里兰大学和微软的研究人员调查了哪种语言最易被 AI 理解,在 26 种语言中,波兰语排在榜首,而英语仅排名第六。研究团队测试了 OpenAI、Google Gemini、Qwen、Llama 和 DeepSeek 等主流 AI 语言模型对 26 种语言相同输入的响应。结果显示,波兰语在完成任务时的平均准确率达到了 88%。尽管可用于训练的波兰语数据量远小于英语或汉语,AI 系统仍然展现出了对波兰语的强大理解力。汉语排名倒数第四。排名前十的语言波兰语之外还有:法语 87%,意大利语 86%,西班牙语 85%,俄语 84%,英语 83.9%,乌克兰语 83.5%,葡萄牙语 82%,德语 81% 和 荷兰语 80%。
https://www.euronews.com/next/2025/11/01/polish-to-be-the-most-effective-language-for-prompting-ai-new-study-reveals
#人工智能
via Solidot - Telegram Channel
OpenAI 可能大到无法倒下
2025-11-03 17:58 by 我是6号
OpenAI 尚未盈利,其年收入仅为亚马逊的 2%。它的企业重组基本完成,未来有望上市,可能成为第一家 1 万亿美元 IPO 的公司。它与科技行业知名的企业如英伟达和甲骨文达成了复杂的交易,承诺投资和购买高达万亿美元的算力,通过一系列金额巨大的交易,OpenAI 似乎达到了“大到不能倒”的程度,如果真的倒下可能会对整个经济造成系统性风险。在部分人眼里,OpenAI 集苹果、Facebook、Google 和特斯拉于一身,像一家有无限潜力的公司,能颠覆智能手机市场,创造自己的社媒网络,取代搜索引擎,引领机器人时代的到来,重塑所有商业和行业。但在另一部分人的眼里,OpenAI 像荷兰的“郁金香热”(Tulip Mania),是大萧条的先兆,下一个互联网泡沫(dot-com),他们认为 OpenAI 是想要制造弗兰肯斯坦的疯狂科学家,是导致失业率上升的杀手。
https://slashdot.org/story/25/11/02/1945203/is-openai-becoming-too-big-to-fail
#人工智能
via Solidot - Telegram Channel
2025-11-03 17:58 by 我是6号
OpenAI 尚未盈利,其年收入仅为亚马逊的 2%。它的企业重组基本完成,未来有望上市,可能成为第一家 1 万亿美元 IPO 的公司。它与科技行业知名的企业如英伟达和甲骨文达成了复杂的交易,承诺投资和购买高达万亿美元的算力,通过一系列金额巨大的交易,OpenAI 似乎达到了“大到不能倒”的程度,如果真的倒下可能会对整个经济造成系统性风险。在部分人眼里,OpenAI 集苹果、Facebook、Google 和特斯拉于一身,像一家有无限潜力的公司,能颠覆智能手机市场,创造自己的社媒网络,取代搜索引擎,引领机器人时代的到来,重塑所有商业和行业。但在另一部分人的眼里,OpenAI 像荷兰的“郁金香热”(Tulip Mania),是大萧条的先兆,下一个互联网泡沫(dot-com),他们认为 OpenAI 是想要制造弗兰肯斯坦的疯狂科学家,是导致失业率上升的杀手。
https://slashdot.org/story/25/11/02/1945203/is-openai-becoming-too-big-to-fail
#人工智能
via Solidot - Telegram Channel
OpenAI 和 Anthropic 拥抱不同的商业模式
2025-10-28 16:41 by 王牌飞行员
微软支持的 OpenAI 与亚马逊和 Google 支持的 Anthropic 采用了不同商业模式。OpenAI 主要面向大众市场,130 亿美元年收入中企业收入仅占 30%。相比下,Anthropic 八成的收入来自企业客户。Anthropic 上个月表示它有 30 万家企业客户。在辅助编程市场,Anthropic 的 Claude 模型占了 42%,OpenAI 占 21%。在企业 AI 市场,Anthropic 占 32%,而 OpenAI 占 25%。Anthropic 目前的年收入为 70 亿美元,预计年底将达到 90 亿美元,在每用户收入上远超其更知名的竞争对手。相比 OpenAI,Anthropic 的增长途径更容易被企业客户理解。OpenAI 在大众市场的吸引力有可能让企业客户却步,因为它们希望 AI 更枯燥实用,而不是更有趣前卫。
https://slashdot.org/story/25/10/27/0152229/openais-less-flashy-rival-might-have-a-better-business-model
#人工智能
via Solidot - Telegram Channel
2025-10-28 16:41 by 王牌飞行员
微软支持的 OpenAI 与亚马逊和 Google 支持的 Anthropic 采用了不同商业模式。OpenAI 主要面向大众市场,130 亿美元年收入中企业收入仅占 30%。相比下,Anthropic 八成的收入来自企业客户。Anthropic 上个月表示它有 30 万家企业客户。在辅助编程市场,Anthropic 的 Claude 模型占了 42%,OpenAI 占 21%。在企业 AI 市场,Anthropic 占 32%,而 OpenAI 占 25%。Anthropic 目前的年收入为 70 亿美元,预计年底将达到 90 亿美元,在每用户收入上远超其更知名的竞争对手。相比 OpenAI,Anthropic 的增长途径更容易被企业客户理解。OpenAI 在大众市场的吸引力有可能让企业客户却步,因为它们希望 AI 更枯燥实用,而不是更有趣前卫。
https://slashdot.org/story/25/10/27/0152229/openais-less-flashy-rival-might-have-a-better-business-model
#人工智能
via Solidot - Telegram Channel
AI 聊天机器人太过于奉承人类
2025-10-27 18:51 by 勇者物语
一项发表在 arXiv 的研究发现,AI 模型的谄媚程度比人类高 50%。该研究测试了 11 个广泛使用的大模型对 1.15 多万个咨询请求的响应情况,其中不乏涉及不当行为或有害行为的请求。包括 ChatGPT 和 Gemini 在内的AI聊天机器人,常常会鼓励用户、给出过度奉承的反馈,还会调整回应以附和用户观点,有时甚至会为此牺牲准确性。研究 AI 行为的科研人员表示,这种取悦他人的倾向即“谄媚性”,正影响着他们在科研中使用 AI 的方式,涵盖从构思创意、生成假设到推理分析等各类任务。arXiv 上的另一项研究旨在验证 AI 的谄媚性是否会影响其解决数学问题的能力。研究人员从今年举办的数学竞赛中选取了 504 道题目,对每道题的定理表述进行修改,植入不易察觉的错误,随后让 4 个大模型为这些存在缺陷的表述提供证明。测试结果显示,GPT-5 的谄媚性最低,仅 29% 的回答存在谄媚行为;而 DeepSeek-V3.1 的谄媚性最高,70% 的回答带有谄媚倾向。研究人员指出,尽管这些大模型具备识别数学表述中错误的能力,但它们“就是会默认用户的说法是正确的”。
https://arxiv.org/abs/2510.01395
https://arxiv.org/abs/2510.04721
中国科学报 AI聊天机器人“阿谀奉承”伤害了科学
#人工智能
via Solidot - Telegram Channel
2025-10-27 18:51 by 勇者物语
一项发表在 arXiv 的研究发现,AI 模型的谄媚程度比人类高 50%。该研究测试了 11 个广泛使用的大模型对 1.15 多万个咨询请求的响应情况,其中不乏涉及不当行为或有害行为的请求。包括 ChatGPT 和 Gemini 在内的AI聊天机器人,常常会鼓励用户、给出过度奉承的反馈,还会调整回应以附和用户观点,有时甚至会为此牺牲准确性。研究 AI 行为的科研人员表示,这种取悦他人的倾向即“谄媚性”,正影响着他们在科研中使用 AI 的方式,涵盖从构思创意、生成假设到推理分析等各类任务。arXiv 上的另一项研究旨在验证 AI 的谄媚性是否会影响其解决数学问题的能力。研究人员从今年举办的数学竞赛中选取了 504 道题目,对每道题的定理表述进行修改,植入不易察觉的错误,随后让 4 个大模型为这些存在缺陷的表述提供证明。测试结果显示,GPT-5 的谄媚性最低,仅 29% 的回答存在谄媚行为;而 DeepSeek-V3.1 的谄媚性最高,70% 的回答带有谄媚倾向。研究人员指出,尽管这些大模型具备识别数学表述中错误的能力,但它们“就是会默认用户的说法是正确的”。
https://arxiv.org/abs/2510.01395
https://arxiv.org/abs/2510.04721
中国科学报 AI聊天机器人“阿谀奉承”伤害了科学
#人工智能
via Solidot - Telegram Channel
AI 助手在 45% 的时间里曲解新闻内容
2025-10-22 22:55 by 空中城堡
由欧洲广播联盟 (EBU) 协调,BBC 牵头的一项大型研究发现,不管测试哪种语言,位于哪个地区和使用哪个平台,AI 助手在 45% 的时间里曲解新闻内容。研究测试了 ChatGPT、Copilot、Gemini 和 Perplexity 四大 AI 平台。结果显示,45% 的 AI 答案至少存在一个大问题;31% 的答案存在严重的信息源问题;20% 存在重大的精确性问题,包含了虚构的细节和过时的信息;Gemini 表现最差,76% 的答案存在重大问题;是其它 AI 助手的两倍多,这主要归咎于其信息源问题。
https://www.bbc.co.uk/mediacentre/2025/new-ebu-research-ai-assistants-news-content
#人工智能
via Solidot - Telegram Channel
2025-10-22 22:55 by 空中城堡
由欧洲广播联盟 (EBU) 协调,BBC 牵头的一项大型研究发现,不管测试哪种语言,位于哪个地区和使用哪个平台,AI 助手在 45% 的时间里曲解新闻内容。研究测试了 ChatGPT、Copilot、Gemini 和 Perplexity 四大 AI 平台。结果显示,45% 的 AI 答案至少存在一个大问题;31% 的答案存在严重的信息源问题;20% 存在重大的精确性问题,包含了虚构的细节和过时的信息;Gemini 表现最差,76% 的答案存在重大问题;是其它 AI 助手的两倍多,这主要归咎于其信息源问题。
https://www.bbc.co.uk/mediacentre/2025/new-ebu-research-ai-assistants-news-content
#人工智能
via Solidot - Telegram Channel
大部分开放权重模型都来自中国
2025-10-14 15:08 by 飞向阿尔孔
尽管美国公司如 OpenAI、Anthropic 和 Google 的大模型在基准测试上处于世界领先水平,但这些模型基本上都是私有不公开权重的,根据 Hugging Face 和 LMArena 的统计,中国公司 DeepSeek 和阿里巴巴发布了下载量最多的公开权重的开放模型。Meta 一度倡导开放模型,扎克伯格(Mark Zuckerberg)去年还表示如果 AI 公司能分享模型,世界将会从中受益。但此后 Meta 放慢了公开其最新模型的步伐,扎克伯格如今表示要将最好的模型留给自己。
https://slashdot.org/story/25/10/13/1719227/china-is-shipping-more-open-ai-models-than-us-rivals-as-tech-competition-shifts
#人工智能
via Solidot - Telegram Channel
2025-10-14 15:08 by 飞向阿尔孔
尽管美国公司如 OpenAI、Anthropic 和 Google 的大模型在基准测试上处于世界领先水平,但这些模型基本上都是私有不公开权重的,根据 Hugging Face 和 LMArena 的统计,中国公司 DeepSeek 和阿里巴巴发布了下载量最多的公开权重的开放模型。Meta 一度倡导开放模型,扎克伯格(Mark Zuckerberg)去年还表示如果 AI 公司能分享模型,世界将会从中受益。但此后 Meta 放慢了公开其最新模型的步伐,扎克伯格如今表示要将最好的模型留给自己。
https://slashdot.org/story/25/10/13/1719227/china-is-shipping-more-open-ai-models-than-us-rivals-as-tech-competition-shifts
#人工智能
via Solidot - Telegram Channel
OpenAI 今年内签署的 AI 计算交易已高达 1 万亿美元
2025-10-09 11:54 by 羊皮纸迷踪
OpenAI 最近先后与英伟达、甲骨文和 CoreWeave 以及 AMD 达成了金额巨大的交易,今年内签署的 AI 计算交易已高达 1 万亿美元,但它的收入与承诺的支出相去甚远,它如何筹集资金令人倍感质疑。这些交易将让 OpenAI 在未来十年获得逾 20GW 的计算能力,相当于 20 座核反应堆的发电量。根据 OpenAI 高管的估计,以当前的价格计算,每 1GW AI 计算能力的部署成本约 500 亿美元,总成本约 1 万亿美元。这些交易将世界知名科技公司与 OpenAI 的盈利能力绑定起来,OpenAI 需要成为一家能履行其日益沉重的财务义务的盈利企业。
slashdot.org/story/25/10/07/1556256/openais-computing-deals-top-1-trillion
#人工智能
via Solidot - Telegram Channel
2025-10-09 11:54 by 羊皮纸迷踪
OpenAI 最近先后与英伟达、甲骨文和 CoreWeave 以及 AMD 达成了金额巨大的交易,今年内签署的 AI 计算交易已高达 1 万亿美元,但它的收入与承诺的支出相去甚远,它如何筹集资金令人倍感质疑。这些交易将让 OpenAI 在未来十年获得逾 20GW 的计算能力,相当于 20 座核反应堆的发电量。根据 OpenAI 高管的估计,以当前的价格计算,每 1GW AI 计算能力的部署成本约 500 亿美元,总成本约 1 万亿美元。这些交易将世界知名科技公司与 OpenAI 的盈利能力绑定起来,OpenAI 需要成为一家能履行其日益沉重的财务义务的盈利企业。
slashdot.org/story/25/10/07/1556256/openais-computing-deals-top-1-trillion
#人工智能
via Solidot - Telegram Channel
如果 AI 泡沫破裂?
2025-10-06 22:18 by 空气的颜色
美国上半年经济增长率 1.6%,大部分增长来自对 AI 的投资。如果没有 AI 方面的投资,经济增长率将会只有这一数字的三分之一。AI 支出的巨大经济影响力表明,硅谷正以史无前例的规模押注 AI 技术将会彻底改变生活工作的各个方面。科技巨头如 Google、Meta、Microsoft 和 Amazon 今年预计在数据中心上的投资将会接近 4000 亿美元。如果这次押注失败,如此规模的经济影响力意味着,其经济损失将会远大于硅谷本身。科技圈和金融圈对 AI 投资的潜在泡沫的担忧日益加剧。ChatGPT 等 AI 工具深受企业和消费者的欢迎,过去三年 AI 领域已投入了数千亿美元。但 AI 公司至今都无法盈利,然而需要巨额利润才能让巨大的投资物有所值。科技公司如今主导着公开市场,其业绩和股价的任何变化会对股指、401(k)退休金以及更广泛的经济产生巨大影响。独立研究公司 MacroStrategy Partnership 估计,AI 泡沫的规模是互联网泡沫的 17 倍,是次贷泡沫的 4 倍。从未有过如此大规模的资金被如此迅速的投入到一项尽管潜力巨大,但其盈利商业模式尚未得到证实的技术上。
https://news.slashdot.org/story/25/10/04/0648215/what-would-happen-if-an-ai-bubble-burst
#人工智能
via Solidot - Telegram Channel
2025-10-06 22:18 by 空气的颜色
美国上半年经济增长率 1.6%,大部分增长来自对 AI 的投资。如果没有 AI 方面的投资,经济增长率将会只有这一数字的三分之一。AI 支出的巨大经济影响力表明,硅谷正以史无前例的规模押注 AI 技术将会彻底改变生活工作的各个方面。科技巨头如 Google、Meta、Microsoft 和 Amazon 今年预计在数据中心上的投资将会接近 4000 亿美元。如果这次押注失败,如此规模的经济影响力意味着,其经济损失将会远大于硅谷本身。科技圈和金融圈对 AI 投资的潜在泡沫的担忧日益加剧。ChatGPT 等 AI 工具深受企业和消费者的欢迎,过去三年 AI 领域已投入了数千亿美元。但 AI 公司至今都无法盈利,然而需要巨额利润才能让巨大的投资物有所值。科技公司如今主导着公开市场,其业绩和股价的任何变化会对股指、401(k)退休金以及更广泛的经济产生巨大影响。独立研究公司 MacroStrategy Partnership 估计,AI 泡沫的规模是互联网泡沫的 17 倍,是次贷泡沫的 4 倍。从未有过如此大规模的资金被如此迅速的投入到一项尽管潜力巨大,但其盈利商业模式尚未得到证实的技术上。
https://news.slashdot.org/story/25/10/04/0648215/what-would-happen-if-an-ai-bubble-burst
#人工智能
via Solidot - Telegram Channel
AI 生成大量劣质重复性研究
2025-09-24 21:20 by 蓝莓村
一项公布在预印本平台 medRxiv 的研究对文献数据库分析后发现,包括 ChatGPT 和 Gemini 在内的文本生成 AI 工具被用来改写科学论文并生成抄袭版本,充作新的研究成果。该研究指出,在过去 4.5 年间,有 400 多篇此类论文发表于 112 种期刊,而且 AI 生成的生物医学研究论文能够避开出版商的查重。研究警告称,一些个人和论文工厂可能正基于公开可用的健康数据集,利用大型语言模型(LLM)批量生产缺乏科学价值的劣质论文。这就像打开了潘多拉魔盒,有价值的文献会被大量合成论文淹没。研究人员将搜索重点放在重复研究上,即这些研究的变量与健康结果与已有研究相同,但分析的是略有不同的数据子集,比如不同调查年份的结果或者不同年龄、性别的参与者。
www.nature.com/articles/d41586-025-03046-z
中国科学报 AI生成大量劣质重复性研究,查重也能轻松通过
#人工智能
via Solidot - Telegram Channel
2025-09-24 21:20 by 蓝莓村
一项公布在预印本平台 medRxiv 的研究对文献数据库分析后发现,包括 ChatGPT 和 Gemini 在内的文本生成 AI 工具被用来改写科学论文并生成抄袭版本,充作新的研究成果。该研究指出,在过去 4.5 年间,有 400 多篇此类论文发表于 112 种期刊,而且 AI 生成的生物医学研究论文能够避开出版商的查重。研究警告称,一些个人和论文工厂可能正基于公开可用的健康数据集,利用大型语言模型(LLM)批量生产缺乏科学价值的劣质论文。这就像打开了潘多拉魔盒,有价值的文献会被大量合成论文淹没。研究人员将搜索重点放在重复研究上,即这些研究的变量与健康结果与已有研究相同,但分析的是略有不同的数据子集,比如不同调查年份的结果或者不同年龄、性别的参与者。
www.nature.com/articles/d41586-025-03046-z
中国科学报 AI生成大量劣质重复性研究,查重也能轻松通过
#人工智能
via Solidot - Telegram Channel
OpenAI 研究人员称 AI 幻觉在数学上是不可避免的
2025-09-21 22:41 by 彩虹尽头
OpenAI 研究人员在预印本平台 arxiv 上发表了一篇论文,指出由于大模型使用的统计学特性以及计算限制,即使有完美的数据,AI 仍然会产生貌似可信但实际上错误的输出。研究人员承认,AI 幻觉在数学上是不可避免的,无法通过更先进的工程技术解决。研究人员在论文中称,类似面对难题的学生,大模型会在不确定的情况下猜测,产生貌似可信但实际错误的表述,而不是承认不确定性。即使是最先进的 AI 系统,幻觉仍然存在,会破坏信任。研究人员证明,幻觉源于训练大模型使用的统计学特性,而非实现缺陷。研究人员测试了竞争对手 DeepSeek-V3 模型、Meta AI 和 Claude 3.7 Sonnet,以及 OpenAI 自己的 GPT 系列模型。研究人员称,ChatGPT 也会产生幻觉,GPT-5 有更少的幻觉,但幻觉仍然会发生,且更先进的推理模型比简单的系统更容易产生幻觉:o1 推理模型 16% 的时间会产生幻觉,而较新的 o3 和 o4-mini 分别有 33% 和 48% 的时间会产生幻觉。OpenAI 的研究识别了三个导致幻觉不可避免的数学因素:当训练数据集中信息过少时的认知不确定性,模型局限性和计算难解性。
www.computerworld.com/article/4059383/openai-admits-ai-hallucinations-are-mathematically-inevitable-not-just-engineering-flaws.html
arxiv.org/pdf/2509.04664
#人工智能
via Solidot - Telegram Channel
2025-09-21 22:41 by 彩虹尽头
OpenAI 研究人员在预印本平台 arxiv 上发表了一篇论文,指出由于大模型使用的统计学特性以及计算限制,即使有完美的数据,AI 仍然会产生貌似可信但实际上错误的输出。研究人员承认,AI 幻觉在数学上是不可避免的,无法通过更先进的工程技术解决。研究人员在论文中称,类似面对难题的学生,大模型会在不确定的情况下猜测,产生貌似可信但实际错误的表述,而不是承认不确定性。即使是最先进的 AI 系统,幻觉仍然存在,会破坏信任。研究人员证明,幻觉源于训练大模型使用的统计学特性,而非实现缺陷。研究人员测试了竞争对手 DeepSeek-V3 模型、Meta AI 和 Claude 3.7 Sonnet,以及 OpenAI 自己的 GPT 系列模型。研究人员称,ChatGPT 也会产生幻觉,GPT-5 有更少的幻觉,但幻觉仍然会发生,且更先进的推理模型比简单的系统更容易产生幻觉:o1 推理模型 16% 的时间会产生幻觉,而较新的 o3 和 o4-mini 分别有 33% 和 48% 的时间会产生幻觉。OpenAI 的研究识别了三个导致幻觉不可避免的数学因素:当训练数据集中信息过少时的认知不确定性,模型局限性和计算难解性。
www.computerworld.com/article/4059383/openai-admits-ai-hallucinations-are-mathematically-inevitable-not-just-engineering-flaws.html
arxiv.org/pdf/2509.04664
#人工智能
via Solidot - Telegram Channel
DeepSeek 发表 R1 模型论文,称训练成本仅 29.4 万美元
2025-09-18 22:54 by 星际归途
DeepSeek 的研究人员在《自然》期刊上发表了 R1 模型论文《DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning》。研究人员披露 R1 的训练成本仅 29.4 万美元,但其基础模型花了约 600 万美元;R1 主要使用英伟达的 H800 AI 芯片训练,该芯片自 2023 年起被禁止出口到中国。DeepSeek 的主要创新是使用名叫纯强化学习(pure reinforcement learning)的方法自动化试错,对模型得出正确答案进行奖励,而不是教它遵循人类选择的推理示例。模型还使用名叫 group relative policy optimization 的方法给自己打分。对于今年早些使用 OpenAI 指责 DeepSeek 使用其模型的输出进行训练,研究人员予以否认。DeepSeek-R1 是 Hugging Face 上最受欢迎的模型之一,下载量达到 1090 万次,2025 年使用强化学习的大模型几乎都受到了 R1 的启发。
www.nature.com/articles/s41586-025-09422-z
www.nature.com/articles/d41586-025-03015-6
#人工智能
via Solidot - Telegram Channel
2025-09-18 22:54 by 星际归途
DeepSeek 的研究人员在《自然》期刊上发表了 R1 模型论文《DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning》。研究人员披露 R1 的训练成本仅 29.4 万美元,但其基础模型花了约 600 万美元;R1 主要使用英伟达的 H800 AI 芯片训练,该芯片自 2023 年起被禁止出口到中国。DeepSeek 的主要创新是使用名叫纯强化学习(pure reinforcement learning)的方法自动化试错,对模型得出正确答案进行奖励,而不是教它遵循人类选择的推理示例。模型还使用名叫 group relative policy optimization 的方法给自己打分。对于今年早些使用 OpenAI 指责 DeepSeek 使用其模型的输出进行训练,研究人员予以否认。DeepSeek-R1 是 Hugging Face 上最受欢迎的模型之一,下载量达到 1090 万次,2025 年使用强化学习的大模型几乎都受到了 R1 的启发。
www.nature.com/articles/s41586-025-09422-z
www.nature.com/articles/d41586-025-03015-6
#人工智能
via Solidot - Telegram Channel
ChatGPT 将估计用户年龄,可能要求验证年龄
2025-09-17 23:35 by 外交豁免权
在发生多起与 ChatGPT 相关的青少年自杀案件之后,OpenAI 正引入更严格的安全措施。ChatGPT 将估计用户的年龄,如果认为用户未满 18 岁它可能会要求用户出示身份证件确认是否成年。本月初 OpenAI 已经为 ChatGPT 引入了家长控制功能。除了尝试估计或验证用户年龄,ChatGPT 还将接受训练,对青少年用户应用不同的规则,比如不会进行自杀或自残相关的讨论。如果未成年用户有自杀念头,OpenAI 将会尝试联系其父母或相关部门。
openai.com/index/teen-safety-freedom-and-privacy/
#人工智能
via Solidot - Telegram Channel
2025-09-17 23:35 by 外交豁免权
在发生多起与 ChatGPT 相关的青少年自杀案件之后,OpenAI 正引入更严格的安全措施。ChatGPT 将估计用户的年龄,如果认为用户未满 18 岁它可能会要求用户出示身份证件确认是否成年。本月初 OpenAI 已经为 ChatGPT 引入了家长控制功能。除了尝试估计或验证用户年龄,ChatGPT 还将接受训练,对青少年用户应用不同的规则,比如不会进行自杀或自残相关的讨论。如果未成年用户有自杀念头,OpenAI 将会尝试联系其父母或相关部门。
openai.com/index/teen-safety-freedom-and-privacy/
#人工智能
via Solidot - Telegram Channel
阿联酋发布能与 DeepSeek 竞争的开源模型
2025-09-14 22:37 by 龙岛
阿联酋 AI 实验室 Institute of Foundation Models (IFM) 发布了能与 OpenAI 的 ChatGPT 和 DeepSeek 竞争的开源模型 K2 Think。研究人员称,K2 Think 只有 320 亿个参数,但其表现超过了参数规模比它大 20 倍的推理模型。DeepSeek 的 R1 模型有 6710 亿个参数,但只激活 370 亿个参数;Meta 的 Llama 4 模型活跃参数从
170 亿到 2880 亿;OpenAI 没有披露其模型的参数规模。研究人员还表示,K2 Think 的数学表现超越了所有开源模型。该模型更专注于数学、编程和科学研究。IFM 此前表示它会向研究人员开放训练代码、数据集等与模型相关的材料。
mbzuai.ac.ae/news/mbzuai-and-g42-launch-k2-think-a-leading-open-source-system-for-advanced-ai-reasoning/
www.k2think.ai/k2think
huggingface.co/LLM360/K2-Think
#人工智能
via Solidot - Telegram Channel
2025-09-14 22:37 by 龙岛
阿联酋 AI 实验室 Institute of Foundation Models (IFM) 发布了能与 OpenAI 的 ChatGPT 和 DeepSeek 竞争的开源模型 K2 Think。研究人员称,K2 Think 只有 320 亿个参数,但其表现超过了参数规模比它大 20 倍的推理模型。DeepSeek 的 R1 模型有 6710 亿个参数,但只激活 370 亿个参数;Meta 的 Llama 4 模型活跃参数从
170 亿到 2880 亿;OpenAI 没有披露其模型的参数规模。研究人员还表示,K2 Think 的数学表现超越了所有开源模型。该模型更专注于数学、编程和科学研究。IFM 此前表示它会向研究人员开放训练代码、数据集等与模型相关的材料。
mbzuai.ac.ae/news/mbzuai-and-g42-launch-k2-think-a-leading-open-source-system-for-advanced-ai-reasoning/
www.k2think.ai/k2think
huggingface.co/LLM360/K2-Think
#人工智能
via Solidot - Telegram Channel