人工智能模型诞生，可显着减少幻觉和妄想，其精确度与人类专家相同

IT之家新闻，2 月 5 日：对于科学家来说，跟上研究的最新进展非常重要，但由于每年发表数百万篇学术文章，这并不容易做到。人工智能系统显示出快速整合大量信息的巨大潜力，但仍然面临一个常见问题：内容伪造或“幻觉”。例如，由华盛顿大学和艾伦人工智能研究所（AI2）领导的研究团队分析了OpenAI的最新模型GPT-4o，发现该模型78%至90%的研究引用都是假的。流行的人工智能模型，例如 ChatGPT，在完成训练数据收集后通常无法阅读已发表的学术文章。为此，来自华盛顿大学和艾伦人工智能研究所的团队开发了 OpenScholar，这是一个开源人工智能模型，旨在整合前沿学术成果c 研究。该团队还创建了第一个大规模跨学科评估基准，以评估模型整合和引用学术研究的能力。测试结果表明，OpenScholar 的引用准确性与人类专家相当。在 16 名科学家的盲审中，51% 更喜欢 OpenScholar 生成的内容，而不是该领域专家撰写的答案。 IT House 指出，该团队在《自然》杂志上发表了研究结果，并且该项目的代码、数据集和演示版本都是开源的，可以免费获取。 “在我们推出演示版本后，我们立即收到了大量的访问请求，比我们预期的要多得多，”该研究的通讯作者 Hannane Hadjishiriji 说。她是华盛顿大学保罗·G·艾伦计算机科学与工程学院的副教授，也是艾伦人工智能研究所的高级主任。 “在审查了用户反馈后，我们发现我们的同事和其他科学研究人员正在积极使用 OpenScholar。我在这儿。”研究人员首先训练了模型，然后为 OpenScholar 构建了一个包含 4500 万篇学术文章的可搜索库，确保模型的响应基于成熟的科学研究结果。同时，该团队使用搜索丰富生成技术，使模型即使在训练完成后也可以检索新文档、整合内容并标准化引用。 “我们研发之初，尝试结合搜索数据和谷歌的数据来训练AI模型，但我们发现单独使用此类数据时，模型效果不佳；艾伦人工智能研究所研究员、该研究的主要作者（在华盛顿大学艾伦学院就读期间完成了这项研究）浅井朱里 (Juri Asai) 说：“它们的相关性很小。”一篇文章只能被引用一次，或者博客内容可以被引用随机罗索。我们注意到该模型必须依赖于学术文章才能发挥作用，因此我们优化了系统的灵活性，以通过搜索结果整合最新的研究成果。 “为了验证系统的性能，团队使用了评估基准。的学术研究，构建了ScholarQABench。它特别用于评估科学研究的人工智能系统。该团队收集了 3000 个查询、搜索查询和 250 个由计算机科学、物理学、生物医学科学和神经科学专家撰写的长答案。 “虽然人工智能处理现实世界任务的能力不断提高，但核心问题始终是：我们能相信它给我们的答案吗？”哈吉斯里奇说道。 GPT-4o和Meta，并使用ScholarQABench从准确性、写作质量、内容相关性等方面自动评估模型响应。结果表明 OpenScholar 优于所有测试模型。团队邀请16位科学家盲目合作将每个模型与人类专家的反应进行比较。当AR引用机制与GPT-4o工作流程和大规模模型相结合时，科学家对AI回复的偏好率提高到70%。当仅使用 GPT-4o 本地生成内容时，scientistficos 的偏好率仅为 32%。 Juri Asai表示：“科学家每天都会面对大量的新文章，不可能全部跟上。然而，现有的AI系统并不是专门针对科研人员的需求而设计的。目前许多科研人员都在使用OpenSchol。得益于其开源特性，我们的业界同行在此工作的基础上迭代优化，进一步提高模型的有效性。我们在OpenScholar的技术成果基础上，创建了一个可以实现多步DR的迭代模型。我们正在开发图鲁。”搜索和聚合信息会产生更完整的研究结果。 ”
特别提示：以上内容（包括图片和视频，如有）由自有媒体平台“网易帐号”用户上传并发布。本平台仅提供信息存储服务。
注：以上内容（包括图片和视频，如有）由网易号用户上传发布，网易号是一个仅提供信息存储服务的社交媒体平台。

人工智能模型诞生，可显着减少幻觉和妄想，其精确度与人类专家相同

admin

发表回复取消回复

admin

发表回复 取消回复

相关文章

发表回复取消回复