IT之家新闻,2 月 5 日:对于科学家来说,跟上研究的最新进展非常重要,但由于每年发表数百万篇学术文章,这并不容易做到。人工智能系统显示出快速整合大量信息的巨大潜力,但仍然面临一个常见问题:内容伪造或“幻觉”。例如,由华盛顿大学和艾伦人工智能研究所(AI2)领导的研究团队分析了OpenAI的最新模型GPT-4o,发现该模型78%至90%的研究引用都是假的。流行的人工智能模型,例如 ChatGPT,在完成训练数据收集后通常无法阅读已发表的学术文章。为此,来自华盛顿大学和艾伦人工智能研究所的团队开发了 OpenScholar,这是一个开源人工智能模型,旨在整合前沿学术成果c 研究。该团队还创建了第一个大规模跨学科评估基准,以评估模型整合和引用学术研究的能力。测试结果表明,OpenScholar 的引用准确性与人类专家相当。在 16 名科学家的盲审中,51% 更喜欢 OpenScholar 生成的内容,而不是该领域专家撰写的答案。 IT House 指出,该团队在《自然》杂志上发表了研究结果,并且该项目的代码、数据集和演示版本都是开源的,可以免费获取。 “在我们推出演示版本后,我们立即收到了大量的访问请求,比我们预期的要多得多,”该研究的通讯作者 Hannane Hadjishiriji 说。她是华盛顿大学保罗·G·艾伦计算机科学与工程学院的副教授,也是艾伦人工智能研究所的高级主任。 “在审查了用户反馈后,我们发现我们的同事和其他科学研究人员正在积极使用 OpenScholar。我在这儿。”研究人员首先训练了模型,然后为 OpenScholar 构建了一个包含 4500 万篇学术文章的可搜索库,确保模型的响应基于成熟的科学研究结果。同时,该团队使用搜索丰富生成技术,使模型即使在训练完成后也可以检索新文档、整合内容并标准化引用。 “我们研发之初,尝试结合搜索数据和谷歌的数据来训练AI模型,但我们发现单独使用此类数据时,模型效果不佳;艾伦人工智能研究所研究员、该研究的主要作者(在华盛顿大学艾伦学院就读期间完成了这项研究)浅井朱里 (Juri Asai) 说:“它们的相关性很小。”一篇文章只能被引用一次,或者博客内容可以被引用随机罗索。我们注意到该模型必须依赖于学术文章才能发挥作用,因此我们优化了系统的灵活性,以通过搜索结果整合最新的研究成果。 “为了验证系统的性能,团队使用了评估基准。的学术研究,构建了ScholarQABench。它特别用于评估科学研究的人工智能系统。该团队收集了 3000 个查询、搜索查询和 250 个由计算机科学、物理学、生物医学科学和神经科学专家撰写的长答案。 “虽然人工智能处理现实世界任务的能力不断提高,但核心问题始终是:我们能相信它给我们的答案吗?”哈吉斯里奇说道。 GPT-4o和Meta,并使用ScholarQABench从准确性、写作质量、内容相关性等方面自动评估模型响应。结果表明 OpenScholar 优于所有测试模型。团队邀请16位科学家盲目合作将每个模型与人类专家的反应进行比较。当AR引用机制与GPT-4o工作流程和大规模模型相结合时,科学家对AI回复的偏好率提高到70%。当仅使用 GPT-4o 本地生成内容时,scientistficos 的偏好率仅为 32%。 Juri Asai表示:“科学家每天都会面对大量的新文章,不可能全部跟上。然而,现有的AI系统并不是专门针对科研人员的需求而设计的。目前许多科研人员都在使用OpenSchol。得益于其开源特性,我们的业界同行在此工作的基础上迭代优化,进一步提高模型的有效性。我们在OpenScholar的技术成果基础上,创建了一个可以实现多步DR的迭代模型。我们正在开发图鲁。”搜索和聚合信息会产生更完整的研究结果。 ”
特别提示:以上内容(包括图片和视频,如有)由自有媒体平台“网易帐号”用户上传并发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。