开源大模型新王干翻GPT4o,新技术可自我纠错,数学99刷爆测试集
2024-10-17 【 字体:大 中 小 】

开源大模型王座突然易主,居然来自一家小创业团队,瞬间引爆业界。
新模型名为Reflection 70B,使用一种全新训练技术,让AI学会在推理过程中纠正自己的错误和幻觉。
比如最近流行的数r测试中,一开始它犯了和大多数模型一样的错误,但主动在标签中纠正了自己。
在官方评测中,70B模型全面超越最强开源Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro,特别是数学基准GSM8K上直接刷爆,得分99.2%。
这个结果也让OpenAI科学家、德扑AI之父Noam Brown激情开麦:
GSM8K得分99%!是不是可以正式淘汰这个基准了?
模型刚刚上线网友就把试玩挤爆了,对此Meta还主动支援了更多算力。
在网友测试中,Reflection 70B能回答对GSM8K数据集中本身答案错误的问题:
我向模型提供了GSM8K中存在的5个“ground_truth”本身就不正确的问题。
模型没有重复数据集中的错误答案,而是全部回答对了,这很令人印象深刻,表明那99.2%的准确率并非来自于记忆测试集!
数各种r都不在话下,连生造词“drirrrngrrrrrnnn”中有几个r也能被正确数对。
网友纷纷对小团队做出的开源超越顶流闭源感到惊讶,现在最强开源模型可以在本地运行了。
关键70B还只是个开始,官方表示下周还会发布更大的Reflection 405B。
预计405B性能将大幅优于Sonnet和GPT-4o。
Reflection 70B权重已公开,API访问将于今天晚些时候由Hyperbolic Labs提供。
模型能自我反思纠正错误
目前关于Reflection 70B的更多细节如下。
Reflection 70B能力提升的关键,是采用了一种名为Reflection-Tuning的训练方法,它能够让模型反思自己生成的文本,在最终确定回应前检测并纠正自身推理中的错误。
训练中的数据来自使用GlaiveAI平台生成的合成数据。
Reflection 70B基于Llama 3.1 70B Instruct,可以使用与其它Llama模型相同的代码、pipeline等从Reflection Llama-3.1 70B进行采样。
它甚至使用了标准的Llama 3.1聊天格式。
不过,Reflection 70B引入了一些特殊tokens,结构化输出过程。
如下面这个例子所展示的,规划过程分为一个独立的步骤,这样做可以提高CoT效果,并保持输出精炼:
模型将从在和标签内输出推理开始,一旦对其推理感到满意,就会在和标签内输出最终答案。
所以它能够将其内部思考和推理与最终答案分离。
在部分,模型可能会输出一个或多个标签,这表明模型发现了其推理中的错误,并将在提供最终答案之前尝试纠正该错误。
系统提示如下:
You are a world-class AI system, capable of complex reasoning and reflection. Reason through the query inside tags, and then provide your final response inside
tags. If you detect that you made a mistake in your reasoning at any point, correct yourself inside tags.
(你是一个世界级人工智能系统,能够进行复杂的推理和反思。在标签内对查询进行推理,然后在
标签内提供你的最终回应。如果你发现自己在任何时候推理出错,请在标签内纠正自己。)
此外值得一提的是,基准测试中,所有基准都已通过LMSys的LLM Decontaminator检查污染,隔离了部分,并单独对这一部分进行测试。
使用Reflection 70B的时候,官方还分享了小tips:
初步建议参数temperature为.7 , top_p为.95
为提高准确性,最好附加“Think carefully.”在Prompt末尾
官方还表示,下周会发布一份报告,详细介绍模型训练过程和发现。
Agent创业团队打造
Reflection 70B的背后是一支小团队,由HyperWriteAI的CEO Mutt Shumer带领。
领英显示,Mutt Shumer是一位连续创业者,毕业于美国锡拉丘兹大学,现任OthersideAI的联合创始人兼CEO。
OthersideAI是一家AI应用公司,致力于通过大规模AI系统开发全球最先进的自动补全工具,也是HyperWrite的幕后公司。
HyperWrite是一个浏览器操作agent,可以像人一样操作谷歌浏览器来完成一系列任务,比如订披萨:
和gpt-llm-trainer一样,你只需要用文字描述目标,它就会一边列步骤,一边执行。
刚推出时号称“比AutoGPT强”。
HyperWrite还可以在谷歌扩展程序中安装。
另外,Mutt Shumer高中时期就创立了Visos,致力于开发用于医疗用途的下一代虚拟现实软件。
还创立了FURI,这是一家旨在通过创造高性能产品并以公平的价格销售它们来颠覆体育用品行业的公司。
虽然有Meta支持,但目前打开试玩,还是:暂时无法访问。

猜你喜欢

至尊竞价 系统 一进二 排序选股源码


地平线高阶智驾方案SuperDrive挑战雨天晚高峰,全程无接管堪称“老司机”


杠杆买股:放大收益,谨慎操作


历史上最可惜的三个人,只差一步统一天下,却偏偏没走好最后一步


全国首单商标海外布局费用损失保险在黄埔落地


博众精工新注册《博众自动镭射设备系统软件V10》等2个项目的软件著作权


佟丽娅携新片来广州路演啦!这画面实在太美


印度尼西亚股票基准指数上涨11%至6,60098点


截至1月25日,全球最大黄金ETF——SPDR Gold Trust的黄金持仓量为85893吨,与前一交易日持平


游戏搬砖不知道怎么选?2024年长期稳定打金搬砖游戏推荐


多只个股创历史新高!除煤炭、银行外,这一高股息板块仍不可忽视

机遇香港 专属政策增强吸引力!港深创科园已有59个全球科研合作伙伴

剑指3万亿!这个超大城市,凭什么?

金价狂飙 黄金期货主力合约创11个月新高 投资机会在哪里?多位基金经理亮观点

驻日本使馆发言人就日本福岛核电站发生核污染水泄露事故答记者问

新股百望股份盘中转涨逾9%收复招股价 早盘一度重挫19%

5岁小天赐被送寄宿,74岁黄老承认体力跟不上,大儿女的心也太狠_孩子_女儿_田女士

工信部:新能源汽车发展仍处于爬坡过坎的关键期

爆浆芝士鸡排:自家做的用料实在,一口下去超满足,好吃更实惠

腾讯净利增长36%, 计划回购规模翻倍的腾讯该咋看

邦达亚洲:特朗普宣布征收“对等关税” 黄金小幅收涨


2025年5月5日山东青岛黄河路农产品批发市场价格行情


公告速递:兴华安启纯债基金暂停大额申购、转换转入、定期定额投资业务


金价再创新高 两大考验来了


雷军年度演讲刷屏!秀电车漂移、回应董明珠“打假” 还透露“是李斌和何小鹏劝我造车”


被调入沪股通标的名单 新潮能源股价大涨4%


12月3日各投行美元、欧元、英镑、日元最新交易策略汇总


上海市委常委会传达学习中央周边工作会议精神,研究食品安全工作等事项


复印报刊资料转载指数研究报告(2024年度)_期刊_学术_教学科研


赛力斯超级增程奠定科技豪华 问界M9 72小时大定超21000台
