Mimamax发布了一种推理模型,以实现DeepSeek,计算
作者:BET356官网在线登录 发布时间:2025-06-20 10:18
6月17日,Minimax是长期的六龙之一,做出了巨大的举动,并宣布将在连续五天内发布重要的更新。当今的第一个炸弹是推理模型Minimax-M1的第一个开放式的模型。根据官方报告,许多Minimax-M1基准测试可与开放资源模型(如DeepSeek-R1和Qwen3)相提并论,并且接近国外最优秀的模型。该官方博客还指出,最小值-M1培训过程的两种主要技术很棒,并且“超出了预期”。使用512 H800 GPU完成加固研究阶段仅需3周,计算强度的成本为534,700美元。这是最初比预期的数量级。许多开发人员已尽快开始进行。 Ilaspoft @Karminski的前技术总监在社交平台上发布了他的Minimax-M1评论,并承认这是“开放式Moe消息来源的第一个梯队”。 @Karminski专注于测试g最小值-M1-80K代码编写能力。随着“删除烟囱”编程案例,他发现Minimax-M1-80k下一次快速单词。他指出,DeepSeek-R1-0528甚至Gemini-7.5-Pro都无法一次通过它,这可能是由于能够“训练之前”和“在思考时成功溢出几次”。缺点是从前端生成的页面中,样式不是很好,因此,具有高度创意的生成的内容可以解决变化不足的问题,但是编程说明更容易遵循和准确。此外,光和阴影的效果不是很好,也是训练不足的一部分。一些网民还指出,该测试发现MIMAX-M1模型严格是中文写作,并且幻觉较低,并遵循了第一批文字和说明。这在关注差异的国内模型中很少见。 T的最大亮点他的新型Minimax-M1模型是上下文窗口的100万个长度,是DeepSeek R1的8倍,例如Google Gemini 2.5 Pro中的封闭资源模型。希望在此基础上,M1系列在长期上下文工作(MRCR)中表现更好。根据测试指标的酌情决定权,它超过了所有重量模型的所有开源源,甚至超过了领先的外国模型Openai O3和Claude 4 Opus,排名世界第二,Gemini 2.5 Pro的空间几乎没有。 “文本的无穷长能力是Minimax团队正在抛光的重要规模。这是社交应用,情感整合,代理等的非常关键的技术。” Yunqi是Minimax的Angel Round Investment Institution。 tau基础是评估现实环境中AI代理的可靠性的基准。在此规模上,Minimax-M1的性能更好,超过K-R1-0528设备,Google的Gemini-1.5 Pro仅次于Openai O3和Claude 4 Opus Worldwide。在代码能力(SWE-Branch)方面,Minimax-M1明显高于大多数开放资源模型,在DeepSeek的最新R1中只有很小的空间。 Minimax说,最小值-M1文本的长度能力是由于每个G的混合架构受闪电机制控制的,使M1在执行上下文输入和对长文本的深入识别时具有计算效率的繁荣。 Minimax提供了一个例子,即在深层推理中使用80,000个令牌时,只有DeepSeek R1才能用于约30%的计算强度。此外,Minimax提出的另一个变化是Cispo算法的增强研究。官方博客说,在数学AIME的实验中,它的速度是刺激算法性能的两倍,比Bytes建议的DAPO的性能要比DeepSeek在早期使用的GRPO好。这也是为什么计算强度的最终成本低于540美元的原因,000。由于具有漂亮的训练和计算强度,最小值的定价相对有效。这位官员直接批评了DeepSeek,有效性的国王,并说:“这两种模式都比DeepSeek-R1更有效,而另一种DepSek模型模式不支持它。” Minimax-M1 pricing adopted a step-by-step style, which increases with increasing input length: 0-32k Input: Input 0.8 yuan/million tokens, output 8 yuan/million token32k-128k Input: Input 1.2 yuan/million token, output 16 yuan/million token128k-1m Input: Input 2.4 Output 24 Yuan/million tokens almost at the同时,Minimax是六个小龙中的另一个,月球的黑暗部分今天也打开了。编程模型今天也开放。 Kimi-Dev-72b。根据官方信息,该模型基于阿里巴巴云的QWEN2.5-72B微调。根据该报告,该模型已在SWE基础编程中达到了开放资源模型的Mostheight级别NCHMark测试,超过了新的DeepSeek-R1。但是,@karminski测试发现“烟囱演示生成的相同代码,kimi-dev-72b形成。使用Claude-4-Sonnet更改了三个错误。”此外,这种情况通常需要600-800行的代码来完成,Kimi-DEV-72B仅生成了220行,并且未实施许多详细信息。它提出了有关其高分是否来自“过度拟合”的问题,这是一个常见的机械研究问题,它指的是在训练集中表现良好但对新数据的不可预测能力的显着否认,但对新数据的表现很大。目前,月球的黑暗部分尚未发布详细的技术技术。 Dee Arousedpseek在今年年初发生后,六个AI龙中的一些人经历了高管的风暴,而另一些人则在半年训练中安静而忙碌。看来这些制造商已经为继续加入大型战斗做准备了新的准备工作它的模型。 Minimax预告片,接下来的四天将提供许多更新。以前,“海螺02(0616)”视频模型出现在AI视频领域,并获得了第二名。该行业预计,新版本的海螺将很快正式发布。如果该海螺可以继续以成本或能力的成本或能力崩溃,则可以进一步唤起多模式AI模式。
电话
020-66888888