网站地图官方微信:
网站首页 北港镇 乐化镇 古佛镇 吉雄镇 安多县 鱼龙镇

当前位置: 首页 >

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。

你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。

我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。

这是第五题的原题,正确答案是A. - 1/2。

这是之前的第三方的测试结果,6个模型…。

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

  • | 中国的高铁数量过剩吗? |

    肯定过剩,但不是单纯多少问题,而是两个维度过剩: 1 部分线...

    查看详情>>
  • | 汪峰的每任妻子都很漂亮,他有哪些男性魅力? |

  • | 谷歌云服务宕机导致 OpenAI、Shopify 等服务中断,此次宕机的具体技术原因是什么? |

  • | 如何评价腾讯元宝桌面端使用 Rust 的 Tauri 框架? |

  • | 跟离异的女同事聊天时,她冒出一句:「你老婆还不如我,离了跟我过得了」,我该怎么回答? |

  • | 大街上看到大白腿,忍不住瞄了两眼,算不算不尊重女性? |

  • | 《我的团长我的团》中有哪些细思极恐的细节? |

  • | 新疆维吾尔自治区,经济发展的真实前景如何? |

  • | Node.js是谁发明的? |

  • | 颈椎病可以恢复吗? |

  • | 如何评价前端框架 Solid? |

  • M芯的mac出来后,被果粉日常称为大火炉的Intel芯片的m...

    2025-06-20
  • 6月21日,4.1万人的奥体中心,聚光灯下——那个被嘲“丨州...

    2025-06-20
  • 没看过chrome的不做比较, 只是觉得firefox的代码...

    2025-06-20
  • 10人网络运维小团队,用django自带视图和form+my...

    2025-06-20

关注我们

添加微信好友,关注最新动态