久久九九热免费视频,天堂√中文最新版在线,亚洲欧美校园春色,国产中文在线播放

奇想AI AI模型評測

Open LLM Leaderboard

Hugging Face推出的開源大模型排行榜單

標簽:

Open LLM Leaderboard 是最大的大模型和數據集社區 HuggingFace 推出的開源大模型排行榜單,基于 Eleuther AI Language Model Evaluation Harness(Eleuther AI語言模型評估框架)封裝。

由于社區在發布了大量的大型語言模型(LLM)和聊天機器人之后,往往伴隨著對其性能的夸大宣傳,很難過濾出開源社區取得的真正進展以及目前的最先進模型。因此,Hugging Face 使用 Eleuther AI語言模型評估框架對模型進行四個關鍵基準測試評估。這是一個統一的框架,用于在大量不同的評估任務上測試生成式語言模型,大家快來奇想AI導航網!

Open LLM Leaderboard 的評估基準

  • AI2 推理挑戰(25-shot):一組小學科學問題
  • HellaSwag(10-shot):一個測試常識推理的任務,對人類來說很容易(大約95%),但對SOTA模型來說具有挑戰性。
  • MMLU(5-shot)- 用于測量文本模型的多任務準確性。測試涵蓋57個任務,包括基本數學、美國歷史、計算機科學、法律等等。
  • TruthfulQA(0-shot)- 用于測量模型復制在在線常見虛假信息中的傾向性。
??版權聲明:若無特殊聲明,本站所有文章版權均歸奇想AI導航網原創和所有,未經許可,任何個人、媒體、網站、團體不得轉載、抄襲或以其他方式復制發表本站內容,或在非我站所屬的服務器上建立鏡像。否則,我站將依法保留追究相關法律責任的權利。

類似于Open LLM Leaderboard的工具

主站蜘蛛池模板: 宣武区| 内江市| 阿合奇县| 杨浦区| 岗巴县| 绥棱县| 集贤县| 孝感市| 铜陵市| 清徐县| 凭祥市| 海伦市| 英德市| 旬阳县| 本溪市| 余干县| 桃园市| 衢州市| 新乡县| 泸定县| 西畴县| 晋州市| 古交市| 克拉玛依市| 丹江口市| 芒康县| 彭州市| 桂东县| 西和县| 中卫市| 陆良县| 六枝特区| 凤翔县| 工布江达县| 吴堡县| 福建省| 财经| 大关县| 辽中县| 洪雅县| 竹山县|