Hugging Face-მა წარმოადგინა Open R1 — DeepSeek-R1-ის სრულად ღია რეპროდუქციის პროექტი. ეს ინიციატივა მიზნად ისახავს, რომ ნებისმიერ მსურველს ჰქონდეს წვდომა R1-ის მუშაობის პრინციპებზე და შეძლოს საკუთარი AI მოდელების აგება ან გაუმჯობესება.

პროექტის მიზანი და სტრუქტურა

Open R1 არ არის მხოლოდ მოდელი, არამედ სრული ტექნოლოგიური კონვეიერი. ის მოიცავს სკრიპტებს მოდელების წვრთნისა და სინთეზური მონაცემების გენერირებისთვის, მათ შორის GRPO (Group Relative Policy Optimization) და SFT (Supervised Fine-Tuning) მეთოდებს.

ModelAIME 2024MATH-500GPQA DiamondLiveCodeBench v5
OpenR1-Distill-7B52.789.052.839.4
DeepSeek-R1-Distill-Qwen-7B51.393.552.437.4

პროექტის განვითარება სამ ძირითად ეტაპად იყოფა: DeepSeek-R1-ის მონაცემთა ნაკრების დისტილაცია, R1-Zero-ს მსგავსი გაძლიერებული სწავლების (RL) მილსადენის რეპროდუქცია და მრავალეტაპიანი წვრთნის პროცესის სრულყოფა.

მიღწეული შედეგები

პროექტის ფარგლებში უკვე გამოქვეყნდა Mixture-of-Thoughts, 350-ათასიანი დასაბუთებული მონაცემთა ბაზა, რომელიც მოდელებს ეტაპობრივად აზროვნებას ასწავლის. ასევე, შემუშავებულია CodeForces-CoTs და IOI24 ბენჩმარკები, რომლებიც აუმჯობესებს მოდელების პროგრამირების უნარებს.

სისტემა ითხოვს CUDA 12.4-ის მხარდაჭერას და PyTorch v2.6.0-ის გამოყენებას. დეველოპერებს შეუძლიათ გამოიყენონ Hugging Face-ის კლასტერები ან საკუთარი სერვერები 8x H100 GPU-ს კონფიგურაციით.

წვრთნა და კოდის ინტერპრეტაცია

Open R1 მხარს უჭერს კოდის შესრულების ჯილდოს ფუნქციას (code reward function), რომელიც საშუალებას აძლევს მოდელს, შეამოწმოს საკუთარი კოდის სისწორე რეალურ გარემოში. ამისთვის გამოიყენება E2B ან Morph პლატფორმები, რაც უზრუნველყოფს უსაფრთხო და იზოლირებულ სავარჯიშო სივრცეს.

BenchmarkNumber of responses per query
AIME 202464
MATH-5004
GPQA Diamond8
LiveCodeBench16
ModelAIME 2024 (🤗 LightEval)AIME 2024 (DeepSeek Reported)
DeepSeek-R1-Distill-Qwen-1.5B30.728.9
DeepSeek-R1-Distill-Qwen-7B50.855.5
DeepSeek-R1-Distill-Qwen-14B65.969.7
DeepSeek-R1-Distill-Qwen-32B69.772.6
DeepSeek-R1-Distill-Llama-8B43.941.7
DeepSeek-R1-Distill-Llama-70B63.070.0

მოდელების შეფასება ხდება LightEval-ის მეშვეობით, რაც უზრუნველყოფს შედეგების სიზუსტეს და DeepSeek-ის მიერ მოწოდებულ მონაცემებთან თავსებადობას. AIME 2024-ის ბენჩმარკზე Open R1-მა აჩვენა შედეგები, რომლებიც პრაქტიკულად ემთხვევა ორიგინალურ DeepSeek-ის მაჩვენებლებს.

ModelMATH-500 (🤗 LightEval)MATH-500 (DeepSeek Reported)
DeepSeek-R1-Distill-Qwen-1.5B83.183.9
DeepSeek-R1-Distill-Qwen-7B94.592.8
DeepSeek-R1-Distill-Qwen-14B94.193.9
DeepSeek-R1-Distill-Qwen-32B95.694.3
DeepSeek-R1-Distill-Llama-8B88.689.1
DeepSeek-R1-Distill-Llama-70B95.194.5
ModelGPQA Diamond (🤗 LightEval)GPQA Diamond (DeepSeek Reported)
DeepSeek-R1-Distill-Qwen-1.5B35.833.8
DeepSeek-R1-Distill-Qwen-7B50.549.1
DeepSeek-R1-Distill-Qwen-14B61.559.1
DeepSeek-R1-Distill-Qwen-32B63.162.1
DeepSeek-R1-Distill-Llama-8B46.749.0
DeepSeek-R1-Distill-Llama-70B67.465.2

პროექტი კვლავ აქტიურ ფაზაშია და ავტორები მოუწოდებენ საზოგადოებას, ჩაერთონ კოდის დახვეწასა და მონაცემთა ბაზების შევსებაში.

ModelLiveCodeBench (🤗 LightEval)LiveCodeBench (DeepSeek Reported)
DeepSeek-R1-Distill-Qwen-1.5B16.116.9
DeepSeek-R1-Distill-Qwen-7B37.437.6
DeepSeek-R1-Distill-Qwen-14B51.353.1
DeepSeek-R1-Distill-Qwen-32B56.057.2
DeepSeek-R1-Distill-Llama-8B37.439.6
DeepSeek-R1-Distill-Llama-70B55.957.5