Hugging Face-მა წარმოადგინა Open R1 — DeepSeek-R1-ის სრულად ღია რეპროდუქციის პროექტი. ეს ინიციატივა მიზნად ისახავს, რომ ნებისმიერ მსურველს ჰქონდეს წვდომა R1-ის მუშაობის პრინციპებზე და შეძლოს საკუთარი AI მოდელების აგება ან გაუმჯობესება.
პროექტის მიზანი და სტრუქტურა
Open R1 არ არის მხოლოდ მოდელი, არამედ სრული ტექნოლოგიური კონვეიერი. ის მოიცავს სკრიპტებს მოდელების წვრთნისა და სინთეზური მონაცემების გენერირებისთვის, მათ შორის GRPO (Group Relative Policy Optimization) და SFT (Supervised Fine-Tuning) მეთოდებს.
| Model | AIME 2024 | MATH-500 | GPQA Diamond | LiveCodeBench v5 |
|---|---|---|---|---|
| OpenR1-Distill-7B | 52.7 | 89.0 | 52.8 | 39.4 |
| DeepSeek-R1-Distill-Qwen-7B | 51.3 | 93.5 | 52.4 | 37.4 |
პროექტის განვითარება სამ ძირითად ეტაპად იყოფა: DeepSeek-R1-ის მონაცემთა ნაკრების დისტილაცია, R1-Zero-ს მსგავსი გაძლიერებული სწავლების (RL) მილსადენის რეპროდუქცია და მრავალეტაპიანი წვრთნის პროცესის სრულყოფა.
მიღწეული შედეგები
პროექტის ფარგლებში უკვე გამოქვეყნდა Mixture-of-Thoughts, 350-ათასიანი დასაბუთებული მონაცემთა ბაზა, რომელიც მოდელებს ეტაპობრივად აზროვნებას ასწავლის. ასევე, შემუშავებულია CodeForces-CoTs და IOI24 ბენჩმარკები, რომლებიც აუმჯობესებს მოდელების პროგრამირების უნარებს.
სისტემა ითხოვს CUDA 12.4-ის მხარდაჭერას და PyTorch v2.6.0-ის გამოყენებას. დეველოპერებს შეუძლიათ გამოიყენონ Hugging Face-ის კლასტერები ან საკუთარი სერვერები 8x H100 GPU-ს კონფიგურაციით.
წვრთნა და კოდის ინტერპრეტაცია
Open R1 მხარს უჭერს კოდის შესრულების ჯილდოს ფუნქციას (code reward function), რომელიც საშუალებას აძლევს მოდელს, შეამოწმოს საკუთარი კოდის სისწორე რეალურ გარემოში. ამისთვის გამოიყენება E2B ან Morph პლატფორმები, რაც უზრუნველყოფს უსაფრთხო და იზოლირებულ სავარჯიშო სივრცეს.
| Benchmark | Number of responses per query |
|---|---|
| AIME 2024 | 64 |
| MATH-500 | 4 |
| GPQA Diamond | 8 |
| LiveCodeBench | 16 |
| Model | AIME 2024 (🤗 LightEval) | AIME 2024 (DeepSeek Reported) |
|---|---|---|
| DeepSeek-R1-Distill-Qwen-1.5B | 30.7 | 28.9 |
| DeepSeek-R1-Distill-Qwen-7B | 50.8 | 55.5 |
| DeepSeek-R1-Distill-Qwen-14B | 65.9 | 69.7 |
| DeepSeek-R1-Distill-Qwen-32B | 69.7 | 72.6 |
| DeepSeek-R1-Distill-Llama-8B | 43.9 | 41.7 |
| DeepSeek-R1-Distill-Llama-70B | 63.0 | 70.0 |
მოდელების შეფასება ხდება LightEval-ის მეშვეობით, რაც უზრუნველყოფს შედეგების სიზუსტეს და DeepSeek-ის მიერ მოწოდებულ მონაცემებთან თავსებადობას. AIME 2024-ის ბენჩმარკზე Open R1-მა აჩვენა შედეგები, რომლებიც პრაქტიკულად ემთხვევა ორიგინალურ DeepSeek-ის მაჩვენებლებს.
| Model | MATH-500 (🤗 LightEval) | MATH-500 (DeepSeek Reported) |
|---|---|---|
| DeepSeek-R1-Distill-Qwen-1.5B | 83.1 | 83.9 |
| DeepSeek-R1-Distill-Qwen-7B | 94.5 | 92.8 |
| DeepSeek-R1-Distill-Qwen-14B | 94.1 | 93.9 |
| DeepSeek-R1-Distill-Qwen-32B | 95.6 | 94.3 |
| DeepSeek-R1-Distill-Llama-8B | 88.6 | 89.1 |
| DeepSeek-R1-Distill-Llama-70B | 95.1 | 94.5 |
| Model | GPQA Diamond (🤗 LightEval) | GPQA Diamond (DeepSeek Reported) |
|---|---|---|
| DeepSeek-R1-Distill-Qwen-1.5B | 35.8 | 33.8 |
| DeepSeek-R1-Distill-Qwen-7B | 50.5 | 49.1 |
| DeepSeek-R1-Distill-Qwen-14B | 61.5 | 59.1 |
| DeepSeek-R1-Distill-Qwen-32B | 63.1 | 62.1 |
| DeepSeek-R1-Distill-Llama-8B | 46.7 | 49.0 |
| DeepSeek-R1-Distill-Llama-70B | 67.4 | 65.2 |
პროექტი კვლავ აქტიურ ფაზაშია და ავტორები მოუწოდებენ საზოგადოებას, ჩაერთონ კოდის დახვეწასა და მონაცემთა ბაზების შევსებაში.
| Model | LiveCodeBench (🤗 LightEval) | LiveCodeBench (DeepSeek Reported) |
|---|---|---|
| DeepSeek-R1-Distill-Qwen-1.5B | 16.1 | 16.9 |
| DeepSeek-R1-Distill-Qwen-7B | 37.4 | 37.6 |
| DeepSeek-R1-Distill-Qwen-14B | 51.3 | 53.1 |
| DeepSeek-R1-Distill-Qwen-32B | 56.0 | 57.2 |
| DeepSeek-R1-Distill-Llama-8B | 37.4 | 39.6 |
| DeepSeek-R1-Distill-Llama-70B | 55.9 | 57.5 |




დისკუსია
0 კომენტარი
ჯერ კომენტარი არ არის — იყავი პირველი.