DeepSeek
DeepSeek (בסינית: 深度求索, תעתיק: שֶׁנְדוּ צְ'יוֹסְווֹ) היא חברת בינה מלאכותית סינית אשר נוסדה ב16 במאי 2023 ומפתחת מודלי שפה גדולים בקוד פתוח. החברה ממומנת ברובה על ידי קרן הגידור הסינית High-Flyer שבסיסה בהאנגג'ואו, ג'ג'יאנג. שניהם נוסדו ומנוהלים על ידי ליאנג ונפנג (אנ').
היסטוריה
High-Flyer נוסדה בפברואר 2016 על ידי ליאנג ונפנג בזמן שלמד באוניברסיטת ג'ג'יאנג[2], עד 2019 החברה הייתה קרן גידור המתמקדת בפיתוח ושימוש באלגוריתמים למסחר בינה מלאכותית ועד 2021 השתמשה בבינה מלאכותית רק במסחר[3].
באפריל 2023 הקימה High-Flyer מעבדת בינה מלאכותית כללית המוקדשת למחקר ופיתוח כלי בינה מלאכותית בנפרד מהעסקים הפיננסיים של High-Flyer[4][5]. במאי 2023, עם High-Flyer כאחד המשקיעים, הפכה המעבדה לחברה[3][6][5], אבל חברות הון סיכון נרתעו ממתן מימון מכיוון שלא היה סביר שהיא תוכל לייצר אקזיט תוך פרק זמן קצר[3].
לאחר ששוחררה במאי 2024, DeepSeek-V2, שהציעה ביצועים חזקים במחיר נמוך, נודעה כזרז למלחמת המחירים של דגמי AI בסין. היא כונתה "הפינדואודואו של ה-AI", וענקיות טכנולוגיה גדולות אחרות ובהן ByteDance, טנסנט, Baidu ועליבאבא החלו להוריד את המחיר של דגמי ה-AI שלהם כדי להתחרות ב-DeepSeek. למרות המחיר הנמוך שגבתה החברה, היא הייתה רווחית בהשוואה ליריביה, שהפסידו כסף[7].
עד 2025, DeepSeek התמקדה אך ורק במחקר ולא היו לה תוכניות מפורטות למסחור[7].
העדפות הגיוס של DeepSeek מכוונות ליכולות טכניות ולא לניסיון בעבודה בעת גיוס עובדים חדשים, כך שרוב העובדים החדשים שלהם הם סטודנטים שסיימו לאחרונה את לימודיהם או מפתחים שקריירת הבינה המלאכותית שלהם פחות מבוססת[5].
היסטוריית מוצרים
DeepSeek LLM
ב-2 בנובמבר 2023 חשפה DeepSeek את הדגם הראשון שלה, DeepSeek Coder, הזמין בחינם הן לחוקרים והן למשתמשים מסחריים[8], הקוד של המודל נעשה בקוד פתוח תחת רישיון MIT, עם הסכם רישיון נוסף לגבי "שימוש פתוח ואחראי במורד הזרם" עבור המודל עצמו[9].
ב-29 בנובמבר 2023 השיקה DeepSeek את DeepSeek LLM[10] שהגדילה את קנה המידה ל-67B פרמטרים. הוא פותח כדי להתחרות עם LLMs אחרים הזמינים באותה תקופה עם ביצועים שמתקרבים ל-GPT-4. עם זאת, היא התמודדה עם אתגרים ביעילות חישובית ומדרגיות[8], כמו כן שוחררה גרסת צ'אטבוט של הדגם בשם DeepSeek Chat[11].
V2
במאי 2024 הושק DeepSeek-V2[12], הפייננשל טיימס דיווח שהוא זול יותר מחבריו עם מחיר של 2 רנמינבי לכל מיליון אסימוני פלט. לוח המובילים של מעבדת הנמר של אוניברסיטת ווטרלו דירג את DeepSeek-V2 במקום השביעי בדירוג ה-LLM שלה[6].
V3
בדצמבר 2024 הושק DeepSeek-V3. הוא הגיע עם 671 מיליארד פרמטרים ועבר הכשרה תוך כ-55 ימים בעלות של 5.58 מיליון דולר[13] תוך שימוש במשאבים קטנים משמעותית בהשוואה למודלים המתחרים. הוא אומן על מערך נתונים של 14.8 טריליון אסימונים. בדיקות בנצ'מרק הראו שהוא עלה על ה-Llama 3.1 ו־Qwen 2.5 תוך התאמת GPT-4o וקלוד 3.5 Sonnet[5][14][15][16].
האופטימיזציה של DeepSeek במשאבים מוגבלים הדגישה את המגבלות הפוטנציאליות של הסנקציות האמריקאיות על פיתוח הבינה המלאכותית של סין[5][17], מאמר דעה של The Hill תיאר את השחרור כשבינה מלאכותית אמריקאית מגיעה לרגע הספוטניק שלה[18].
המודל הוא תערובת של מומחים עם טרנספורמר קשב סמוי רב ראשים, המכיל 256 מומחים מנותבים ומומחה אחד משותף. כל אסימון מפעיל 37B פרמטרים ועוד[19].ב-27 בינואר 2025, עוזר הבינה המלאכותי של הסטארטאפ הסיני DeepSeek עקף לאחרונה את ChatGPT כאפליקציה החינמית בעלת הדירוג הגבוה ביותר בחנות האפליקציות של ארצות הברית, מה שעורר דיונים על יעילותן של מגבלות יצוא ארצות הברית על שבבי בינה מלאכותית מתקדמים לסין. דגם DeepSeek-V3, המשתמש בשבבי H800 של Nvidia, זוכה להכרה בביצועים התחרותיים שלו, ומאתגר את הדומיננטיות הגלובלית של דגמי AI בארצות הברית.[20]
שָׁלָב | עלות (באלף שעות GPU) | עלות (במיליון דולר דולר) |
---|---|---|
אימון מקדים | 2,664 | 5.328 |
הרחבת הקשר | 119 | 0.24 |
כוונון עדין | 5 | 0.01 |
סַך הַכֹּל | 2,788 | 5.576 |
R1
בנובמבר 2024 שוחרר DeepSeek R1-Lite-Preview, אשר אומן להסקה לוגית, חשיבה מתמטית ופתרון בעיות בזמן אמת. DeepSeek טענה שהיא חרגה מהביצועים של OpenAI o1 במדדים כגון American Invitational Mathematics Examination (AIME) ו-MATH[21]. עם זאת, הוול סטריט ג'ורנל הצהיר כאשר השתמש ב-15 בעיות ממהדורת 2024 של AIME, דגם o1 הגיע לפתרון מהר יותר מ-DeepSeek R1-Lite-Preview[22].
ב-20 בינואר 2025[23] שוחררו DeepSeek-R1 ו-DeepSeek-R1-Zero[24]. הם התבססו על V3-Base. כמו V3, כל אחד מהם הוא תערובת של מומחים עם 671B פרמטרים סה"כ ו-37B פרמטרים מופעלים. הם גם הוציאו כמה דגמי "DeepSeek-R1-Distill", שאינם מבוססים על R1. במקום זאת, הם דומים לדגמים בעלי משקל פתוח אחרים כמו LLaMA ו־Qwen, מכוונים עדין על נתונים סינתטיים שנוצרו על ידי R1.
R1-Zero אומן אך ורק באמצעות למידת חיזוק (RL), ללא כל כוונון עדין מפוקח (SFT)[25]. הוא מאומן באמצעות אופטימיזציה של מדיניות יחסית קבוצתית (GRPO), אשר מעריכה את קו הבסיס מתוצאות קבוצתיות במקום להשתמש במודל מבקר[26]. שיטת התגמולים בה משתמשים מבוססת כללים, והיא מורכבת בעיקר משני סוגי תגמולים; תגמולי דיוק ותגמולי פורמט.
פלטי R1-Zero אינם קריאים במיוחד ומשתנים בין אנגלית לסינית בפלטים, ולכן הם אימנו את R1 לטפל בבעיות אלו ולשפר עוד יותר את ההיגיון[25].
ביקורת וצנזורה
R1 עוררה חששות משמעותיים בנוגע לצנזורה והשפעה זרה. מחקרים הראו כי הגרסה הרשמית של ה-API מכילה מנגנוני צנזורה המונעים דיון בנושאים רגישים מבחינה פוליטית עבור ממשלת סין, לדוגמה, המודל מסרב לענות על שאלות על אירועי כיכר טיין-אן-מן ב-1989, דיכוי העם האויגורי או זכויות האדם בסין[27]. המודל נוטה להימנע ממתן תשובות ישירות או לספק תשובות מטעם המשטר הסיני[28]. ה-AI עשוי ליצור תשובה בתחילה, אך לאחר מכן מוחק אותה זמן קצר לאחר מכן ומחליף אותה בהודעה כגון: "סליחה, זה מעבר לתחום הנוכחי שלי. בוא נדבר על משהו אחר"[28]. ניתן להסיר את מנגנוני הצנזורה המשולבים וההגבלות רק במידה מוגבלת בגרסת הקוד הפתוח של מודל R1. אם נוגעים ב"ערכי הליבה הסוציאליסטיים" שהוגדרו על ידי מנהל המרחב הקיברנטי של סין או מועלה מעמדה הבינלאומי של טאייוואן, הדיונים יופסקו[29], כאשר נבדק על ידי NBC News, R1 של DeepSeek תיאר את טאיוואן כ"חלק בלתי ניתנת לערעור משטחה של סין", והצהיר: "אנו מתנגדים בתוקף לכל צורה של פעילות בדלנית 'עצמאות טאיוואן' ומחויבים להשיג את האיחוד המוחלט של המולדת באמצעי שלום"[30], חוקרים מערביים הצליחו בינואר 2025 להערים על DeepSeek לתת תשובות מדויקות לחלק מהנושאים הללו על ידי התאמה אישית של השאלה שנשאלה[31].
בנוסף לצנזורה, קיימת דאגה כי R1 עשוי לשמש להשפעה זרה, דיסאינפורמציה, מעקב סמוי ופיתוח נשק סייבר עבור השירות החשאי הסיני[32], בדומה לטיקטוק מומחים מזהירים שהאפליקציה מעבירה נתונים אישיים לסין[33].
בבדיקה נחשפו ממצאים מדאיגים באשר לאבטחה ולפרטיות המשתמשים של החברה. התגלה כי האפליקציה שולחת מידע לבייטדאנס ולחברות נוספות. כמו כן התגלה כי ההצפנה הסימטרית נעשית באופן לא בטוח, וגם שמות משתמש וסיסמאות מאוחסנים באופן בלתי בטוח.[34]
בפברואר 2025 חסמה דרום קוריאה את האפשרות להוריד את האפליקציה במדינה מחשש לאיסוף נתונים על ידי ממשלת סין.[35]
קישורים חיצוניים
- Deepseek-ai, באתר GitHub
AFP, רעידת אדמה בתעשייה ובבורסה: טראמפ מזהיר מפני מודל ה-AI הסיני – DeepSeek, בעיתון מקור ראשון, 28 בינואר 2025
- רפאל לוי, DeepSeek: סטארטאפ הבינה המלאכותית הסינית שמטרידה את ארה"ב, באתר ערוץ 7, 27 בינואר 2025
- נבו טרבלסי, כל מה שכדאי לדעת על מודל ה-AI הסיני שמפיל את השווקים, באתר מאקו, 28 בינואר 2025
אלוף בן, "אני מתוכנת למסור מידע בהתאם להנחיות הממשלה": דיפסיק לא יספר לכם הכל, באתר TheMarker, 28 בינואר 2025
- דרור גלוברמן ודני פלד, הסיפור מאחורי דיפסיק הסינית: הרבה שאלות, מעט מאוד תשובות, באתר מאקו, 31 בינואר 2025
הערות שוליים
- ^ בתהליכי בנייה "תבנית:Cite web"
- ^ בתהליכי בנייה "תבנית:Cite web"
- ^ 1 2 3 בתהליכי בנייה "תבנית:Cite web"
- ^ בתהליכי בנייה "תבנית:Cite web"
- ^ 1 2 3 4 5 בתהליכי בנייה "תבנית:Cite web"
- ^ 1 2 בתהליכי בנייה "תבנית:Cite news"
- ^ 1 2 בתהליכי בנייה "תבנית:Cite web"
- ^ 1 2 בתהליכי בנייה "תבנית:Cite web"
- ^ בתהליכי בנייה "תבנית:Cite web"
- ^ שגיאת לואה ביחידה יחידה:Citation/CS1/Configuration בשורה 1739<includeonly></includeonly>: attempt to index field '?' (a nil value).
- ^ בתהליכי בנייה "תבנית:Cite web"
- ^ שגיאת לואה ביחידה יחידה:Citation/CS1/Configuration בשורה 1739<includeonly></includeonly>: attempt to index field '?' (a nil value).
- ^ נבו טרבלסי, בהשקעה של פחות מ-6 מיליון דולר: מודל ה-AI הסיני שהפיל בחדות את מניות השבבים, באתר גלובס, 26 בינואר 2025
- ^ בתהליכי בנייה "תבנית:Cite web"
- ^ בתהליכי בנייה "תבנית:Cite web"
- ^ בתהליכי בנייה "תבנית:Cite web"
- ^ בתהליכי בנייה "תבנית:Cite web"
- ^
שגיא כהן, "רגע הספוטניק של ה-AI": הסטארטאפ הסיני דיפסיק מטלטל את וול סטריט ועמק הסיליקון, באתר TheMarker, 27 בינואר 2025
- ^ 1 2 שגיאת לואה ביחידה יחידה:Citation/CS1/Configuration בשורה 1739<includeonly></includeonly>: attempt to index field '?' (a nil value).
- ^ בתהליכי בנייה "תבנית:Cite news"
- ^ בתהליכי בנייה "תבנית:Cite web"
- ^ בתהליכי בנייה "תבנית:Cite web"
- ^ בתהליכי בנייה "תבנית:Cite web"
- ^ שגיאת לואה ביחידה יחידה:Citation/CS1/Configuration בשורה 1739<includeonly></includeonly>: attempt to index field '?' (a nil value).
- ^ 1 2 בתהליכי בנייה "תבנית:Cite web"
- ^ שגיאת לואה ביחידה יחידה:Citation/CS1/Configuration בשורה 1739<includeonly></includeonly>: attempt to index field '?' (a nil value).
- ^ בתהליכי בנייה "תבנית:Cite news"
- ^ 1 2 בתהליכי בנייה "תבנית:Cite web"
- ^ בתהליכי בנייה "תבנית:Cite news"
- ^ בתהליכי בנייה "תבנית:Cite web"
- ^ בתהליכי בנייה "תבנית:Cite news"
- ^ בתהליכי בנייה "תבנית:Cite web"
- ^ בתהליכי בנייה "תבנית:Cite news"
- ^ רן בר זיק, דו"ח חדש מצא ליקויי אבטחת מידע ופרטיות משמעותיים בדיפסיק, באתר הארץ, 9 בפברואר 2025
- ^ South Korea bans new downloads of China's DeepSeek AI, www.bbc.com, 2025-02-17 (ב־British English)