בוטים של חברות AI תוקפים ספריות ומוזיאונים

📻 דיברתי על הנושא עם ברדיו “כאן תרבות” בתוכנית “מה שכרוך” עם יובל אביבי ומיה סלע.
📰 הכתבה התפרסמה בגירסה שונה מעט בקפטן אינטרנט

מודלי ה-AI זוללים כמויות חסרות תקדים של מידע לצורך פעילותם. הבולמוס הזה משבש פעילות של אתרי שיתוף תוכן ומאגרי מידע פתוחים, מטיל עליהם הוצאות חריגות ופוגע בידע האנושי, פשוטו כמשמעו

חברות הבינה המלאכותית הגנרטיבית לא מפסיקות לג’נרט לעצמן אוייבים: עובדים שמפחדים שקופיילוט יחליף אותם (שלום לכל המתכנתים), אמנים, סופרים ועיתונים שצ’טג’יפיטי לומד את היצירות שלהם ואז מחקה אותם לבקשת המשתמשים בלי רשות, בלי קרדיט ובלי לשלם (היי, סטודיו גיבלי), וממחקר שפורסם החודש מתברר שגם ספריות, ארכיונים, גלריות ומוזיאונים, שחברות ה-AI משבשות את פעילותם במהלך נסיונותיהן להאכיל את מפלצות המידע.

מודלי בינמי גנרטיבית (gAI) כמו קלוד, צ’טג’יפיטי וסורה זקוקים לכמויות עצומות של מידע להתאמן עליו – הם מנתחים אותו כדי לאסוף סטטיסטיקות, להבין תבניות וללמוד הקשרים, ומשתמשים בידע הזה לענות על שאלות ולייצר תוכן למשתמשות.

חלק מחברות הבינמי חתמו על הסכמי שימוש עם פלטפורמות תוכן, למשל אמזון עם ניו יורק טיימס וגוגל עם רדיט (בסוף הכתבה יש עדכון על פסיקה חדשה מעניינת בנושא). אחרות, שלא הצליחו (או לא ניסו) לקבל רשות, משיגות את המידע בדרכים שונות, משונות, בעייתיות ובלתי-חוקיות, תוך פגיעה בפרטיות הגולשים, בקניין הרוחני של יוצרים, בתנאי השימוש של האתרים והשירותים השונים ובחוקים ותקנות להגנה על מידע ופרטיות.

תמונות מג'ונרטות-AI בסגנון סטודיו גיבלי 🖼️ ghibliai.ai
תמונות מג’ונרטות-AI בסגנון סטודיו גיבלי 🖼️ ghibliai.ai

דרך אחת היא הורדה פיראטית של תכנים. מטא, שהביאה לכם להיטים כמו פייסבוק, אינסטגרם ו-וואטסאפ, אימנה את הבינמי שלה על לפחות 160 טרהבייט של עשרות מיליוני ספרים וספרי-אודיו, מגזינים, תמונות ומאמרים מדעיים מספריות הצללים LibGen ו-Z-Library. הספריות הללו כוללות תכנים, שבמקור היו מוגנים מאחורי חומות תשלום או כלל לא עברו דיגיטציה רשמית, והושגו ללא רשות היוצרים והמו”לים. כמו כל מתגלץ’ שצורך תכנים פיראטיים, מטא הורידה את הספריות בטורנט דרך Anna’s Archive, מעין פיירטביי של אקדמאים וחנונים.

שיטה נוספת היא סריקה וגרידת מידע מאתרים, שירותים ומאגרים ברשת הפתוחה. חברת המעקב הביומטרי Clearview AI גרדה תמונות פנים של אנשים משירותים, אתרים ורשתות חברתיות ובהם לינקדאין, טוויטר, ונמו, יוטיוב ופייסבוק, כדי ליצור מאגר מידע ביומטרי עצום וחפיש על אנשים בכל העולם, ומוכרת גישה למאגר ללקוחותיה, רשויות אכיפה ומודיעין וקבלנים שלהן ברחבי העולם. החברה לא ביקשה רשות מהאתרים או האנשים, הואשמה ונקנסה פעמים רבות במספר מדינות על מעשיה, ואף חתמה על הסכם פשרה בתביעה אזרחית בארה”ב.

החוקר מייקל וויינברג מ-GLAM-E Lab, מעבדת מחקר משותפת של אוניברסיטאות אקסטר הבריטית ו-NYU האמריקאית, פרסם החודש מחקר שכותרתו “האם בוטי-AI מעיפים מורשת תרבותית מהרשת?”. מסקר וראיונות שערך בקרב 43 מוסדות GLAM (גלריות, ספריות, ארכיונים ומוזיאונים), עולה שאיסוף המידע על ידי בוטי-AI פוגע טכנית וכלכלית בשירותים שאותם גופים מספקים.

זחל זחלילינק! זחל זחלילינק! זחל זחלילינק!

הסריקה והגרידה מתבצעות באמצעות תוכנות ובוטים, שפועלים במספר דרכים. הם מתגלצ’ים לאתרים וקופצים מלינק ללינק כמו בני אדם, מתחברים ל-API כמו אפליקציות, ומאתרים גישה ישירה לקבצים של מאגרי המידע כמו האקרים. התוכנות הללו נקראות web crawlers, בעברית זחלן, זוחלה (הצעה של George Apple) או זחל-זחלילינק (תחדיש של גיל בהט); ו-scrapers, שאפשר לקרוא להם גרדים, גורדי רשת (MorphingScience, אביב ברקאי, tzursher) או פשוט גורדות.

אתרי ה-GLAM נועדו לשרת בני אדם, כמו גולש שנכנס לאתר למצוא מספר ספרים למחקר שלו או גולשת שמסתובבת בו כמה דקות כדי להגיע ליצירות שהיא כותבת עליהן תזה. אבל הזחלילינקים והגורדות רוצים את כל המידע בפרק זמן קצר, מציפים את השרתים בבקשות שמצטברות לעתים למיליונים ביום ומעמיסים עליהם עד להאטה ואפילו קריסה, תוך כדי נקיטה באמצעי סיכול חסימות – התעלמות מאיסורי כניסה, פנייה ממאות כתובות IP שונות, הימנעות מהזדהות כבוטים והחלפת שורת ההזדהות לפני כל בקשה (עוד על אמצעי הסיכול בהמשך). 62% ממשתתפי הסקר של GLAM-E Lab חוו עלייה בתעבורת זוחלות-גורדות, ו-16% נוספים מאמינים שאפשר לייחס להן את הגידול בתעבורה שחוו.

(בהיעדר כלים מדוייקים להבדלה בין בוטים לגולשים אנושיים, התעבורה הבוטית משבשת גם את סטטיסטיקות הגלישה, שמשמשות את המוסדות לקבלת החלטות כמו סוגי התכנים שכדאי להשקיע בהם משאבים).

ספרים שנפלו מהמדף 🖼️ ספריה מיניאטורית למכירה באתר anxietybookshelf.com
ספרים שנפלו מהמדף 🖼️ ספריה מיניאטורית למכירה באתר anxietybookshelf.com

התובנות של המחקר מקבלות אישוש מפרוייקטי וויקיפדיה, שמחזיקים 144 מיליון פריטי מידע ומהווים את מאגר המידע הפתוח הגדול בעולם – מה שהופך אותם לטרף קל למפלצות ה-AI. קרן וויקימדיה שמפעילה את הפרוייקטים דיווחה באפריל השנה שמאז תחילת 2024 חוותה עלייה של 50% בתעבורת הורדות תכני מולטימדיה – רובה מבוטי-AI.

לבעיית כמות הגלישה מתווספת בעיית איכות הגלישה: בני אדם מתעניינים בעיקר בנושאים פופולריים, וערכים נקראים במיוחד משוכפלים לעותקי מטמון בשרתים שקרובים גאוגרפית לגולשים, כך שכל בקשה נוספת שלהם כבר צורכת פחות משאבים. לעומתם, הבוטים “מתעניינים” בנושאים פחות פופולריים, כך שהבקשות שלהם צורכות יותר משאבים, הן בשליחה לשרתי הליבה והן בשכפול עותקי מטמון מיותר.

בוויקיפדיה, 65% מבקשות המידע מבזבזות-המשאבים מגיעות מבוטים, שאחראים על 35% בלבד מהצפיות באתר – אנומליה שמוסברת בכך שהם גורדים גם את תשתיות הפיתוח של וויקיפדיה, כמו כלי מעקב הבאגים ופלטפורמת בדיקת הקוד.

גולשי וויקיפדיה לא חווים בינתיים הפרעות בפעילות השוטפת של האתר, בין השאר כי צוות אמינות האתר מנטר ובמקרה הצורך חוסם תעבורה מוגזמת מזחלילינקים, פעילות שגוזלת גם היא משאבים מהארגון. אבל קשיים נרשמו בהנגשת תכנים בעת התרחשויות היסטוריות ששולחות המוני גולשים אל וויקיפדיה, כמו בעת מותו של נשיא ארה”ב לשעבר ג’ימי קרטר.

עצור! אתה רובוט!

כבר כמה עשורים שזוחלות משמשות מנועי חיפוש כמו גוגל ודאקדאקגואו, אינדקסים כמו יאהו וארכיוני רשת כמו Internet Archive. בימי קדם של אינטרנט איטי ומחירים גבוהים, זוחלות חרוצות מדי הגיעו למקומות נסתרים שגולשים לא היו מצליחים למצוא, שיבשו פעילות של אתרים וניפחו את עלויות האירוח. כדי לפתור זאת הומצא ב-94′, ואושר ב-22′, פרוטוקול הדרת רובוטים (RFC 9309), שמחייב בוטים לציית לקובץ robots.txt, שבו בעל האתר מגדיר איפה אסור להם להסתובב; ולהזדהות ולציין את מטרותיהם בהגדרות ה-user agent שלהם, כך שבעלי שרתים יוכל לחסום כליל בוטים מסויימים.

הבעיה היא שמדובר בפרוטוקול וולונטרי, שחלק מחברות ה-AI מתרשלות ליישם ואחרות מפרות בזדון, כאמור. באמצע 24′ דיווחו מספר כלי תקשורת, ובהם 404 מדיה, וויירד וביזנס אינסיידר, על שורת הפרות כאלו: אנתרופיק בעלת קלוד, OpenAI בעלת צ’טג’יפיטי ופרפלקסטי בעלת בינמי באותו שם התעלמו מרובוטס.טקסט; אנתרופיק גם הכניסה בוטי-AI חדשים לשימוש בלי הרף, כך שבעלי האתרים לא עמדו בקצב עדכון הרובוטס.טקסט והחסימות, והבוטים היו חופשיים לגרוד חופשי.

74.4% ממשיבי סקר גלאם-אי אמרו שהם נוקטים בצעדים אקטיביים למנוע מבוטים גישה בשלל שיטות, ובהן פיירוול וסינון לפי כתובת IP, מיקום גאוגרפי, דומיינים ו-user agent. הם גם סיפרו על התלבטויות לגבי אמצעים כמו דרישת התחברות לאתר עם שם וסיסמה או קפצ’ות למיניהן, שעלולים להבריח משתמשים לגיטימיים, לסכל בוטים “טובים” ורצויים כמו כאלו של מנועי חיפוש ואירכוב (כפי שקרה לרדיט כשחסמו את כל הבוטים מלבד אלו של גוגל), ולפגוע במטרת-העל של הנגשת המידע לכלל הציבור.

הפגיעה ברשת הפתוחה “תפגע לא רק בחברות ה-AI המסחריות, אלא גם בבינה מלאכותית לא-מסחרית ומחקר אקדמי”, הזהירו חוקרים מ-Data Provenance Initiative במחקר [פדף] שבחן 14 אלף אתרים ותיעד עלייה משמעותית בשיעור האתרים שמנסים לחסום בוטי-AI, מ-1% באמצע 23′ ל-5-7% שנה לאחר מכן.

יש מי שמכנים את פעילות בוטי ה-AI “מתקפת DDoS“, והאקר אנונימי אחד אפילו פיתח רושעה שמתנכלת להם בחזרה. היא נקראת על שם הצמח הטורף Nepenthes (כדנית בעברית) ופועלת בשיטה שמקורה בכלים למלחמה בספאם, שנקראת tarpitting (הכנסה לבור זפת). ברגע שבוט-AI מגיע ללינק ל-Nepenthes שהושתל באתר, הרושעה לוכדת אותו במבוך אינסופי של אתרים סטטיים שמובילים זה לזה (אך לא החוצה), ויכולה גם להרעיל את המודל על ידי הזנתו בתכנים שקריים, ג’יבריש וכדומה.

כאוס בספרייה 🖼️ ערימת ספרים מיניאטוריים של Scott Caz למכירה באתר Shake-a-Shelf
כאוס בספרייה 🖼️ ערימת ספרים מיניאטוריים של Scott Caz למכירה באתר Shake-a-Shelf

בראיון שנתן לארסטכניקה בינואר סיפר ההאקר שמבין בוטי ה-AI של החברות הגדולות שנפלו בבור הזפת, רק זה של אופןAI הצליח לצאת ממנו. אם הרושעה תמשיך להיות יעילה ותיפרש בהיקפים גדולים, היא עשויה להעלות את מחיר אימון מודלי ה-AI – ואולי לדחוף את חברות ה-AI לכבד מוסכמות רשת, או אפילו לשלם לבעלי מאגרי המידע על השימוש בהם.

“בואו נשיב מלחמה, אפילו אם זה לא יעבוד”, אמר ההאקר. “תהיו בלתי ניתנים לעיכול. תגדלו קוצים”.

מותר לסרוק, אסור להוריד פיראטית [עדכון 2025.05.25]

ביום שני פרסם בית המשפט הפדרלי של מחוז צפון קליפורניה פסיקה חשובה בתביעת זכויות יוצרים שהגישו שלושה סופרים נגד חברת הבינמי אנתרופיק, מפעילת קלוד (Bartz v. Anthropic, 3:24-cv-05417).

אנתרופיק אימנה את המודלים שלה עם מאגר של מיליוני ספרים שבנתה. המאגר הורכב מ-7 מיליון ספרים דיגיטליים שהשיגה בהורדה פיראטית, וספרים נוספים שסרקה מספרי נייר שרכשה יד-שנייה במיליוני דולרים, כשהיא משמידה את עותקיהם הפיזיים בתום הסריקה. החברה גם ניהלה מו”מ לרכישת ספרים מהמו”לים, אך זנחה את המסלול הזה.

השופט וויליאם אלספ פסק כי אימון מודלי בינמי על ספרים מהווה שימוש הוגן תחת חוק זכויות היוצרים, מאחר שמדובר בשימוש טרנספורמטיבי – כזה ששונה מהותית מהיצירה המקורית. בנוגע להשגת הספרים, השופט פסק שסריקת הספרים חוקית, מאחר שמדובר בהעברת ספר שנרכש כדין מפורמט פיזי לפורמט דיגיטלי, ואילו הורדת הספרים בטורנט ושמירתם במאגר הספרים של החברה מהווה עבירה על החוק – גם במקרים שהחברה רכשה בדיעבד עותקים של ספרים שהורידה פיראטית.

תגובות

התגובות סגורות.