מה זיהינו מתוך המיילים של הילה
📏 מוכנות מול Acceptance Criteria (Spec §7)
מה המידה שבה הקורפוס שלנו עומד ביעדי הקבלה מהמפרט.
| קריטריון | יעד | נצפה | סטטוס |
|---|
🏷️ פילוח שולחים
לפי דומיין השולח — האם הוא בית ספר רשמי (.org.il / .muni.il), מייל אישי, או ארגוני אחר.
🎯 מטרות ראשוניות — דומיינים של `both`
דומיינים של בתי ספר שכבר שלחו בקשות הצעה מובהקות עם רשימת פריטים. אלו ייכנסו ראשונים לאוטומציה.
📬 `1a_only` — בתי ספר שכותבים על נושאים אחרים
שולחים שזיהינו כבתי ספר אבל ההודעה עצמה אינה בקשת הצעה (תלונה, בירור, תודה). לעדכון פרטי קשר אבל לא להפעלת quote engine.
⚠️ `1b_only` — בקשות מחיר מלקוחות לא מזוהים
ההודעה נראית כמו בקשת הצעת מחיר (יש פריטים + כמויות) אבל הדומיין לא מזוהה כבית ספר. דורש human-in-the-loop לעדכון שיוך.
🏫 שמות בתי ספר נפוצים בטקסט
זוהו באמצעות regex על הגוף (תבניות "בית ספר", "יסודי", "תיכון", "חטיבת ביניים", "אולפנת", "ישיבת", "ממ"ד", "אמי"ת"). מועמדים טובים ל-dedup + enrichment ב-`schools`.
📞 כיסוי חילוץ מידע בקבוצת `both`
באיזו מידה המידע שאנחנו צריכים לחלץ (שם, טלפון, שם ביה"ס) אכן קיים במיילים האיכותיים.
🔍 דוגמאות מובילות לכל קבוצה
עד 6 מיילים בעלי ציון גבוה מכל סיווג — לבדיקה ידנית ולאימון אחרי מכן.
📥 קבצי המחקר
כל הפלטים שמורים ב-repo תחת docs/research/. הקבצים האלה כלולים בגיבוי הפרויקט.
🎯 צעדים הבאים — נגזר מהנתונים
- Gold set 20 דוגמאות מתוך `both` עם annotation ידני (school, name, phone, items[]). בסיס לבדיקות regression.
- חידוד SKU regex — הדפוס הנוכחי תופס לעיתים מספרי טלפון. להוסיף negative lookbehind על "0" מוביל.
- הזנת `both` ראשונה לפלואו המלא — אלה נותנות אות נקי לבדיקת מקצה-לקצה.
- `1b_only` → Human Review: אם השולח לא מזוהה כבית ספר, ההצעה לא נשלחת אוטומטית (ראה Spec §6).
- `1a_only` → עדכון `schools`: dedup לפי Message-ID, אבל פרטי הקשר מהחתימה נכנסים ל-Airtable.