دع الوكيل يدير تقدمه بنفسه
"يمكن للوكيل تتبع التقدم الذي يحرزه - ويمكنني رؤيته." اسمح للنموذج بإنشاء قائمته الخاصة، ثم استخدم آلية صغيرة للسماح له بالتذكر لتحديث القائمة.
التخطيط الذاتي المنظم
غالبًا ما يتعين على Claude Code القيام بعدة خطوات عند العمل: grep للعثور على المراجع ← قراءة بعض الملفات ← تغيير الكود ← إجراء الاختبارات. إذا تركت النموذج "يتقدم من خلال الشعور"، فسترى أنه يعمل بشكل جيد في الخطوات القليلة الأولى، ثم يبدأ في النسيان في المنتصف، ويستسلم أخيرًا في منتصف الطريق. ص>
الحل لـ s03 هو منحه أداة واضحة: يقوم النموذج بضبط أداة todo الخاصة به لحشو عناصر المهمة فيه، وTodoManager يتحقق من البنية، ويستمر، ويعيد العرض الحالي. وهذا له ميزتان:
- يضطر النموذج إلى توضيح "ما يجب فعله" - فمجرد كتابته يساعده على توضيح تفكيره. لي>
- يمكن للبشر رؤية ما يفكر فيه. تجربة التصحيح أفضل بعشر مرات. لي>
عرض # TODO، كل عنصر منظم [ ] #1: grep "TODO" عبر src/ [>] #2: قراءة src/app.py وإدراج التعليقات # قيد التقدم [ ] #3: إنشاء تخفيض موجز [ ] #4: اكتب إلى TODO_LIST.md (0/4 مكتمل)
القاعدة الصعبة: لا يوجد سوى تقدم واحد في كل مرة
TodoManager.update() يوجد فحص:
if in_progress_count > 1: raise ValueError("يمكن تنفيذ مهمة واحدة فقط في كل مرة")
قد يبدو الأمر قاسيًا، لكنه في الواقع يساعد النموذج. إذا سمحت بثلاثة "أفعال" في نفس الوقت، فسوف يبدأ القتال في كل مكان ولن ينهي أيًا منها أبدًا. التقدم القسري في مهمة واحدة، يضطر إلى إكمال كل مهمة قبل فتح المهمة التالية. ص>
تسمح لك الأداة أدناه بالعمل كنموذج، وإرسال حمولات المهام المختلفة، ومعرفة أي منها اجتاز التحقق وأي منها تم رفضه. ص>
تذكير تذمر: لا توجد تحديثات لمدة 3 جولات متتالية؟ كزة ذلك
حتى لو تم توفير أداة المهام، فسيظل النموذج "ينسى" أحيانًا تحديث القائمة - لقد قام بالكثير من الأشياء، ولكن in_progress لا يزال عالقًا في العنصر 2. تعتبر الخطوة في s03 عدادًا بسيطًا للغاية:
rounds_since_todo = 0 بينما صحيح: الاستجابة = LLM (الرسائل والأدوات) ... used_todo = أي(b.name == "todo" لـ ب في tool_uses) rounds_since_todo = 0 إذا استخدمت_todo آخر rounds_since_todo + 1 if rounds_since_todo >= 3: results.append({"type":"text", "text":"<reminder>تحديث جميع المهام.</reminder>"})
عندما يصل العدد إلى 3، قم بتضمين تذكير في الجولة التالية من رسائل المستخدم. عندما يراها النموذج، فإنه سوف يضبط المهام بشكل غريزي. يهدف هذا إلى استخدام وسائل هندسية لتحويل القيد الناعم ("يُرجى تحديثه باستمرار") إلى حافز قسري. ص>
ما اسم هذا الروتين؟
في دوائر تصميم الوكيل، يسمى هذا التخطيط الذاتي المنظم مع الوكزات الناعمة - مما يمنح النموذج حالة منظمة يجب أن يكتب إليها، مع استكمالها بتذكيرات انتهازية. يستخدم كلود كود نمطًا مشابهًا في الكود الحقيقي، ولكنه أكثر تحفظًا (تردد منخفض، صياغة محايدة). ص>
لماذا لا تكتب فقط "تحديث المهام في كل خطوة" في موجه النظام؟ الكتابة ممكنة، ولكن طاعة النموذج للتعليمات العامة في موجه النظام ستنخفض مع إطالة المحادثة. يعد تقسيم التعليمات إلى "تذكيرات يتم إعادة إدخالها باستمرار" أكثر استقرارًا.