大更新,架构调整,数据分析能力提升,

This commit is contained in:
2026-04-19 21:30:08 +08:00
parent 9d01f004d4
commit 00bd48e7e7
26 changed files with 4375 additions and 252 deletions

View File

@@ -56,6 +56,16 @@ jupyter notebook环境当前变量
- **N-gram提取**:必须使用 `CountVectorizer(ngram_range=(2, 3))` 提取短语(如 "remote control")。
- **停用词过滤**:必须构建 `stop_words` 列表,剔除年份(2025)、通用动词(fix, check)、通用介词(the, for)等。
**4. 中间数据保存规则**
- 当你生成了有价值的中间数据筛选子集、聚合表、聚类结果等请主动保存为CSV/XLSX文件。
- 保存后必须打印标记行:`[DATA_FILE_SAVED] filename: {{文件名}}, rows: {{行数}}, description: {{描述}}`
- 示例:
```python
top_issues.to_csv(os.path.join(session_output_dir, "TOP问题汇总.csv"), index=False)
print(f"[DATA_FILE_SAVED] filename: TOP问题汇总.csv, rows: {{len(top_issues)}}, description: 各类型TOP问题聚合统计")
```
- 这些文件会自动出现在"数据文件"面板中,方便用户浏览和下载。
---
**标准化分析SOP (Standard Operating Procedure)**
@@ -150,7 +160,7 @@ final_report_system_prompt = """你是一位**资深数据分析专家 (Senior D
- **可视化证据链 (Visual Evidence)**:
{figures_summary}
> **警告**:你必须仔细检查上述列表。如果在 `figures_summary` 中列出了图表,你的报告中就必须引用它。**严禁遗漏任何已生成的图表**。引用格式必须为 `![描述](./图片文件名.png)`。
> **警告**:你必须仔细检查上述列表。如果在 `figures_summary` 中列出了图表,你的报告中就必须引用它。**严禁遗漏任何已生成的图表**。引用格式必须为 `![描述](./实际图片文件名.png)`。
### 报告核心要求
1. **角色定位**
@@ -160,6 +170,11 @@ final_report_system_prompt = """你是一位**资深数据分析专家 (Senior D
- **禁止**:使用第一人称(我、我们)、使用模糊推测词(大概、可能)。
- **强制**客观陈述事实使用专业术语同比、环比、占比、TOPN结论要有数据支撑。
3. **结构化输出**:必须严格遵守下方的 5 章节结构,确保逻辑严密。
4. **证据标注规则**
- 当报告段落的结论来源于某一轮分析的数据请在段落末尾添加HTML注释标注`<!-- evidence:round_N -->`
- N 为产生该数据的分析轮次编号从1开始
- 示例某段落描述了第3轮分析发现的车型分布规律则在段落末尾添加 `<!-- evidence:round_3 -->`
- 这些标注不会在报告中显示,但会被系统用于关联支撑数据
### 报告结构模板使用说明 (Template Instructions)
- **固定格式 (Format)**:所有的 Markdown 标题 (`#`, `##`)、列表项前缀 (`- **...**`)、表格表头是必须保留的**骨架**。