# 评论文本处理 **Repository Path**: zingyang/comment-text-processing ## Basic Information - **Project Name**: 评论文本处理 - **Description**: 用于处理评论中存在的表情包、店铺名、**等特殊字符 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-07-16 - **Last Updated**: 2025-07-17 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 评论处理工具 (Comment Processor) ## 项目简介 这是一个专为处理电商评论数据设计的Python工具,能够自动化处理Excel文件中的评论内容,实现以下功能: 1. **去除店铺名称** - 清理评论中的商家相关信息 2. **去除表情包和特殊符号** - 移除各种emoji、星号(*)和其他特殊符号 3. **纠正错别字和词汇替换** - 修复文字错误、重复字符,替换特定词汇(如掌柜→客服) 4. **差评过滤** - 识别并过滤包含负面关键词的评论 5. **去重处理** - 检测并去除重复或相似的评论 ## 功能特性 ### 🎯 核心功能 - **智能文本清理**:自动识别并处理各种文本问题 - **表情包和符号清理**:去除emoji、星号(*)和各种特殊符号 - **词汇替换**:自动替换特定词汇(如掌柜→客服) - **批量处理**:支持处理整个文件夹的Excel文件 - **详细日志**:提供完整的处理过程记录 - **灵活配置**:支持自定义关键词和词典 - **质量保证**:确保处理后的评论质量 ### 📊 处理流程 1. **文本预处理**:去除店铺名称、表情包和特殊符号 2. **文本纠错和词汇替换**:修复错别字、替换特定词汇 3. **质量检测**:识别差评和重复内容 4. **结果输出**:生成处理报告和清理后的数据 ## 项目结构 ``` comment-processor/ ├── comments/ # 输入文件夹(存放待处理的Excel文件) ├── output/ # 输出文件夹(存放处理结果) ├── comment_processor.py # 核心处理类 ├── main.py # 主程序入口 ├── requirements.txt # 项目依赖 ├── run.bat # Windows执行脚本 ├── README.md # 项目说明 └── comment_processing.log # 处理日志 ``` ## 安装要求 ### 系统要求 - Python 3.7+ - Windows/Linux/macOS ### 依赖库 ```bash pip install -r requirements.txt ``` 主要依赖: - pandas - 数据处理 - openpyxl - Excel文件读写 - jieba - 中文分词 - pypinyin - 拼音处理 ## 使用方法 ### 方法一:一键执行(推荐) 1. 将需要处理的Excel文件放入`comments`文件夹 2. 双击运行`run.bat` 3. 等待处理完成,结果保存在`output`文件夹 ### 方法二:命令行执行 ```bash # 处理整个comments文件夹 python main.py # 处理单个文件 python main.py -f path/to/file.xlsx # 指定输入输出文件夹 python main.py -i input_folder -o output_folder # 显示详细日志 python main.py -v ``` ### 方法三:Python代码调用 ```python from comment_processor import CommentProcessor # 创建处理器 processor = CommentProcessor() # 处理单个文件 processor.process_excel_file('comments/example.xlsx') # 处理整个文件夹 processor.process_comments_folder('comments', 'output') ``` ## 输出结果 ### 处理后的Excel文件包含以下列: - **原始评论列**:保持原始数据不变 - **processed列**:处理后的评论内容 - **is_negative列**:是否为差评(True/False) - **is_duplicate列**:是否重复(True/False) - **original_length列**:原始文本长度 - **processed_length列**:处理后文本长度 ### 日志文件 - `comment_processing.log`:详细的处理日志 - 包含处理进度、错误信息、统计结果等 ## 配置说明 ### 自定义词典 可以在`CommentProcessor`类中修改以下词典: 1. **店铺名称词典**:`_load_shop_names()` 2. **表情包词典**:`_load_emojis()` 3. **差评关键词**:`_load_negative_keywords()` 4. **错别字词典**:`_load_typo_dict()` ### 相似度阈值 在`is_duplicate_comment()`方法中可以调整重复检测的相似度阈值(默认0.8) ## 注意事项 1. **文件格式**:支持.xlsx和.xls格式的Excel文件 2. **编码格式**:确保Excel文件使用UTF-8编码 3. **内存使用**:大文件处理时注意内存使用情况 4. **备份数据**:处理前建议备份原始数据 ## 错误处理 ### 常见问题 1. **Python未安装**:安装Python 3.7+ 2. **依赖库缺失**:运行`pip install -r requirements.txt` 3. **文件路径错误**:检查文件是否在正确位置 4. **编码问题**:确保文件使用正确编码格式 ### 错误日志 - 查看`comment_processing.log`获取详细错误信息 - 检查控制台输出的错误提示 ## 更新日志 ### v1.0.0 - 初始版本发布 - 实现基础评论处理功能 - 支持批量文件处理 - 添加详细日志记录 ## 许可证 本项目仅供学习和研究使用。 --- **开发团队**:数据处理团队 **最后更新**:2024年 **版本**:v1.0.0