Spaces:

wxy01giser
/

egisinsight

Running

wxy01giser commited on Nov 26, 2025

Commit

3ede521

verified ·

1 Parent(s): 87a107e

Update docSim.py

Files changed (1) hide show

docSim.py CHANGED Viewed

@@ -20,25 +20,11 @@ def semantic_similarity(text1, text2):
     return float(util.cos_sim(emb1, emb2))
 def calcDocSims(file):
-    # 替换 JS 风格的 true/false/null 为 Python 可识别格式
-    file = file.replace("true", "true".lower()).replace("false", "false".lower()).replace("null", "null".lower())
-    # 1. 去除控制字符（0x00 - 0x1F）
-    cleaned = re.sub(r'[\x00-\x1F]+', '', file)
-    # 2. 替换 JS 风格 true/false/null 为 Python 能识别的形式
-    cleaned = cleaned.replace("true", "true").replace("false", "false").replace("null", "null")
-    data = json.loads(cleaned)
-    pattern = r"核心痛点[:：\s]*([\s\S]*?)优化措施[:：\s]*"
-    res1 = re.search(pattern, data['file'][0][0]['text'], flags=re.S)
-    res1 = res1.group(1).strip()
-    res1 = re.sub(r"-?\s*核心教学痛点\d*[:：]\s*", "", res1)
-    res2 = re.search(pattern, data['file'][1][0]['text'], flags=re.S)
-    res2 = res2.group(1).strip()
-    res2 = re.sub(r"-?\s*核心教学痛点\d*[:：]\s*", "", res2)
-    sim = semantic_similarity(res1, res2)
-    return 1-sim, res1, res2
 if __name__ == '__main__':
     s = """

     return float(util.cos_sim(emb1, emb2))
 def calcDocSims(file):
+    file = re.findall(r'text=(.*?),\s*error=', s, flags=re.DOTALL)
+    res_list = [extract_core_painpoints(t) for t in file]
+    # 假设只比较前两个
+    sim = semantic_similarity(res_list[0], res_list[1])
+    return 1-sim, res_list[0], res_list[1]
 if __name__ == '__main__':
     s = """