fix: 修复main.py网页查询缺失max_iter的问题

test: 暂时移除前端最后报告输出 chore: 优化提示词
6 days ago · 5742170b51
5 changed files with 34 additions and 95 deletions
--- a/deepsearcher/agent/deep_search.py
+++ b/deepsearcher/agent/deep_search.py
@ -12,8 +12,8 @@ COLLECTION_ROUTE_PROMPT = """
 请你选择可能与问题相关的合集名称，并返回一个字符串列表。
 如果没有相关合集，请返回一个空列表。
-"Query": {query}
+"问题": {query}
-"COLLECTION_INFO": {collection_info}
+"合集信息": {collection_info}
 使用的语言与问题相同
 你需要返回的格式是 a python list of str without any addtional content:
@ -25,18 +25,18 @@ SUB_QUERY_PROMPT = """
 如果原问题本身非常简单，没有必要进行拆分，则保留输出原问题本身
 需要保证每个子问题都具体、清晰、不可分（原子性），最终返回一个字符串列表
-Original Question: {original_query}
+原问题: {original_query}
 <EXAMPLE>
 示例输入:
-"Explain deep learning"
+"请解释机器学习"
-示例输出:
+示例输出（例子中的数量不是要求）:
 [
-    "What is deep learning?",
+    "什么是机器学习?",
-    "What is deep learning's purpose?",
+    "机器学习的使用目的是什么?",
-    "What is the difference between deep learning and machine learning?",
+    "机器学习和深度学习的区别是什么？",
-    "What is the history of deep learning?"
+    "机器学习的历史演进过程？"
 ]
 </EXAMPLE>
@ -47,15 +47,16 @@ Original Question: {original_query}
 RERANK_PROMPT = """
-根据当前的问题和获取到的文档片段，请你对当前获取到的文档是否能帮助回答这个问题给出一个快速判断
+根据当前的问题和获取到的文档片段
-对于每一个文档片段，你只应该返回"YES"或者"NO"
+请你对当前获取到的文档是否能帮助回答这个问题（直接或间接，全面或部分，都可以）给出一个快速判断
 对于每一个文档片段，你只应该返回"YES"或者"NO"（需要注意顺序和数量）
-Query: {query}
+问题: {query}
-Retrieved Chunks:
+检索到的文档片段:
 {chunks}
-例如，对于4个chunks，返回: ["YES", "NO", "YES", "YES"]
+例如，给定4个chunks（实际检索到的文档片段不一定是4个），返回: ["YES", "NO", "YES", "YES"]
 使用的语言与问题相同
 你需要返回的是 a python list of str without any addtional content:
 """
@ -67,11 +68,11 @@ REFLECT_PROMPT = """
 你可以尝试生成相似但些许不同的问题来尝试重新检索，但是也可以根据获得到的文档片段进行批评思考，生成新的问题来保证原问题的回答的准确和全面
 如果没有真的必要继续研究（取决于你的判断），返回一个空列表
-Original Query: {original_query}
+原问题: {original_query}
-Previous Sub Queries: {all_sub_queries}
+子问题: {all_sub_queries}
-Related Chunks:
+检索到的文档片段:
 {chunks}
 使用的语言与原问题相同
@ -91,23 +92,20 @@ SUMMARY_PROMPT = """
 <EXAMPLE>
 文内引用示例（使用markdown和html的混合语法，格式必须和例子一致）:
-"XGBoost is a powerful ensemble learning method [<sup>[2]</sup>](#2)"
+"XGBoost是非常强大的集成学习模型[<sup>[2]</sup>](#2)"
-(必须使用 "[<sup>[index]</sup>](#index)" 而不是 "[index]"，注意不要遗漏"(#index)")
+(必须使用 "[<sup>[index]</sup>](#index)" 而不是 "[index]"，注意不要遗漏"(#index)"，这里的index是chunk对应的reference的id)
-文末参考资料列表 (超链接必须和href属性一致，不允许简化):
+文末引用示例 (需要href与前文参考中的一致，不需要对每个chunk分配一个引用，而是每一个referecen共用一个引用):
 前文输入：
 <reference id="2" href="href="files/docs/chap_001_003_models.md"><chunk id="1">...</chunk></reference>
 参考输出：
 <div id="2"><a href="files/docs/chap_001_003_models.md" style="text-decoration: none;>[2] chap_001_models.md</a></div>
 </EXAMPLE>
-原始问题: {original_query}
+原问题: {original_query}
-已经拆分出的子问题: {all_sub_queries}
+子问题: {all_sub_queries}
-相关片段:
+检索到的文档片段:
 {chunks}
 注意，你需要使用与原始问题的相同的语言来回答
@ -175,7 +173,7 @@ class DeepSearch(BaseAgent):
        collection_infos = self.vector_db.list_collections(dim=dim)
        if len(collection_infos) == 0:
            log.color_print(
-                "数据库中没有找到任何合集！"
+                "No collection found in the vector database!"
            )
            return []
        if len(collection_infos) == 1:
@ -421,9 +419,9 @@ class DeepSearch(BaseAgent):
        chunks = []
        chunk_count = 0
        for i, reference in enumerate(references):
-            formated = f"<reference id='{i}' href='{reference}'>\n" + "".join(
+            formated = f"<reference id='{i + 1}' href='{reference}'>\n" + "".join(
                [
-                    f"<chunk id='{j + chunk_count}'>\n{chunk}\n</chunk>\n"
+                    f"<chunk id='{j + 1 + chunk_count}'>\n{chunk}\n</chunk>\n"
                    for j, chunk in enumerate(references[reference])
                ]
            ) + "</reference>\n"
--- a/deepsearcher/backend/templates/index.html
+++ b/deepsearcher/backend/templates/index.html
@ -192,29 +192,6 @@
            line-height: 1.6;
        }
        /* 进度日志样式 */
        .progress-log {
            background-color: #1e1e1e;
            color: #d4d4d4;
            border-radius: 6px;
            padding: 16px;
            font-family: 'Courier New', monospace;
            font-size: 14px;
            margin: 16px 0;
            max-height: 300px;
            overflow-y: auto;
            display: none;
        }
        .progress-log.visible {
            display: block;
        }
        .progress-log-entry {
            margin: 4px 0;
            line-height: 1.4;
        }
        footer {
            text-align: center;
            margin-top: 30px;
@ -291,9 +268,6 @@
                <button id="queryBtn">执行查询</button>
                <div id="queryStatus" class="status"></div>
                <!-- 进度日志显示区域 -->
                <div id="progressLog" class="progress-log"></div>
                <div id="queryResult" class="result-container">
                    <h3>查询结果:</h3>
                    <div class="query-result" id="resultText"></div>
@ -346,25 +320,6 @@
            resultElement.classList.remove('visible');
        }
        // 工具函数：显示进度日志
        function showProgressLog(messages) {
            const logElement = document.getElementById('progressLog');
            if (messages && messages.length > 0) {
                logElement.innerHTML = messages.map(msg => 
                    `<div class="progress-log-entry">${escapeHtml(msg)}</div>`
                ).join('');
                logElement.classList.add('visible');
            } else {
                logElement.classList.remove('visible');
            }
        }
        // 工具函数：隐藏进度日志
        function hideProgressLog() {
            const logElement = document.getElementById('progressLog');
            logElement.classList.remove('visible');
        }
        // 工具函数：转义HTML特殊字符
        function escapeHtml(text) {
            const map = {
@ -405,7 +360,6 @@
            setButtonLoading(button, true);
            showStatus('loadStatus', '正在加载文件...', 'loading');
            hideResult();
            hideProgressLog();
            try {
                const response = await fetch('/load-files/', {
@ -451,7 +405,6 @@
            setButtonLoading(button, true);
            showStatus('webLoadStatus', '正在加载网站内容...', 'loading');
            hideResult();
            hideProgressLog();
            try {
                const response = await fetch('/load-website/', {
@ -499,7 +452,6 @@
            setButtonLoading(button, true);
            showStatus('queryStatus', '正在处理查询...', 'loading');
            hideResult();
            hideProgressLog();
            try {
                const response = await fetch(`/query/?original_query=${encodeURIComponent(queryText)}&max_iter=${maxIter}`, {
@ -515,9 +467,6 @@
                    showStatus('queryStatus', '查询完成', 'success');
                    document.getElementById('resultText').textContent = data.result;
                    showResult();
                    // 显示进度日志
                    showProgressLog(data.progress_messages);
                } else {
                    showStatus('queryStatus', `查询失败: ${data.detail}`, 'error');
                }
--- a/deepsearcher/llm/openai_llm.py
+++ b/deepsearcher/llm/openai_llm.py
@ -50,6 +50,7 @@ class OpenAILLM(BaseLLM):
            stream=True,
            temperature=0.6
        ) as stream:
            # stream仅做测试，不需要发送到前端
            content = ""
            reasoning_content = ""
            for chunk in stream:
@ -63,5 +64,5 @@ class OpenAILLM(BaseLLM):
                if hasattr(delta, 'content') and delta.content is not None:
                    print(delta.content, end="", flush=True)
                    content += delta.content
-        print("\n")
+            print("\n")
        return content
--- a/deepsearcher/online_query.py
+++ b/deepsearcher/online_query.py
@ -3,7 +3,7 @@ from deepsearcher import configuration
 from deepsearcher.vector_db.base import RetrievalResult
-def query(original_query: str) -> tuple[str, list[RetrievalResult]]:
+def query(original_query: str, max_iter: int | None = None) -> tuple[str, list[RetrievalResult]]:
    """
    Query the knowledge base with a question and get an answer.
@ -20,10 +20,10 @@ def query(original_query: str) -> tuple[str, list[RetrievalResult]]:
            - A list of retrieval results that were used to generate the answer
    """
    default_searcher = configuration.default_searcher
-    return default_searcher.query(original_query)
+    return default_searcher.query(original_query, max_iter=max_iter)
-def retrieve(original_query: str) -> tuple[list[RetrievalResult], list[str]]:
+def retrieve(original_query: str, max_iter: int | None = None) -> tuple[list[RetrievalResult], list[str]]:
    """
    Retrieve relevant information from the knowledge base without generating an answer.
@ -40,5 +40,5 @@ def retrieve(original_query: str) -> tuple[list[RetrievalResult], list[str]]:
            - A list of strings representing consumed tokens
    """
    default_searcher = configuration.default_searcher
-    retrieved_results, metadata = default_searcher.retrieve(original_query)
+    retrieved_results, metadata = default_searcher.retrieve(original_query, max_iter=max_iter)
    return retrieved_results
--- a/main.py
+++ b/main.py
@ -203,19 +203,10 @@ def perform_query(
        HTTPException: If the query fails.
    """
    try:
        # 清除之前的进度消息
        from deepsearcher.utils.log import clear_progress_messages
        clear_progress_messages()
        result_text, _ = query(original_query, max_iter)
        # 获取进度消息
        from deepsearcher.utils.log import get_progress_messages
        progress_messages = get_progress_messages()
        return {
-            "result": result_text,
+            "result": result_text
            "progress_messages": progress_messages
        }
    except Exception as e:
        raise HTTPException(status_code=500, detail=str(e))