[全量] 初始化项目代码、配置、文档及Agent协同harness

2026-04-02 11:36:05 +08:00
parent 0553309cdf
commit 87e571d9ec
1133 changed files with 221948 additions and 0 deletions
--- a/langchain-chat/server/db/models/init.py
+++ b/langchain-chat/server/db/models/init.py
--- a/langchain-chat/server/db/models/base.py
+++ b/langchain-chat/server/db/models/base.py
@@ -0,0 +1,13 @@
+from datetime import datetime
+from sqlalchemy import Column, DateTime, String, Integer
+
+
+class BaseModel:
+    """
+    基础模型
+    """
+    id = Column(Integer, primary_key=True, index=True, comment="主键ID")
+    create_time = Column(DateTime, default=datetime.utcnow, comment="创建时间")
+    update_time = Column(DateTime, default=None, onupdate=datetime.utcnow, comment="更新时间")
+    create_by = Column(String, default=None, comment="创建者")
+    update_by = Column(String, default=None, comment="更新者")
--- a/langchain-chat/server/db/models/conversation_model.py
+++ b/langchain-chat/server/db/models/conversation_model.py
@@ -0,0 +1,17 @@
+from sqlalchemy import Column, Integer, String, DateTime, JSON, func
+from server.db.base import Base
+
+
+class ConversationModel(Base):
+    """
+    聊天记录模型
+    """
+    __tablename__ = 'conversation'
+    id = Column(String(32), primary_key=True, comment='对话框ID')
+    name = Column(String(50), comment='对话框名称')
+    # chat/agent_chat等
+    chat_type = Column(String(50), comment='聊天类型')
+    create_time = Column(DateTime, default=func.now(), comment='创建时间')
+
+    def __repr__(self):
+        return f"<Conversation(id='{self.id}', name='{self.name}', chat_type='{self.chat_type}', create_time='{self.create_time}')>"
--- a/langchain-chat/server/db/models/knowledge_base_model.py
+++ b/langchain-chat/server/db/models/knowledge_base_model.py
@@ -0,0 +1,20 @@
+from sqlalchemy import Column, Integer, String, DateTime, func
+
+from server.db.base import Base
+
+
+class KnowledgeBaseModel(Base):
+    """
+    知识库模型
+    """
+    __tablename__ = 'knowledge_base'
+    id = Column(Integer, primary_key=True, autoincrement=True, comment='知识库ID')
+    kb_name = Column(String(50), comment='知识库名称')
+    kb_info = Column(String(200), comment='知识库简介(用于Agent)')
+    vs_type = Column(String(50), comment='向量库类型')
+    embed_model = Column(String(50), comment='嵌入模型名称')
+    file_count = Column(Integer, default=0, comment='文件数量')
+    create_time = Column(DateTime, default=func.now(), comment='创建时间')
+
+    def __repr__(self):
+        return f"<KnowledgeBase(id='{self.id}', kb_name='{self.kb_name}',kb_intro='{self.kb_info} vs_type='{self.vs_type}', embed_model='{self.embed_model}', file_count='{self.file_count}', create_time='{self.create_time}')>"
--- a/langchain-chat/server/db/models/knowledge_file_model.py
+++ b/langchain-chat/server/db/models/knowledge_file_model.py
@@ -0,0 +1,40 @@
+from sqlalchemy import Column, Integer, String, DateTime, Float, Boolean, JSON, func
+
+from server.db.base import Base
+
+
+class KnowledgeFileModel(Base):
+    """
+    知识文件模型
+    """
+    __tablename__ = 'knowledge_file'
+    id = Column(Integer, primary_key=True, autoincrement=True, comment='知识文件ID')
+    file_name = Column(String(255), comment='文件名')
+    file_ext = Column(String(10), comment='文件扩展名')
+    kb_name = Column(String(50), comment='所属知识库名称')
+    document_loader_name = Column(String(50), comment='文档加载器名称')
+    text_splitter_name = Column(String(50), comment='文本分割器名称')
+    file_version = Column(Integer, default=1, comment='文件版本')
+    file_mtime = Column(Float, default=0.0, comment="文件修改时间")
+    file_size = Column(Integer, default=0, comment="文件大小")
+    custom_docs = Column(Boolean, default=False, comment="是否自定义docs")
+    docs_count = Column(Integer, default=0, comment="切分文档数量")
+    create_time = Column(DateTime, default=func.now(), comment='创建时间')
+
+    def __repr__(self):
+        return f"<KnowledgeFile(id='{self.id}', file_name='{self.file_name}', file_ext='{self.file_ext}', kb_name='{self.kb_name}', document_loader_name='{self.document_loader_name}', text_splitter_name='{self.text_splitter_name}', file_version='{self.file_version}', create_time='{self.create_time}')>"
+
+
+class FileDocModel(Base):
+    """
+    文件-向量库文档模型
+    """
+    __tablename__ = 'file_doc'
+    id = Column(Integer, primary_key=True, autoincrement=True, comment='ID')
+    kb_name = Column(String(50), comment='知识库名称')
+    file_name = Column(String(255), comment='文件名称')
+    doc_id = Column(String(50), comment="向量库文档ID")
+    meta_data = Column(JSON, default={})
+
+    def __repr__(self):
+        return f"<FileDoc(id='{self.id}', kb_name='{self.kb_name}', file_name='{self.file_name}', doc_id='{self.doc_id}', metadata='{self.meta_data}')>"
--- a/langchain-chat/server/db/models/knowledge_metadata_model.py
+++ b/langchain-chat/server/db/models/knowledge_metadata_model.py
@@ -0,0 +1,28 @@
+from sqlalchemy import Column, Integer, String, DateTime, Float, Boolean, JSON, func
+
+from server.db.base import Base
+
+
+class SummaryChunkModel(Base):
+    """
+    chunk summary模型，用于存储file_doc中每个doc_id的chunk 片段，
+    数据来源:
+        用户输入: 用户上传文件，可填写文件的描述，生成的file_doc中的doc_id，存入summary_chunk中
+        程序自动切分 对file_doc表meta_data字段信息中存储的页码信息，按每页的页码切分，自定义prompt生成总结文本，将对应页码关联的doc_id存入summary_chunk中
+    后续任务:
+        矢量库构建: 对数据库表summary_chunk中summary_context创建索引，构建矢量库，meta_data为矢量库的元数据（doc_ids）
+        语义关联： 通过用户输入的描述，自动切分的总结文本，计算
+        语义相似度
+
+    """
+    __tablename__ = 'summary_chunk'
+    id = Column(Integer, primary_key=True, autoincrement=True, comment='ID')
+    kb_name = Column(String(50), comment='知识库名称')
+    summary_context = Column(String(255), comment='总结文本')
+    summary_id = Column(String(255), comment='总结矢量id')
+    doc_ids = Column(String(1024), comment="向量库id关联列表")
+    meta_data = Column(JSON, default={})
+
+    def __repr__(self):
+        return (f"<SummaryChunk(id='{self.id}', kb_name='{self.kb_name}', summary_context='{self.summary_context}',"
+                f" doc_ids='{self.doc_ids}', metadata='{self.metadata}')>")
--- a/langchain-chat/server/db/models/message_model.py
+++ b/langchain-chat/server/db/models/message_model.py
@@ -0,0 +1,25 @@
+from sqlalchemy import Column, Integer, String, DateTime, JSON, func
+
+from server.db.base import Base
+
+
+class MessageModel(Base):
+    """
+    聊天记录模型
+    """
+    __tablename__ = 'message'
+    id = Column(String(32), primary_key=True, comment='聊天记录ID')
+    conversation_id = Column(String(32), default=None, index=True, comment='对话框ID')
+    # chat/agent_chat等
+    chat_type = Column(String(50), comment='聊天类型')
+    query = Column(String(4096), comment='用户问题')
+    response = Column(String(4096), comment='模型回答')
+    # 记录知识库id等，以便后续扩展
+    meta_data = Column(JSON, default={})
+    # 满分100 越高表示评价越好
+    feedback_score = Column(Integer, default=-1, comment='用户评分')
+    feedback_reason = Column(String(255), default="", comment='用户评分理由')
+    create_time = Column(DateTime, default=func.now(), comment='创建时间')
+
+    def __repr__(self):
+        return f"<message(id='{self.id}', conversation_id='{self.conversation_id}', chat_type='{self.chat_type}', query='{self.query}', response='{self.response}',meta_data='{self.meta_data}',feedback_score='{self.feedback_score}',feedback_reason='{self.feedback_reason}', create_time='{self.create_time}')>"