bg

Automotive (D Company)

Back

Key Takeaway

构建安全强化的RAG基础内部LLM应用环境

通过AIR Studio和AWS OpenSearch基础的RAG架构,构建了安全利用内部文档的聊天机器人环境,并验证了根据资料有无自动切换RAG或仅LLM响应的安全中心LLM应用体系。

Automotive (D Company)

Client :汽车(D公司)

Industry :Automotive / Manufacturing

Service Area :Data & AI

1. Overview(项目背景)

本项目随着公司内部生成式AI应用的扩散,为了
最小化可能发生的技术信息泄露风险和数据学习问题,构建安全的LLM使用环境而推进。

内部员工在利用ChatGPT等公开LLM的过程中
提出了企业内部数据可能向外泄露或被用于模型学习的担忧,
因此需要以安全为中心的生成式AI应用方式

此外,不仅是简单的问答,
通过基于内部文档和嵌入数据的RAG(Retrieval-Augmented Generation)聊天机器人实现
目标是构建根据资料有无自动切换响应方式的结构。

  • 存在内部文档时 → 基于RAG的响应

  • 不存在内部文档时 → 仅LLM响应


2. Solution(解决方案)

目标定义

  • 验证基于安全解决方案的数据泄露防止结构

  • 与GPT-4o相比,进行AWS基础LLM的性能·质量比较及基准测试

主要验证课题

  • 验证确保内部数据不被用于外部学习的架构

  • 验证利用AWS LLM模型的响应质量及准确度


3. Result(成果)

构建基于RAG的数据处理管道

  • 建立将各种形式的文档转换为适合RAG的结构的预处理流程

  • 将预处理的数据在AWS OpenSearch中进行向量索引,确保搜索准确度

文档解析及索引高度化

  • 利用基于LLM的OCR进行文档内容解析

  • 将解析的文档加载到VectorDB(OpenSearch)中,构成可利用RAG的结构

聊天API业务逻辑实现

  • 用户查询输入时进行意图分类
    (公司规定 / ESG / 其他)

  • 根据分类结果自动选择RAG管道或仅LLM响应路径

文档校正功能验证

  • 实现利用LLM进行拼写错误·表达错误校正的管道

  • 完成文档质量改进可能性验证

预期效果

基于RAG的聊天机器人应用

  • 通过AIR Studio提供内部文档RAG聊天机器人及Web RAG聊天机器人

  • 支持按存储库的文档管理及设置管理功能

  • 建立基于预期问答集的聊天机器人验证体系

文档校正自动化

  • 提供基于Streamlit的UI

  • 文档上传时自动检查全部内容并输出校正结果

Related

Case Stories

Ready to unlock your data's potential?

Let's build intelligent data solutions that drive real business value through advanced analytics and AI.

ACT ACERTi

ISO/IEC 42001:2023
ISO/IEC 27001:2022

ISO/IEC 27018:2019
ISO/IEC 27017:2015

ISO/IEC 27701:2019
ISO 45001:2018