数据管理配置

概述

配置问数助理的数据分析来源，预置了部分开箱即用的钉钉一方应用数据，也支持企业上传自有数据，主要包括以下几种数据源类型：

本地表格：支持.xls、.xlsx、.csv格式文件。
钉钉多维表：支持分析钉钉多维表数据。
本地数据库：支持MySQL、Hologres等多种行业主流数据库。
钉钉数据资产平台：支持使用数据资产平台加工后的数据集。
钉钉官方应用数据：支持使用部分钉钉官方应用数据。

场景 1：基于本地表格的数据进行智能分析

功能使用效果

功能搭建流程

单击添加数据源，选择本地表格。
进入上传本地表格页面，你可以上传表格文件，目前支持的格式有 .xls、.xlsx、.csv，文件大小不能超过 10 M。
说明
- 初次使用时，可以单击“下载模板”，使用数据模板，按照固定格式上传数据，可以让AI学习的更好；或是单击“使用模板示例数据”，快速体验过程。
- 本地表格暂仅支持 1 个 sheet，最多仅支持 40 列。
- 本地表格的表头不能存在空值，字符长度最多不超过 30，表头不能重名，否则会影响大模型理解的准确度。
- 本地表格的内容不要包括合并单元格、图片等，否则会影响内容解析。

上传完成后，单击下一步，进入配置表格内容：

功能		具体说明
数据集名称		用于做数据集的区分
数据集描述		描述清楚数据集的分析场景和内容，当选择多个表时，用于帮助大模型进行表路由
表结构	字段原名称	系统自动解析本地表格的表头生成，不可修改
	字段自定义名称	直观的中文名称，用于可视化展示的名称，简洁明确。例如，birth_date 的中文名为“出生日期”
	字段类型	系统自动解析生成，支持修改，包括字符串、数值型、时间型
	字段描述	详细描述字段用途和规则，帮助大模型更好的理解字段含义。例如 birth_date 的备注可能是“格式为YYYY-MM-DD，用于计算年龄”
	维度	维度是指分析数据的视角，比如日期、商品品类、产品名称等，用于帮助AI根据用户提问进行优先匹配，维度列的字段类型一般是字符串

配置完成后，可以在数据管理列表通过开关来决定数据集是否生效。

场景 2：基于钉钉多维表的数据进行智能分析

功能搭建流程

单击添加数据源，选择多维表

进入选择多维表页面，你可以选择自己有查看权限的多维表，支持分析以下多维表的字段

多维表字段	值示例
文本	这是个文本
单选	保存key，服务端查询时转换
多选	保存key，逗号分隔，服务端查询时转换
人员	人名
群组	群名
部门	部门名
日期	格式yyyy-MM-dd
数字	整数转为long,小数转为double
复选框	字符串
附件	地址
链接	-
进度	数值
地理位置	地名
条码	-
电话	-
地址	-
评分	数值
货币	-
邮箱	-
身份证	-
手写签名	图片地址
自动编号	-
创建人	人名
更新人	人名
创建时间	格式yyyy-MM-dd
最后更新时间	格式yyyy-MM-dd
富文本	-

选择后，进入配置多维表内容：

说明

多维表内容实时更新同步。
多维表的子表和表头更新时，需要手动单击刷新按钮更新。

功能		具体说明
数据集名称		用于做数据集的区分
数据集描述		描述清楚数据集的分析场景和内容，当选择多个表时，用于帮助大模型进行表路由
表结构	字段原名称	系统自动解析本地表格的表头生成，不可修改
	字段自定义名称	直观的中文名称，用于可视化展示的名称，简洁明确。例如，birth_date 的中文名为“出生日期”
	字段类型	系统自动解析生成，支持修改，包括字符串、数值型、时间型
	字段描述	详细描述字段用途和规则，帮助大模型更好的理解字段含义。例如 birth_date 的备注可能是“格式为YYYY-MM-DD，用于计算年龄”
	维度	维度是指分析数据的视角，比如日期、商品品类、产品名称等，用于帮助AI根据用户提问进行优先匹配，维度列的字段类型一般是字符串

配置完成后，可以在数据管理列表通过开关来决定数据集是否生效。

场景 3：基于本地数据库的数据进行智能分析

功能搭建流程

单击添加数据源，选择本地数据库。

进入本地数据库配置页面，配置内容如下。

功能	具体说明
数据库类型	支持MySQL、Hologres、PostgreSQL、AnalyticDB for PostgreSQL、SQLserver（2016及以上）和 Oracle（12c及以上）
数据源名称	用于做数据源的区分
数据源描述	用于做数据源的区分
JDBC URL	示例：jdbc:<databaseType>://<server>:<port>/<databaseName>
用户名和密码	正确输入后请单击“测试连通性”，保证数据库联通成功，然后才能进行下一步

配置完成后，单击下一步，进入配置数据集页面，支持新建多个数据集，配置内容如下：

功能		具体说明
数据集名称		用于做数据集的区分
数据集描述		描述清楚数据集的分析场景和内容，当选择多个表时，用于帮助大模型进行表路由
选择原始表		选择数据库中的表，不可重复选择
表结构	字段原名称	系统自动解析数据库中的物理列名称，不可修改
	字段自定义名称	直观的中文名称，用于可视化展示的名称，简洁明确。例如，birth_date 的中文名为“出生日期”
	字段类型	系统自动解析生成，支持修改，包括字符串、数值型、时间型
	字段描述	详细描述字段用途和规则，帮助大模型更好的理解字段含义。例如 birth_date 的备注可能是“格式为YYYY-MM-DD，用于计算年龄”
	维度	维度是指分析数据的视角，比如日期、商品品类、产品名称等，用于帮助AI根据用户提问进行优先匹配，维度列的字段类型一般是字符串

说明

原始表名也会用于模型推理，原始表名尽量用表意的全小写+下划线（如market_sales），避免使用中文物理表名，大小写、中文、特殊符号混用的表名，以及超长的表名
字段原名称代表数据库中原始的物理列，字段原名称的和原始表名类似，避免使用中文列名，大小写、中文、拼音、特殊符号混用的列名，列名尽量使用贴合业务含义的英文，单词间用下划线分割
不同表中代表同一含义的字段，尽量使用统一的值格式，比如日期，避免一部分字段使用的是日周月，一部分是月，一部分又是精确到天；又比如公司名，部门名，产品名等，尽量使用全称，避免使用简写或拼音

配置完成后，可以在数据管理列表通过开关来决定数据集是否生效。

场景 4：基于数据资产平台加工后的数据集进行智能分析

功能搭建流程

单击添加数据源，选择钉钉数据资产平台。
选择数据集，若要对原始数据进行清洗，融合、转换等处理请到数据资产平台，详见数据工厂。
配置完成后，可以在数据管理列表通过开关来决定数据集是否生效。

场景 5：基于钉钉官方应用数据进行智能分析

功能使用效果

功能搭建流程

单击添加数据源，选择钉钉官方应用数据。

选择希望分析的官方应用场景，包括考勤、审批、人事、差旅、合同、招聘、会议（其他钉钉应用数据持续丰富中）。

钉钉应用数据	具体说明
钉钉考勤	支持分析员工出勤、请假、打卡、迟到等数据，比如看下我最近一周的打卡情况、帮我查看公司最近30天出勤率的变化趋势
OA审批	支持分析审批单的处理耗时、审批状态等数据，比如看下本周我仍在处理中的审批单、查看这个月公司审批耗时最长的审批单
智能人事	支持分析在职员工的人数、年龄等基本信息，比如看下每个部门有多少在职员工、查看在职员工办公地点分布
智能差旅	支持分析出差天数、目的地分布等数据，比如帮我看下公司去年出差天数月趋势、看看本月员工的出差频率排行榜
智能合同	支持分析合同金额、状态等数据，比如看下公司近30天合同数变化趋势、最近半年花钱最多的合同是那个
智能招聘	支持分析招聘进展、渠道等数据，比如近三个月简历数量变化趋势、看下各个HR近一年的招聘量
钉钉会议	支持分析会议时长、开会次数等数据，比如帮我看下最近一个月我发起的会议数、公司最近7天每天平均会议要开多久

配置完成后，可以在数据管理列表通过开关来决定数据集是否生效。
说明
- 官方应用数据开箱即用，暂不支持手动调优。

数据预处理技巧

数据集配置

数据集的名称及描述贴合业务，最好是中文；
不同数据集的描述要有所区分，以帮助大模型进行表的路由；
数据集的字段名称及描述贴合业务，描述里面备注清楚业务含义（如同义词，业务含义等），最好把示例值也展示出来，比如名称“类目”描述“也可以叫类型、分类，值不同服装的类目，包括女装、男装、童装”；
同一数据集的不同字段的名称要有所区分，以帮助大模型更精准地选列，避免出现含义重叠，含义冲突的列（例如，某列名叫地区，实际的值却是省份）
维度列一般是值可枚举的字符串列，如地区、省份、名称等，勾选维度类可以帮助AI根据用户提问更精准地匹配数据库中的值

原始数据加工

For 表格数据 &数据库数据

物理表名称（原始表名）尽可能使用表意的英文+下划线（如purchase,sales,stock），避免使用简写、中文、拼音、特殊符号等
物理字段名称（字段原名称）类似物理表名，尽可能使用表意的英文名+下划线（如birth_date, sale_amount, sale_price）
字段类型与数据本身类型尽可能保持一致，如数值定义为字符串类型可能会导致生成的SQL无法执行
减少脏数据，如特殊符号、空值，非一致类型等；
对于枚举值，避免使用特殊的数字或编码，尽可能直接使用表意的中文，例如审批单状态有：审批中，已完成，已驳回等
不同表中代表同一含义的字段，尽可能使用统一的值格式，比如日期，避免一部分精确到日，一部分精确到秒
预加工复杂口径的字段，降低模型推理的难度，如涉及到总价= 单价 * 数量，如果直接有总价字段更明确；
减少有歧义的字段或值，如枚举项的多值问题

For 表格数据

Excel文件默认第一行为表头，表头要见名知意，表头长度为30个字符，不能为数字开头，尽量不使用特殊符号（注：当表头为空时，当前列所有数据都会被丢失）；
Excel文件默认从第二行往下为表数据，每一列表数据的类型建议一致，如表头为【价格】数据列，建议都是数值型，不要出现字符串，否则当前类会被判断为字符串（注：当表数据为空时，当前数据被替换为NULL）；
Excel文件数据类型为日期型时，建议采用Excel提供的标准日期类型,如2024-07-01、20240701；减少特殊日期类型的使用，如7.1.2024、0701-2024；
Excel文件优先选择XLSX格式，解析兼容性更好；针对xls格式的文件，EXCEL编辑器版本不低于2007；
Excel文件避免使用「合并单元格」、「公式计算」、「升序降序」等功能

能力边界

选择多个表后，支持对每个表进行智能分析，暂不支持多表之间的交叉分析。
若要追求高准确度，建议单次开启一个数据表进行分析。
针对多表分析的场景，可以提前基于数据工厂能力把多个表加工成一张大宽表进行问数。

所属商业化版本

免费版、高级版

常见问题

上传本地表格后，提示解析失败

答：请先按照模板格式上传，如果上传后仍解析失败，检查表格内容是否有合并单元格、数学公式、特殊字符，或者表头有纯数字，请避免这些情况的发生。

按照文档配置之后，外部系统为何无法正常访问数据库？

答：云数据库产商或者本地机房部署的数据库面向外部系统访问时，都有相关ip白名单设置，以阿里云RDS MYSQL为例：

确认预期云数据库 RDS，单击实例列表 > 白名单与安全组，进入白名单设置页面。

单击添加白名单分组，在白名单分组页面，填写对应白名单。

说明

智能问数相关 IP 地址：106.11.0.0/16,203.119.128.0/17,59.82.0.0/16,140.205.0.0/16,100.68.0.0/16,100.66.0.0/16,111.225.0.0/16,111.63.0.0/16,116.132.0.0/16