外部数据源
外部数据源是外部依赖层中的重要资产类型之一,它为企业提供了来自第三方的数据信息,丰富了应用的数据基础。
定义
外部数据源是由第三方数据供应商提供的外部数据信息来源,企业通过购买、订阅或公开渠道获取这些数据,用于丰富自身应用的数据内容或支持业务决策。外部数据源可以提供企业内部无法获取或难以收集的专业数据,如市场数据、地理信息、行业指标等。
用于模型训练、微调和评测的第三方数据集(如从 Hugging Face、ModelScope 等平台获取的开源数据集)同样属于外部数据源。这类数据会直接影响模型行为,存在数据投毒风险,其来源可信度与许可证条款应纳入资产盘点范围。
示例
| 资产示例 | 说明 |
|---|---|
| 天气数据 | 如气象预报、历史气象数据,由气象局或专业气象服务提供商提供。 |
| 地图数据 | 如地理位置、道路信息、兴趣点(POI)数据,由地图服务提供商提供。 |
| 金融数据 | 如股票价格、汇率、利率等金融市场数据,由彭博社、路透社等提供。 |
| 公共数据集 | 如政府开放数据、人口统计数据、公共健康数据等。 |
| 开源训练数据集 | 用于模型训练、微调或评测的第三方数据集,如 Hugging Face 上的开源语料和标注数据集。 |