题记
此篇总结一下目前生成式AI在企业中的研发实践。作为一个大数据开发出身的我来说,越来越感受到 数据+算法+算力 人工智能三要素的紧密关系是多么重要。
注:以下总结来源于infoQ研究报告摘要。
场景
办公
- 文本信息的处理和生成
- 数据分析
- 个人办公助理
- 图像信息的处理和生成
- PPT生成和美化
教育
- 学习助手类
- 个性化教学方案生成
- 陪伴学习类
- 辅助教师作业批改
- 数据分析
- 练习题等作业自动生成
心与心的交互
这周做了个事情趁热沉淀一下。问题很明确治理小文件
。问题由来,要追溯到去年,集群治理
了。之前做到存储
和计算
的管理,后续做了简单hdfs画像
(其中,就有小文件趋势监控)。最近,集群中namenode压力有所显现。于是,针对小文件多的目录进行了排查和治理。进而,有了今天的这个主题ORC小文件合并趣谈。
这里,首先治理的是实时导入数据的目录。这里增量数据采用SparkSQL
以动态分区增量写入的方式。众所周知,spark在处理时,每个task
都会写入一个文件(如果task处理的数据,包含n个分区的数据,就会产生n个文件)。进而,在并行度高的情况下,导致对应增量分区文件很多(存储并不大)。
在存储治理
中,平台统一要求将hive表的格式向orc
格式靠拢。orc的表在存储和查询上都有很好的提升。所以,这个问题就间接的转化为解决orc小文件问题。