青浦门户网站棋牌软件开发教程

当前位置: 首页 > news >正文

青浦门户网站,棋牌软件开发教程,名片式网站模板,wordpress 主页编辑说明 最早在CSDN上写文章有两个目的#xff1a; 1 自己梳理知识#xff0c;以备日后查用2 曾经从别人的文章中得到过帮助#xff0c;所以也希望能给人帮助 所以在这个过程中#xff0c;我的文章基本上完全是原创#xff0c;也非常强调落地与工程化。在不断写作的过程中…说明 最早在CSDN上写文章有两个目的 1 自己梳理知识以备日后查用2 曾经从别人的文章中得到过帮助所以也希望能给人帮助 所以在这个过程中我的文章基本上完全是原创也非常强调落地与工程化。在不断写作的过程中我也得到了许多好处教学相长的感觉。 不过万事都有个尽头我给自己一个小目标1000篇博客。在接下来的1~2年内我会完成这个目标。 内容还是以我自己的体会、实践为主如果有人觉得有用固然好自己写写也挺享受的。 内容 快到年底了又是一年。完结篇从一个年度回顾开始吧。 大概围绕架构、大模型应用、算法与量化展开。 1 架构 我大约是从2020年开始决定搞这方面的。最初的动力是来自于需求无法被满足。我所设想的算法世界很有趣但是似乎找不到可以支撑的结构我碰到的很多项目都是传统项目过于古老而简陋。 于是我从装机器、装系统、布服务一点点搞差不多4年时间我觉得终于可以告一段落了。架构的世界也很大我不是高手只是觉得到这里基本结构可以了我的兴趣还是在算法。 顺着时间线5月份之前的记忆有点模糊了忘了搞了什么。 1.1 ClickHouse - 6月 这是一个很棒的列式数据库非常适合做备份、快速统计等以前在我的数据库里缺了这一块。 1.2 ORM - 7月 原来我比较排斥ORM觉得效率不够高。这大概是我过去经常是做块状数据操作而且交互量也不大的原因。后来突然发现世界是有两极的批量操作和单条操作是不可能互相取代的各有用武之地。 所以我把SQLAlchemy捡了起来然后做了大量的对接工作MySQL、Postgres、Clickhouse、SQLite 等一系列的对接将使用习惯扭转过来。感觉好极了。 之后用MongoEngine 做了和Mongo的对接。 1.3 异步并发 - 8月 因为要调用大模型所以对线程和协程异步并发也重新拉出来Review然后算是成熟应用了。踩了一些坑比如协程最好在脚本里只调一次run之类的。 1.4 Pydantic - 9 月 很早就像对数据的接口做规范。这次终于发现这个宝藏包挺好的。 1.5 InfluxDB - 10 月 突然发现我一直少了一块数据库时序数据库。这次也补上了未来可以用来做事件的存储分析特别是量化的数据。 1.6 FastAPI - 10月 之前是有点偷懒的想着既然掌握了Flask、Tornado 是不是也就够了。后来发现FastAPI还是很有必要的特别是天然的异步可以结合异步包进行单条的数据库操作。 1.7 Prefect - 11月 在调度这块我一直是比较缺失的。我基于Celery、FlastAPScheduler等其实已经自研了80%左右还缺前端。但是Prefect可以更快让我动起来我还可以借鉴一些成熟的做法这样也几乎补上了这块短板。 1.8 队列 - 6-11月 前前后后我尝试了RabbitMQ、Redis Stream、Kafka 三种队列。今年主要把Kafka弄好了这个的作用比较大。当然我又发现这几种队列又是没法互相取代的(轻、重队列。 1.9 MatterMost -12 月 搭建了自己的服务方便之后使用大模型加持比如整理知识、自动安排提醒以及消息推送等。 1.10 Milvus 11月 以前做过实验性的终于在生产上用起了Milvus。 1.11 Neo4j 10月 以前做过实验性的终于在生产上用起了Neo4j。 1.12 DogPile 11月 开始在生产上用了Cache 其他 还有一些是零零散散做的比如 1 日志。以前一直没有记日志的习惯大部分时候是提供一个足够好的无状态服务。2 Ansible。用于自动化部署。3 Grafana。用于展示数据。4 Telegraf。 和InfluxDB搭配的收集和解析指标工具。5 Logstash。另一个生态ELK下的组件。6 Nginx。开始用带健康检测的方式实现AB服务的部署。7 Mysql 升到了8。8 Mongo升到了8。 除了这些工具性的东西我还做了大量的与之适配的开发。总之今年可以说从程序设计、程序调度、IO并发以及存储等多个方面都有了大提升够我实现一些基础算法能力了。 比较可惜的是今年还是没有时间 把Dask和Ray搞好,得要2025年了。 2 大模型应用 今年应该算是大模型应用元年。 2.1 智谱时间(3、4月 早些时候智谱还是最好的选择。那时候我还手工部署和使用过glm2,glm3还用自己的显卡实现过一些简单的项目。后来调他们的官方接口也做过一些任务。 2.2 Ollama时间(5、6月) 那时还是以自己搞小模型为主当时出了Llama2啥的性能有了提升但还没太大用。 2.3 LangChain-ChatChat(7月) 虽然还是一个基于小模型的工具但是从前台到后台把RAG的东西展示清楚了也触发了我去搞Agent、Function-Calling的想法。 2.4 DeepSeek(8、9月) 从这里开始是一个分水岭。DeepSeek重新定义了大模型的价格以及效果。很快还退出了缓存技术这都是很大的进步让我们的项目可以以更大的规模去使用大模型。 2.5 豆包(10,11月) 如果说DeepSeek是ToC的那么豆包就是ToB的。同级别的效果更大的并发和更低的价格。我们的应用量更大了。 到现在我们非常明确大模型对于产品和业务应该怎么去配合以及发挥价值。外在 对我来说更重要的还是RAG、Agent和Function-Calling。从现在的评估来看大模型的能力基本没有问题了工具也基本查探和准备好了下一步就可以结合我的工作方式 丰富并在实际的业务中发挥很大作用。内在 大模型白热化竞争以及飞速迭代的背后让我更加肯定一些模糊的想法。既要顺着主流把大模型用好 当下就产生巨大推力另外也要看到未来发展的趋势有些是必然的比如机器换人。还有一些是现在主流技术的盲区但随着大模型的影响力这些盲区可能会被打开。 总之现在更专注与加速是最正确的决定。 3 算法 算法是目前我最“亏欠”的一块 我最初是搞算法的这是我最感兴趣的一块。中间因为建设架构的原因很大一部分精力都不在算法。然而这才是价值实现的最关键步骤。 我的算法最终目标是模拟推演。 如果说传统机器学习是基于解析法的我所要研究的方向就是近似法。在模拟和推演的基础上可以进行发现也可以进行博弈。 3.1 实体识别重构(3-5月) 最早有一版实体识别但是比较早了。后来需要进行迭代里面的从打标、训练到输出整个流水线很长。所以我对整个模型的流水线进行了重构。 感觉更多的还是“炒冷饭”但是为了业务也没办法。 3.2 实体识别及匹配(7-8月 这个更多是奔着业务去的但是在这个过程中有方法性的收获。 1 信息角度。向量法对于特别短的文本效果是不好的这时候熵太大了。所以不能用向量而是要用类似词袋的方法。所以这是一个两极问题。2 层次。先模式识别再模型处理。一个基本的总分结构是要有的。 3.3 开启强化学习(9-10月) 有了一个完整的开始也完成了一些入门级实验。 1 强化学习的基本概念。2 QLearning的再次剖析后续打算以这个为抓手重新切入。 3.4 语义向量的使用(8-11) 这也算是炒冷饭吧好歹也用上了。效果如预期不错。 3个应用点都是用向量去重。 诶就是这些。感觉自己都很丢脸一点深度都没有。明年开始要改变了期待在未来的4年内算法再上一个台阶量化为证。 我大致把算法分为以下几部分 1 判别算法。包含聚类和分类算法主要的目的是将数据归为某类并给出量化的度量。这模拟人类的基础判别逻辑归纳和演绎。2 遗传算法。主要的目的是进行探索找到更合适的解。与之相关的是线性规划一种更简单的优化方法。3 推理算法。目前还不明确但应该是以图为基础的算法。模拟人的链式推理。4 强化学习。主要目的也是进行探索但与遗传算法不同强化学习的目标是更泛化的通用目标更接近人的学习方式。5 时间序列模型。特别强调在时间序列上的特征计算与判别比较有代表性的是HMM的隐含序列。6 推荐算法。从时间和空间两个大的维度进行推荐。 一些比较明确的想法 1 LR、GBDT、XGBoost差不多是判别模型的代表。2 KMeans, DBScan是聚类的代表。3 图的聚类或者说子图分割是一个重要的切入点。4 遗传算法LR矩阵计算可以产生很强大的应用我称为MPLR(Matrix Parralel LR)5 QLearning可以视为是强化学习的LR。 4 量化 产生了一些新的想法更新了认知也有了新的工具准备。 认知1: 中国的股市完全不同于美国股市但不意味着无价值只是方法不同 认识2: 投资债券可能是更好的方式 认知3: 简单技术路子是行不通的虽然能比一般的固收高但肯定不划算 认知4: 模式模型是对的方式 认知5: 先实现成熟的策略再进行变体是对的方式 工具1Numba。极大加速了数值型For循环的效率。 工具2Pybroker。可以用来进行参照和对比。 我希望明年一月份可以完成V2版的第一次迭代V1版要准备退出舞台了。