Home
玩机器学习的章北海
Cancel

用 Python 把 PDF 玩的明明白白.md

大家好,我是章北海 PDF 文档解析不是什么新东西了,但是最近大模型、RAG 兴起,把这一块又带火了。 本文,梳理 7 个很常用的 pdf 处理、解析、翻译库、项目和资料。 如有帮助,欢迎点个 【在看】 1、PDFMathTranslate:文档翻译神器,公式、图表都不在话下 项目地址:`https://github.com/Byaidu/PDFMathTranslate/ 简介 ...

Cursor 完全实用教程之外,cursorrules 详解.md

大家好,我是章北海 之前推过两篇文章详细介绍 Cursor 这个神级代码编辑器:Cursor 完全使用教程、迄今最好的AI代码编辑器,编程只需狂按Tab 还在【大模型实战,完整代码】AI 数据分析、可视化项目这篇文章介绍了借助 Cursor + Claude 开发一个完整的项目。 今天探讨下 Cursor 中Rules for AI和.cursorrules 的关系、优先顺序及用法。...

主流工具全景图, 涵盖了从开发、测试到部署的完整工作流程.md

大家好,我是章北海 刷推看到一张图,来自 @bytebytego。 这是一张主流工具全景图,涵盖了从开发、测试到部署的完整工作流程。 这上面有很多自己在用,确实非常好,有很多我也不太熟悉。 所以就找大模型帮我挨个做了一个简介: 包括它们的简介、特点、适用场景以及官方网站地址。 1. Development Env (开发环境) VS Code 简...

用 R 复刻一张图.md

大家好,我是章北海 现在市面上再有大模型发布,很难掀起大波澜了,尤其是国内百模大战背景下。 前几天看到阿里开源了通义千问 Coder 系列的 6 款 Qwen-2.5-Coder 模型。 说是编程能力又大幅提升了,甚至超越 GPT-4o。 由于阿里没有给我广告费,我就不吹嘘它如何牛逼了。 倒是感觉官方这张图很有漂亮 既然大模型都这么能打了,那能不能复刻这张图呢? 我找了 G...

t-SNE 高维数据可视化利器.md

大家好,我是章北海 最近在看了几篇数据降维相关文章,顺便总结记录一下。 在机器学习和数据挖掘领域,经常面临高维(很多特征或属性)数据的挑战。 高维数据不仅在存储和计算上带来困难,更重要的是,我们很难直观地理解高维空间中数据点的分布和结构。 因此,降维成为了一项重要的数据预处理任务。 什么是降维?顾名思义,就是将高维数据转换到低维空间 (通常是二维或三维) 中,同时尽量保持数据点之间...

机器学习进阶必备-10 个高效 Python 工具包完全指南.md

1. 数据质量管理——CleanLab GitHub: https://github.com/cleanlab/cleanlab 功能: 自动检测和清理数据集中的问题 特点: 特别适合机器学习数据集的标签和数据质量检查 优势: 自动化程度高,可以节省大量手动检查数据的时间 安装: pip install cleanlab 代码示例: ```python from c...

微软研究院出品:让 GPT-4V秒懂屏幕截图,本地部署.md

项目概述 OmniParser 是微软研究院开发的一个创新项目,旨在增强大型视觉语言模型(如 GPT-4V)在操作图形用户界面(GUI)时的能力。 该项目由微软研究院和微软通用 AI 团队共同开发。 https://microsoft.github.io/OmniParser/ 核心问题与解决方案 传统视觉语言模型在处理 GUI 操作时面临两个主要挑战: 难以可靠识别界...

2000000000000000000.md

我的天哪!你们听说了吗?俄罗斯政府给谷歌开出了一张罚单,数额之大简直让人难以置信!据说高达 20000000000000000000000000000000000 美元,这个数字比全世界一年的 GDP 加起来还要多,太离谱了吧! 事情还得从 2020 年说起,当时谷歌旗下的 YouTube 把一些俄罗斯媒体的账号给封了,结果被告上了法庭。俄罗斯法院判谷歌输了官司,还要它每天交 10 万卢...

phidata 一个超强的构建Agent的大模型框架.md

大家好,我是章北海 向大家推荐一个超强的构建Agent的大模型框架——Phidata Phidata是一个用于构建智能Agent系统的Python框架。 它让你可以方便地创建具有记忆力、知识、工具使用能力和推理能力的AI助手,并将其作为一个完整的软件应用运行(包括数据库、向量数据库、API等)。 同时phidata还提供了对Agent系统的监控、评估和优化功能。 使用phidata...

pandas数据分析流程.md

10 分钟掌握 Pandas 核心操作:从零开始的数据分析实战 大家好,我是章北海 在数据分析领域,Pandas 是一个不可或缺的 Python 库。本文将通过一个真实的销售数据分析案例,系统地介绍 Pandas 的核心操作。无论你是数据分析新手还是希望系统复习的老手,这篇文章都值得收藏。 一、项目背景 假设你是一家连锁店的数据分析师,需要处理和分析全国各地区的销售数据。数据分散在...