当前位置:首页 > 站长资讯 > 正文内容

jsoup 1.22.1 发布,Java HTML 解析器

a811625532个月前 (01-04)站长资讯15

jsoup 1.22.1 已正式发布,本次更新引入了对 re2j 正则表达式引擎的支持(专用于正则驱动的 CSS 选择器)、可自定义的更大解析深度设置,并包含多项缺陷修复与功能优化。

功能增强

  • 新增对 re2j 正则引擎的支持,适用于基于正则的 CSS 选择器语法(如 [attr~=regex]:matches(regex)),显著提升处理用户输入正则表达式的安全性。启用方式:将 com.google.re2j 添加至类路径,例如:
com.google.re2j re2j 1.8

若类路径中已存在该依赖但希望回退至 Java 原生正则引擎,可通过 System.setProperty("jsoup.useRe2j", "false") 显式禁用;调用 Regex.usingRe2j() 可验证 re2j 是否已成功激活。#2407

  • 新增实例 *** Parser#unescape(String, boolean),利用当前解析器配置执行 HTML 实体解码(例如支持错误定位),作为已有静态工具 *** Parser.unescapeEntities(String, boolean) 的补充实现。#2396
  • HTML 与 XML 解析器均支持配置更大解析嵌套深度(限制中活跃元素数量)。HTML 解析器默认深度设为 512,以对齐主流浏览器行为并防范栈溢出风险;XML 解析器默认不限制深度,但可通过 Parser.setMaxDepth() 手动设定上限。#2421
  • 构建流程升级:CI 环境新增 JDK 25 兼容性测试覆盖。#2403
  • 构建流程升级:在原有完整 HTML/XML 模糊测试基础上,新增针对上下文片段解析的模糊测试模块(由 oss-fuzz 提供支持,ID: #14041)。

API 变更

立即学习“Java免费学习笔记(深入)”;

DeepL

DeepL是一款强大的在线AI翻译工具,可以翻译31种不同语言的文本,并可以处理PDF、Word、PowerPoint等文档文件

下载
  • 启动 jsoup 1.24.1 版本中废弃 API 的移除路线图,相关接口将在后续版本中逐步淘汰。

问题修复

  • 修复 Node#replaceWith(Node) *** 中未及时清除被替换节点缓存子元素的问题,避免后续调用 Element#children() 返回异常结果。#2391
  • 属性选择器值现严格按字面量比对且不再自动裁剪首尾空白。此前版本会同时清理选择器值与元素属性值中的空格,导致行为偏离 CSS 规范及浏览器实际表现(如 [attr=" foo "] 匹配失败)。现已完全对齐标准。#2380
  • 使用 JDK 内置 HttpClient 时,系统级 *** (ProxySelector.getDefault())曾被忽略。现已修正:当请求未显式指定 *** 时,自动采用系统默认 *** 设置。#2388,#2390
  • “adoption agency” 算法在面对严重损坏 HTML 输入时可能抛出 ValidationException。现改为统一记录为解析警告,不中断处理流程。#2393
  • HTML 正文内空字符(U+0000)移除逻辑不一致;外部引入内容中的空字符亦未能正确转义。此问题已修复。#2395
  • 解析恶意构造的正文片段时偶发 IndexOutOfBoundsException。现捕获并降级为解析错误日志,保障稳定性。#2397,#2406
  • ……

内部调整

  • 标记内部辅助类 org.jsoup.internal.Functions 为已弃用,计划于 v1.23.1 中彻底移除。#2412

完整更新日志请参阅:https://www.php.cn/link/adb7dc747bdd4a368293f7fd6721d6df

源码获取地址:点击下载

扫描二维码推送至手机访问。

版权声明:本文由2345好导航站长资讯发布,如需转载请注明出处。

本文链接:http://www.2345hao.cn/blog/index.php/post/27761.html

分享给朋友:

“jsoup 1.22.1 发布,Java HTML 解析器” 的相关文章

高强度竞争领域注定容不下安逸,等待敲锣的协和电子正走在掉队的路上?

高强度竞争领域注定容不下安逸,等待敲锣的协和电子正走在掉队的路上?

  扎根印制电路板技术研发二十年,专注于汽车电子、高频通讯等中高端领域的协和电子(605258)本周启动招股,下周四(11月19日)即将网上申购。   多年的沉淀,令其收获了一批优质客户。不过随着行业规模增长放缓、各类成本抬升以及行业龙头集中度提高,协和电子往日优势逐渐消退,利润水平也逐年降低,此...

威腾电气IPO观察:自夸“头部企业”被打回原形 拿投资者4个亿只为“试试水”?

威腾电气IPO观察:自夸“头部企业”被打回原形 拿投资者4个亿只为“试试水”?

  威腾电气,一家缺乏科创属性、爱夸夸其谈还带着问题供应商的公司,正在冲击科创板市场。   2021年1月14日,以输配电中母线产品研发、制造及销售为主业的威腾电气,正式通过上市委会议,距离科创板上市又近了一步。   但这对投资者而言,可能并不是一件好事。   由于身在传统电力行业,科研步伐又...

市占率不足0.1% 造血能力不足 罗普特科创上市谋续命?

市占率不足0.1% 造血能力不足 罗普特科创上市谋续命?

  钱流不进口袋的企业,真的算是赚钱企业吗?   盈利,是大部分投资者最关心的问题。但企业盈利的有效性,是有前提的,现金流就是这个前提。但这部分,往往会被许多投资者忽略,正如巴菲特的那句著名评论:“现金是氧气,99%的时间你不会注意它,直到它没有了”。   没有现金流入的盈利只是纸面数字,纸面数...

新风光:核心材料严重依赖进口 毛利率下滑市场“风光”不再 |

新风光:核心材料严重依赖进口 毛利率下滑市场“风光”不再 |

  作为“光伏、风电”等大热门行业上游关键零部件供应商的新风光,即将登陆科创资本市场。   2021年3月24日,以大功率电力电子节能控制技术为核心技术平台,构筑电气控制装备产品体系的新风光,在科创板开启招股环节。   招股资料显示,新风光本次共计将募资5.9亿元,其中1.5亿元用于变频器和SV...

上声电子:四年净利仅剩30% 研发低产能又“空置” 三角股权难解丨

上声电子:四年净利仅剩30% 研发低产能又“空置” 三角股权难解丨

  历时四年发展,归母净利润反缩水近7成的上声电子,即将登陆科创板,寻求资本助力。   作为国内前装市场汽车声学产品方案供应商的上声电子,于2021年3月29日在科创板启动招股环节。公司计划募集4.47亿元资金,其中2.47亿元用于扩产扬声器项目,1.49亿元用于扩产汽车电子项目,剩余5000万元...

华恒生物:近半市占率的细分龙头 竟然只能“被动挨打”丨

华恒生物:近半市占率的细分龙头 竟然只能“被动挨打”丨

  全球最大的丙氨酸生产商华恒生物,即将亮相科创资本市场。   2021年4月7日,以合成生物技术为核心,主要从事氨基酸及其衍生物产品研发、生产、销售的华恒生物,于科创板开启了路演询价环节,距离正式亮相科创板仅剩一步之遥。      图/Wind   目前,华恒生物拥有接近50%的市场占有率...