小组Java
  • 字符串的问题,求解答!

    02/23 dcqqqqqq 14 评论

一大段字符串,获取里面特定部分的内容,比如“编者的话”“后记”这些部分的内容,请问怎么截取,这些字符串出现了不止一次而且不知道几次的情况下怎么准确的截取到那些内容?

1 收藏


直接登录
最新评论
  • re   02/23

    给个具体的样本

  • 凌小夜 程序扁 02/23

    给个用例看看

  • dcqqqqqq 程序猿 02/23

    解析过的pdf内容出来之后的一部分是这样的,然后我想分部分获取“前言”“规范性引用文件 ”这里面的内容。因为要做成通用的,pdf不止一个,所以遇到了麻烦

  • 萧艾遥 孤独的跑者 02/23

    关键字:多模式匹配算法,比如AC算法等。算法内容就不赘述了。

    • dcqqqqqq 程序猿 02/23

      我去看看

      • 萧艾遥 孤独的跑者 02/23

        刚看到你举的例子,我刚刚的回复应该不适合你的需求。你的需求看起来类似正则匹配?

        • dcqqqqqq 程序猿 02/23

          我感觉正则的话也不太合适,匹配的开始的,不好匹配结束的呀。比如说“前言”是我需要的,我知道匹配“前言”,但是结束的时候不知道匹配什么

           

          • 萧艾遥 孤独的跑者 02/23

            是的,不太好精确匹配。

            这样,可以把下个标题的出现当做上个标题的结束(边界情况再处理一下)?你把所有内容区块的标题都列举出来,然后根据这些标题的index去文本中截取,标题和截取出来的文本对应起来成K-V对,这样,你想要哪个标题下的文本,就可以找到了。可以吗?

            • dcqqqqqq 程序猿 02/23

              我感觉可以,我去试试。谢谢了

            • dcqqqqqq 程序猿 02/23

              刚说完就打脸了,因为要做到通用,每个pdf的标题顺序还都不一样,第四个标题在每个pdf的内容不一样,真是坑

              • 萧艾遥 孤独的跑者 02/23

                目的就是为了做出来一个Dictionary样的结构,应该不用care顺序的吧。感觉这种问题吧,就得具体情况具体处理了,没啥通用的方法,哈哈

                比如“范围”这个标题,打击面太大了,你可能得匹配“1 范围”,类似这样的“具体情况具体处理”。